JPH06161494A - 音声のピッチ区間自動抽出方法 - Google Patents

音声のピッチ区間自動抽出方法

Info

Publication number
JPH06161494A
JPH06161494A JP30869292A JP30869292A JPH06161494A JP H06161494 A JPH06161494 A JP H06161494A JP 30869292 A JP30869292 A JP 30869292A JP 30869292 A JP30869292 A JP 30869292A JP H06161494 A JPH06161494 A JP H06161494A
Authority
JP
Japan
Prior art keywords
pitch
waveform
section
speech
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP30869292A
Other languages
English (en)
Other versions
JP3219868B2 (ja
Inventor
Toru Tsugi
徹 都木
Nobumasa Seiyama
信正 清山
Eiichi Miyasaka
栄一 宮坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP30869292A priority Critical patent/JP3219868B2/ja
Publication of JPH06161494A publication Critical patent/JPH06161494A/ja
Application granted granted Critical
Publication of JP3219868B2 publication Critical patent/JP3219868B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 【目的】 任意の音声波形に対し、波形各部のピッチ周
期の抽出に始まり、波形を1ピッチ区間毎に区切るまで
の一連の処理を、正確にかつ自動的に行ない、これによ
って音声のピッチ周波数の正確な分析を可能にするとと
もに、ピッチ周期や話速の変換など、本来1ピッチ単位
の波形処理が適している音声変換装置や音声合成装置の
処理品質を向上させる。 【構成】 入力音声波形を取り込むとともに、そのうち
の有声音区間の適当な部分でピッチ周期の予備抽出を行
ない、その結果に基づいて、有声音区間全体の各部分ご
とに複数のピッチ候補を求めていき、どの候補が最も適
しているか判定し、この判定処理によって得られたピッ
チ周期に基づいて各ピッチ区間の開始点を決定して前記
入力音声波形を各ピッチ区間毎に区切って出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声のピッチ周波数やピ
ッチ周期を対象とした分析装置や音声処理装置あるいは
音声合成装置等で使用される音声のピッチ区間自動抽出
方法に関する。
【0002】[発明の概要]この発明は人の声を一時記
録し、1ピッチ毎にそのピッチ周期を抽出し、その周期
毎に音声波形を区切る技術に関するもので、入力音声を
A/D変換した後、有声区間を抽出し、その中のパワー
の大きい部分について複数の異なる窓幅で自己相関関数
を求め、各自己相関関数のピーク値の中から最適と思わ
れる時間遅れに存在するものを選択して、その時間遅れ
を仮のピッチ周期とし、この仮のピッチ周期を目安にし
つつ、有声区間全体について各フレーム毎にピッチ周期
の候補を複数求め、全体として連続性やパワーの変化を
考慮してその候補から一つを採用し、ピッチ周波数の時
間軌跡を形成し、かつそれを平滑化し、このピッチ周波
数軌跡より若干高いカットオフ周波数を用いて各フレー
ム毎に入力波形に低域ろ波を施し、有声区間全体として
連続な正弦波状の波形を得、この波形とパワーの変化を
基に1ピッチ毎のピッチ周期のスケールを構成した後、
有声区間の途中の最適な位置から時間的に前後に、1ピ
ッチ周期内の波形の短時間パワーが急激に上昇する直前
の零交差がピッチ区間の開始点となるように、ピッチ周
期のスケールに合わせて最適なピッチ開始点を求めてい
くことにより、入力音声の発声者の年齢や男女の違いに
関係なく正確にピッチ周期を抽出し、1ピッチ区間を単
位とした波形処理に適する位置で、入力波形の各ピッチ
区間を自動的に区切るようにする方法である。
【0003】
【従来の技術】人の声の科学的な分析を行なう装置や音
声の補聴機能を有する装置、文字列を音声に変換する装
置等を構成する場合、あるいは放送、映画、音楽産業等
において、声を処理する場合、音声処理装置によって人
の声質の一つの特徴である声の高さの時間変化パターン
を視覚的に表示したり、音声合成技術と組み合わせて、
声の高さや抑揚、発声速度を変化させたりビブラートを
付加したりするなどを行なうとき、各種の音声処理方法
を使用して必要な音声処理を行なう。
【0004】そして、このような音声処理方法におい
て、音声をピッチ区間毎に区切る際の事前の処理として
必要なピッチ周期抽出方法として、従来よりさまざまな
もの、例えば波形処理方式や相関処理方式、スペクトル
処理方式などの各種方式が提案されている。
【0005】波形処理方式は入力波形そのもの、または
これを低域ろ波した上で周期的なピークまたは零交差を
検出する方式であり、処理手順が簡便であるとともに、
アナログおよびディジタルの両処理で実現できるという
特徴を持っている。
【0006】しかしながら、この波形処理方式では、語
頭や語尾、有声子音部など、波形のレベルやスペクトル
が大きく変化する部分において抽出誤りを起こし易く、
また発声者の個人差も抽出精度に大きく影響するという
欠点がある。
【0007】また、相関処理方式は入力波形から適当な
窓幅で切り出した波形、またはこれを線形予測分析して
得られる残差信号波形の自己相関関数を求めたとき、ピ
ッチ周期に相当する時間遅れの位置に大きなピーク値が
得られる性質を利用する方式であり、最近のディジタル
信号処理において最も広く用いられている。
【0008】そして、この相関処理方式を改善した方式
として、自己相関関数を求める前に入力波形や残差信号
波形に低域ろ波を施すと抽出精度が向上することを利用
する方式も開発されている。
【0009】しかしながら、これらの各相関処理方式で
は、上述した波形処理方式に比べて、波形の乱れや個人
差による抽出精度の低下は少ないものの、入力波形を切
り出す窓幅の設定が最適でないと、半分や2倍の周期を
誤って抽出してしまうという欠点がある。
【0010】また、スペクトル処理方式は入力波形から
適当な窓幅で切り出した波形の離散的フーリエ変換を行
なったとき、パワースペクトル上で、ピッチ周波数の整
数倍の位置毎に高調波成分が現れる性質を利用する方式
であり、音声信号をデジタル処理するとき、良く使用さ
れる。
【0011】しかしながら、このスペクトル処理方式で
は、上述した相関処理方式と同様に入力波形を切り出す
窓幅の設定が最適でないと抽出誤りが多くなるという欠
点がある。
【0012】このため、従来法のほとんどは、これら波
形処理方式や相関処理方式、スペクトル処理方式をその
まま用いたり、変形して単独で用いたり、相互の欠点を
補う形で組み合わせて用いたりしている。
【0013】しかし、いずれの方法においても、万人の
音声のピッチ周期を完全に正確に抽出できるものではな
いため、任意の話者の音声波形を1ピッチ区間毎に正確
に区切るためには、上記の何らかの方式で予めピッチ周
期を推定した後、波形の視察等の人手による修正を行な
うことが必要である。
【0014】つまり、ピッチ周期の抽出から波形を1ピ
ッチ区間毎に区切るまでの一連の処理を、正確にかつ自
動的に行なう方法は、未だ実用化されていない。
【0015】
【発明が解決しようとする課題】ところで、老若男女す
べてを対象とした音声のピッチ周波数は、低いものでは
40Hz程度、高いものでは800H程度まで変化する
上、同一話者でも短時間のうちに2オクターブ近く変化
することがある。また、語頭や語尾では完全な周期性を
持たないこともあり、任意の音声のピッチ周期を正確に
抽出することは、音声処理技術上の難題とされてきた。
【0016】従来の技術においては、対象とする音声の
老若男女の別毎に、ピッチ周波数の存在範囲を予め設定
して、ピッチ周期抽出アルゴリズムで使用する各種パラ
メータを最適に調整してから分析を行なうことが一般的
で、例えば相関処理方式やスペクトル処理方式の波形切
り出し窓幅がこれにあたる。また、語頭や語尾の周期性
の乱れた部分の処理方法も、正確さを期するためには、
話者によって微妙にパラメータ値を変更することが必要
とされていた。
【0017】また、通常の発声では、/r/や/d/な
どの有声子音部分において、前後の母音よりも若干ピッ
チ周期が長くなる傾向がある。
【0018】相関処理方式やスペクトル処理方式では、
分析窓幅の中に含まれる複数のピッチ区間の平均的なピ
ッチ周期が抽出されるが、有声子音の持続時間は分析窓
幅より短いことが多く、この場合には、前後の母音部の
影響を受けて有声子音部の正しいピッチ周期を求めるこ
とができない。
【0019】さらに、このようなピッチ周期の抽出を行
なうとき、従来のピッチ抽出方式の範囲内では、任意の
入力音声のピッチ周期を正しく抽出しようとすれば、い
ずれの方式を使用しても、分析前かまたは分析後に人手
による調整または修正が必要であり、自動化を計る上で
の障害となっていた。
【0020】また、ピッチ周期や話速の変換などを目的
とした加工を波形上で行なう場合、その最適な単位は1
ピッチ区間毎の波形であるが、上述のような理由から各
ピッチ区間を正確かつ自動的に分割する方法が確立され
ていないため、このような加工を自動的に行なう装置で
は、従来、ピッチ単位とは直接関係のない、一定の窓幅
のフレーム単位で波形の伸縮や繰り返し、間引きといっ
た操作を行なわなければならず、その結果得られた変換
音声は、フレーム単位操作特有のエコー感などの音質劣
化が避けられなかった。
【0021】本発明は上記の事情に鑑み、任意の音声波
形に対し、波形各部のピッチ周期の抽出に始まり、波形
を1ピッチ区間毎に区切るまでの一連の処理を、正確に
かつ自動的に行なうことができ、これによって音声のピ
ッチ周波数の正確な分析を可能にするとともに、ピッチ
周期や話速の変換など、本来1ピッチ単位の波形処理が
適している音声変換装置や音声合成装置の処理品質を向
上させることができる音声のピッチ区間自動抽出方法を
提供することを目的としている。
【0022】
【課題を解決するための手段】この目的を達成するため
本発明による音声のピッチ区間自動抽出方法は、入力音
声波形を取り込むとともに、そのうちの有声音区間の適
当な部分でピッチ周期の予備抽出を行ない、その結果に
基づいて、有声音区間全体の各部分ごとに複数のピッチ
候補を求めていき、どの候補が最も適しているか判定
し、この判定処理によって得られたピッチ周期に基づい
て各ピッチ区間の開始点を決定して前記入力音声波形を
各ピッチ区間毎に区切って出力することを特徴としてい
る。
【0023】
【作用】上記の構成によって、入力音声波形を取り込む
とともに、そのうちの有声音区間の適当な部分でピッチ
周期の予備抽出を行ない、その結果に基づいて、有声音
区間全体の各部分ごとに複数のピッチ候補を求めてい
き、どの候補が最も適しているか判定し、この判定処理
によって得られたピッチ周期に基づいて各ピッチ区間の
開始点を決定して前記入力音声波形を各ピッチ区間毎に
区切って出力することにより、任意の音声波形に対し、
波形各部のピッチ周期の抽出に始まり、波形を1ピッチ
区間毎に区切るまでの一連の処理を、正確にかつ自動的
に行い、これによって音声のピッチ周波数の正確な分析
を可能にするとともに、ピッチ周期や話速の変換など、
本来1ピッチ単位の波形処理が適している音声変換装置
や音声合成装置の処理品質を向上させる。
【0024】
【実施例】以下、図面を参照しながら、本発明による音
声のピッチ区間自動抽出方法の実施例を詳細に説明す
る。
【0025】図1は本発明による音声のピッチ区間自動
抽出方法の一実施例を用いた音声処理システムの一例を
示すブロック図である。
【0026】この図に示す音声処理システムは、有声・
無声・無音の判定部2と、ピッチ周期の予備抽出部4
と、1ピッチ毎の周期の抽出部6と、各ピッチ区間の開
始点の決定部8とを備えており、A/D変換されて標本
化された音声波形を取り込むとともに、そのうちの有声
音区間の適当な部分でピッチ周期の予備抽出を行ない、
その結果に基づいて、有声音区間全体の各部分ごとに複
数のピッチ候補を求めていき、どの候補が最も適してい
るか判定し、この判定処理によって得られたピッチ周期
に基づいて各ピッチ区間の開始点を決定して音声波形を
各ピッチ区間毎に区切って出力する。
【0027】有声・無声・無音の判定部2は、電子計算
機内に構築され、ROM、RAMあるいはディスクメモ
リ等のメモリを併用しながら、音声波形の有声、無声、
無音の判定処理を行なう部分であり、A/D変換されて
標本化された音声波形を取り込むとともに、この音声波
形に対して有声、無音の判別を行なった後、有音部分に
ついて有声、無声の判別を実行し、この処理結果をピッ
チ周期の予備抽出部4に供給する。
【0028】ピッチ周期の予備抽出部4は、電子計算機
内に構築され、ROM、RAMあるいはディスクメモリ
等のメモリを併用しながら、ピッチ周期の予備抽出を行
なう部分であり、前記有声・無声・無音の判定部2から
出力される有声、無声、無音の判定結果を取り込むとと
もに、1つの有声音区間中の適当な部分について、複数
の異なる分析窓幅で自己相関関数を求めて予備的なピッ
チ周期の抽出を行ない、この処理によって得られたピッ
チ候補(予備的なピッチ周期)を1ピッチ毎の周期の抽
出部6に供給する。
【0029】1ピッチ毎の周期の抽出部6は、電子計算
機内に構築され、ROM、RAMあるいはディスクメモ
リ等のメモリを併用しながら、1ピッチ毎の周期の抽出
を行なってスケールを構成する部分であり、ピッチ周期
の予備抽出部4から出力される予備的なピッチ周期を取
り込むとともに、この予備的なピッチ周期に基づいて有
声音区間全体に渡り、自己相関分析によりピッチ周波数
軌跡を求めた後、入力波形に対して、時々刻々このピッ
チ周波数軌跡以下の周波数成分のみを残す目的で、カッ
トオフ周波数を適応的に変化させる低域ろ波を行なうと
ともに、ろ波波形のピークを検出して1ピッチごとの周
期を求め、この周期に基づいてピッチ周期のスケールを
求めてこれを各ピッチ区間の開始点の決定部8に供給す
る。
【0030】各ピッチ区間の開始点の決定部8は、電子
計算機内に構築され、ROM、RAMあるいはディスク
メモリ等のメモリを併用しながら、各ピッチ区間の開始
点を決定してピッチ区間毎に区切られた音声波形を生成
する部分であり、1ピッチ毎の周期の抽出部6から出力
されるスケールを取り込むとともに、1ピッチ周期内の
波形の短時間パワーが急激に上昇する直前の零交差がピ
ッチ区間の開始点となるように、前記ピッチ周期のスケ
ールに合わせて最適なピッチ開始点を求めて、ピッチ区
間毎に音声波形を区切り、これを出力する。
【0031】そして、これら有声・無声・無音の判定部
2〜各ピッチ区間の開始点の決定部8は、以上の一連の
処理により、1つの有声音区間について、ピッチ区間毎
に区切られた音声波形を算出し、次の有声音区間の処理
に移る。
【0032】次に、図2に示すフローチャートを参照し
ながら、この実施例の動作を説明する。
【0033】<有声・無声・無音の判定部2の動作>ま
ず、量子化ビット数16bit、標本化周波数15kH
zでA/D変換された音声波形が入力される毎に、有声
・無声・無音の判定部2はこれを取り込んで、フレーム
の幅6.66ms、フレームのシフト幅3.33msで
入力音声全体について、パワーと零交差数を逐次、算出
するとともに(ステップST1)、各フレーム毎に、パ
ワーPと零交差数Zについてしきい値を設定して、有
声、無声、無音を判定する(ステップST2)。
【0034】この場合、有声、無声、無音の判定基準と
しては、例えば以下のような優先順位で有声、無声、無
音を判定する。
【0035】まず、パワーPがしきい値Pmin より小さ
いかどうかをチェックし、小さいときには、無音と判定
し、この条件が満たされていないときには、パワーPが
しきい値Pmax より大きいかどうかをチェックし、大き
いときには、有声と判定する。
【0036】そして、この条件が満たされなていないと
きには、零交差数Zがしきい値Zmax より大きいかどう
かをチェックし、大きいときには、無声と判定し、この
条件が満たされていないときには、零交差数Zがしきい
値Zmin より小さいかどうかをチェックし、小さいとき
には、有声と判定する。
【0037】また、これらパワーPに対するしきい値P
min 、Pmax および零交差数Zに対するしきい値Zmax
、Zmin によって無音、有声、無声の判定を行なうこ
とができないときには、当該フレームの中央を中心に、
30msの幅のハミング窓を設定して、入力波形を切り
出した後、自己相関関数R(τ)を求め、τ>0におけ
る最大値をR(τ)max として、有声度V=R(τ)ma
x /R(0) の値がしきい値Vmax より大きいときは有声
と判定する。
【0038】この場合、この処理で使用されるR(τ)
はfs を標準化周波数、変数Kを0以上の整数として、
τ=K/fs となる離散的な点でのみ定義され、30m
sの窓幅に相当する標本点数をNとし、切り出された波
形をx(1) 〜x(N) とし、さらにn<0のとき、x(n)
=0とすると、
【数1】 となる。
【0039】そして、この判定処理において、有声度V
=R(τ)max /R(0) の値がしきい値Vmax より以下
であると判定されたときには、パワーPがしきい値Pmi
n2(但し、Pmin <Pmin2<Pmax )より小さいかどう
かをチェックし、小さいときには、無音と判定し、前記
パワーPがしきい値Pmin2以上であるときには、無声と
判定する。
【0040】次いで、有声・無声・無音の判定部2は、
上述した有声、無声、無音の判定処理において有声と判
定されたフレームが6フレーム以上、時間に換算して2
3.3ms以上連続している部分を検出し、これを1有
声区間と判定し、この判定結果をピッチ周期の予備抽出
部4に供給する(ステップST3)。
【0041】<ピッチ周期の予備抽出部4の動作>ピッ
チ周期の予備抽出部4は、前記有声・無声・無音の判定
部2のステップST3で決定された1つの有声音区間に
ついて、その開始点より時間的に後方に向いた133m
s以内で、パワーPが前記しきい値Pmin より20dB
以上大きくなり始める点があるかどうかをチェックし、
この条件を満たす点があれば、この点を点Tpとし、ま
たこのような条件を満たす点がなければ、前記しきい値
Pmin より10dB以上大きくなり始める点があるかど
うかをチェックし、この条件を満たす点があれば、この
点を点Tpとする(ステップST4)。
【0042】また、上述した点Tpの検出処理において
(ステップST4)、上述した各条件を満たす点がなけ
れば、ピッチ周期の予備抽出部4はピッチ周期の予備抽
出を中止し、開始点から有声音区間長の3分の1の点を
仮の点Tpとするとともに、仮のピッチ周期τpを10
msとして、これを1ピッチ毎の周期の抽出部6に供給
し、以下に述べる低域ろ波処理、ダウンサンプリング処
理、自己相関関数の算出処理、予備的なピッチ周期τp
の決定処理をスキップする。
【0043】この後、ピッチ周期の予備抽出部4は、上
述した点Tpの検出処理によって得られた点Tpを開始
点として、40msの長さに渡り、ピッチ周期抽出に対
する1000Hzより高い周波数成分の影響を除くとと
もに、以後の処理の演算量を低減するための処理、すな
わち予め設定されている条件のLPF、例えば31次の
FIR型フィルタ(Finite Impulse Response Filter)
を用いて1000Hz程度のカットオフ周波数で低域ろ
波を行ない、さらにこの処理によって得られたろ波波形
に対し、5ポイントに1ポイントだけ残すダウンサンプ
リングを施す(ステップST5)。
【0044】次いで、ピッチ周期の予備抽出部4は1
3.3msから40msまで変化する9種の異なる幅W
n =13.3+(n−1)×3.33[ms](1≦n
≦9)のハミング窓で、ダウンサンプリング波形の開始
点から切り出すとともに、各変数nについて、前記
(1)式に準じた演算式に基づいて自己相関関数R
n (τ)を計算し、τpn-1 /3≦τ≦Wn /2の範囲
に存在する最大値を自己相関関数Rn (τ)max とし
て、有声度Vn =Rn (τ)max /R(0) と、そのとき
の遅れ時間τpn とを記録していく(ステップST
6)。但し、この場合、初期値τp0 は、τp0 =3.
75msとする。
【0045】この後、ピッチ周期の予備抽出部4は、上
述したステップST6で記録された比較値(有声度)V
n の大きさと、遅れ時間τpn の値とを取り込むととも
に、次式で定義される重み関数gnjおよび次式で示す演
算式に基づいて前記比較値Vn の大きさと、遅れ時間τ
n の値とのバラツキを考慮したパラメータUn を求め
た後、これを最大にする変数nをnmax として、このn
max に対応する遅れ時間τpnmaxをその有声音区間の仮
のピッチ周期τpとし、これを1ピッチ毎の周期の抽出
部6に供給する(ステップST7)。
【0046】
【数2】 <1ピッチ毎の周期の抽出部6>1ピッチ毎の周期の抽
出部6は前記ピッチ周期の予備抽出部4で得られた予備
的なピッチ周期τpを取り込むとともに、次式に示す演
算を行なって間引き率M’を求めた後、この間引き率
M’の小数点以下を切り捨てて間引き率Mを求める。但
し、M’<1ならば、M=1、M’>5ならば、M=5
とする。
【0047】 M’=5.7375・log10(fs ・τp)−6.475 …(4) 但し、fs :標本化周波数であり、単位はkHz。
【0048】τp:予備的なピッチ周期であり、単位は
ms。
【0049】この後、1ピッチ毎の周期の抽出部6は、
次式に示す間引き率Mに対応するカットオフ周波数を用
いて前記有声・無声・無音の判定部2で決定された有声
音区間にその前後、各40msを加えた入力音声波形に
対し、低域ろ波を行なう。
【0050】M=1のとき、低域ろ波を中止。
【0051】M=2のとき、2900Hz。
【0052】M=3のとき、1500Hz。
【0053】M=4のとき、1000Hz。
【0054】 M=5のとき、630Hz。 …(5) この場合、使用されるLPFとしては、例えばフィルタ
係数がh1 〜h2T-1(ここでは、T=16)となり、h
K =h2T-Kとなるように各フィルタ係数が設定された3
1次のFIR型フィルタが使用される。
【0055】これによって、n番目の入力波形x(n) に
対するフィルタ出力x’(n) は、
【数3】 となり、入力波形x(n)と、フィルタ出力x’(n)
との間で、全周波数帯域にわたり、位相のずれがなくな
り、両者の時間的な位置の対応がつけ易くなる。この低
域ろ波は、以下に述べるダウンサンプリングの準備であ
ると同時に、ピッチ周期抽出に対する高い周波数成分の
影響を除く効果もある。
【0056】次いで、1ピッチ毎の周期の抽出部6は、
間引き率Mが1以外のとき、上述した低域ろ波処理で得
られた有声音区間のフィルタ出力x’(n) に対し、以後
の処理の演算量を低減するために、Mポイントに1ポイ
ントだけ残すダウンサンプリングを行なう(ステップS
T8)。
【0057】これによって、入力音声波形が図3(a)
に示す波形であるとき、このダウンサンプリング処理に
よって図3(b)に示す波形が導き出される。
【0058】次いで、1ピッチ毎の周期の抽出部6は、
予備抽出部4で得られた予備的なピッチ周期τpに基づ
いて、上述したステップST8のダウンサンプリング処
理で得られた波形の有声音区間の部分全体に渡り、3.
33msのシフト幅でフレームの中心点を移動させなが
ら、フレーム長を適応的に変化させて自己相関関数を計
算して、ピッチ周期の候補を2個ずつ求め、どちらかを
選択していく(ステップST9)。
【0059】ここで、自己相関関数を計算する窓幅
r 、自己相関関数上でピッチ周期の候補を検索する時
間遅れの範囲をNsからNeまでとするとき、それぞれ
の値は以下のように決定する。
【0060】《ステップST4において得られたTpに
相当する点以前》Wr=τp×3.0、Ns=τp/
1.41、Ne=τp×2.0を条件とする。
【0061】《Tpに相当する点より後》Nbを1つ前
のフレームで選択決定されたピッチ周期として、Wr=
τp×2.5、Ns=Nb/1.35を条件とする。但
し、検索終了値Neについては、一般的に自然音声に関
してパワーが減少傾向にある場合、ピッチ周期が長くな
っていく傾向があることを考慮し、ステップST1にお
いて時間的に対応する部分で求めたパワーPを用いて、
当該フレームと1つ前のフレームとのパワーの比Prを
用いて次式に示す如く定義する。
【0062】 Pr≧1ならば、Ne=Nb×1.35 Pr<1ならば、Ne=Nb×(1.74−0.185・Pr) …(7) この場合、Pr<1が成り立つときは、パワーが減少傾
向にある場合である。
【0063】以上の条件により、1ピッチ毎の周期の抽
出部6は各フレームにおいて、自己相関関数を計算し、
遅れ時間τがNs≦τ≦Neの範囲における自己相関関
数R(τ)の極大値を大きいものから順に自己相関関数
R(τ1 )、R(τ2 )とし、ピッチ周期の候補τ1
τ2 のいずれか一方を選択する。
【0064】そして、これらピッチ周期の候補τ1 、τ
2 のどちらかを選択するかは、以下のようにする。
【0065】《ステップST4において得られたTpに
相当する点以前》まず、1ピッチ毎の周期の抽出部6は
点Tpを含むフレームにおいて、ピッチ周期の候補τ1
を選択し、以後時間的に前方に向い順次、ひとつ後方の
フレームで選択されたピッチ周期に近いτを選択してい
く。
【0066】《Tpに相当する点より後》この場合、1
ピッチ毎の周期の抽出部6は基本的には、ピッチ周期の
候補τを選択していくが、次の条件が成立する場合に
は、ピッチ周期の候補τ2 を選択する。
【0067】但し、ここで、Rr =R(τ2 )/R(τ
1 )、V1 =R(τ1 )/R(0) 、V2 =R(τ2 )/
R(0) 、D1 =|τ1 −Nb|、D2 =|τ2 −Nb
|、Rt =1.49−0.185・Pr とし、前提条件
として次のものを設定する。
【0068】前提条件:Pr <0.87かつV1 <0.
6かつτ2 /Nb <Rt
【0069】そして、1ピッチ毎の周期の抽出部6は、
これらの各条件および前提条件に基づいて以下に示す判
定条件Aまたは判定条件Bのいずれかが成立する場合に
ピッチ周期の候補τ2 を選択する。
【0070】[判定条件A]τ1 <τ2 であって、さら
に以下の(1)〜(3)のいずれかが成立、 (1)Rr ≧0.5 (2)Rr >0.33かつV2 ≧0.1 (3)V1 <0.45かつV2 <0.45かつD1 >D
2 [判定条件B]τ1 ≧τ2 かつD1 >D2 であって、さ
らに以下の(1)〜(4)のいずれかが成立、 (1)τ2 >Nb かつRr ≧0.5 (2)τ2 >Nb かつRr >0.33かつV2 ≧0.1 (3)τ1 /Nb <Rt かつRr ≧0.5 (4)τ1 /Nb <Rt かつRr >0.33かつV2
0.1 また、前提条件が成立しない場合においても、以下の判
定条件C、Dのいずれかが成立するならば、1ピッチ毎
の周期の抽出部6はピッチ周期の候補τ2 を選択する。
【0071】[判定条件C] D1 >D2 かつV1 <0.65 [判定条件D] D1 >D2 かつRr >0.7 このように、この1ピッチ毎の周期の抽出部6は以上の
手順により、当該有声音区間の全体について、3.3m
sの間隔で、ピッチ周期を抽出する。
【0072】次いで、1ピッチ毎の周期の抽出部6は上
述したステップST9のピッチ周期抽出処理で得られた
ピッチ周期の逆数を求め、かつ対数をとった後、これを
3.3ms毎に標本化されたピッチ周波数の時間変化波
形とみなし、この時間変化波形に対し、前記(6)式に
準じた方法で、中央の係数を中心に対象な係数値を持つ
51次のFIR型フィルタ(カットオフ周波数は11H
z)で低域ろ波を行なうとともに、各標本点の値を用い
てべき乗し、平滑化されたピッチ周波数の時間変化パタ
ーンを求める(ステップST10)。
【0073】この場合、1ピッチ毎の周期の抽出部6は
前記(6)式に準じた計算を行なうとき、パターンの外
側で25点ずつの標本点が不足するので、予め、パター
ンの内側両端の18ms分ずつの標本点で直線近似を行
ない、外側はこの直線を延長して補間し、これによって
平滑化処理時に時折り生じるピッチ抽出誤りを無くす。
【0074】この後、1ピッチ毎の周期の抽出部6は上
述したステップST8のダウンサンプリング処理で得ら
れた波形に対し、フレーム幅6.66ms、シフト幅
3.33msの各フレームで、ステップST10で得ら
れたピッチ周波数より若干高いカットオフ周波数で前記
(6)式に準じた方法で低域ろ波を行なった後、フレー
ムの中心で1、両端で0となる三角窓を掛けるととも
に、両隣りのフレームで同様に処理された波形と加算
し、図3(c)に示すような有声区間全体として連続な
正弦波状の波形を求める(ステップST11)。
【0075】但し、この場合、実際に用いるカットオフ
周波数fc としては、49.6Hzから793.6Hz
までの4オクターブの間を1/3オクターブ毎に分割し
た、13通りの周波数を予め用意し、793.6Hzを
上限とし、ステップST10で得られたピッチ周波数よ
り高くて、かつ最も近いものを選択する。もし、79
3.6Hz以上の高いピッチ周波数が頻繁に現われるこ
とが予測される場合には、さらに高い周波数まで用意す
る。
【0076】また、この処理で使用されるFIR型フィ
ルタの次数は、ステップST8でダウンサンプリングさ
れた標本化周波数をf’s として、0.833×f’s
/fc の少数点以下を切り捨てた後、2倍にしたものに
1を加えて用いる。
【0077】次いで、1ピッチ毎の周期の抽出部6はス
テップST11で得られた波形の正の極大値を検出し、
波形の開始点より、隣接する極大値との位置の間隔を順
次、測定していき、ピッチ周期の変化に同期した、図3
(d)に示すようなピッチ周期のスケールを作成し、こ
れを各ピッチ区間の開始点の決定部8に供給する(ステ
ップST12)。しかし、場合によっては、1ピッチ周
期内に複数の極大値が検出されることがあるので、以下
の(1)〜(6)のいずれかの条件を満足する極大値の
みを採用する。
【0078】但し、ここでは、候補となっている極大値
と、1つ前に採用された極大値の時間間隔W2 と、2つ
の前と1つ前に採用された極大値の時間間隔W1 の比W
2 /W1 をWr とする。また、ステップST1でフレー
ム単位で求めたパワーPのうち、候補となっている極大
値の位置に対応する点を含むフレームで求めたものと、
その1つ前のフレームで求めたものとの比をPr とす
る。
【0079】 (1)0.90<Pr <1.10、かつWr >0.85 (2) Pr <0.87、かつWr >0.75 (3)0.87≦Pr ≦0.90、かつWr >0.65 (4)1.10≦Pr ≦1.35、かつWr >0.65 (5)1.35<Pr ≦1.50、かつWr >0.60 (6)1.50<Pr 、かつWr >0.50 この場合、条件(1)はパワーの変化が少なく波形が安
定していて、ピッチ周期の変化が少ない場合であり、条
件(2)、(3)はパワーが減少傾向にあり、ピッチ周
期が長くなっていく可能性が高い場合である。
【0080】また、条件(4)、(5)、(6)はパワ
ーが増加傾向にあり、ピッチ周期が短くなっていく可能
性が高い場合である。
【0081】<各ピッチ区間の開始点の決定部8の動作
>各ピッチ区間の開始点の決定部8はまず、当該有声音
区間の入力波形の開始点にステップST12で得られた
ピッチ周期のスケールの開始点を合わせて当てはめ、入
力波形の1ピッチ周期毎にその周期内における正負のピ
ーク値や短時間のパワー変化を調べていき、当該有声音
区間全体の中でピッチ区間の開始点を最も確実に決定で
きる1ピッチ周期区間を検索する(ステップST1
3)。
【0082】この場合、この処理は、各ピッチ周期区間
毎に次式で定義される確実度βを求め、その最大値を検
出することによって行なう。但し、基本的には有声音区
間の開始、終了それぞれの2ピッチ周期区間は除いて処
理する。
【0083】 β=L×(Lr +0.1074・Sr ) …(8) 但し、ピッチ周期内の正側のピーク値をLp 、負側のピ
ークの絶対値をLm としたとき、 L:Lp とLm とのうち、大きい方。
【0084】Lr :Lp ≧Lm ならば、Lp /Lm 、L
p <Lm ならば、Lm /Lp
【0085】Sr :ピッチ周期内において、窓幅C、シ
フト幅C/2の矩形窓内で標本値の自乗和Pj (j=
1、2、…、K)を求めていき、この短時間パワーの変
化度と、1標本点当たりの正規化パワーの積によって定
義される量S(j) =(Pj /Pj-2 )・(Pj /Nc
2 )の3≦j≦kの範囲における最大値である。但
し、スケールで示されるピッチ周期をτ[ms]とし
て、1.15・τの小数点以下を切り捨てたものをNd
(但し、τ<5msの場合はNd =4で固定)として、
C=τ/Nd 、K=2・Nd −1であり、Nc はC時間
幅に相当する標本点数、Qは標本値の正または負の最大
入力レベルで、量子化ビット数をqとすると、Q=2
(q-1) である。
【0086】次いで、各ピッチ区間の開始点の決定部8
は前記ステップST13の処理において確実度βの最大
値が検出れさたピッチ周期区間(n番目とする)内にお
いてピッチ区間の開始点Pn を決定する(ステップST
14)。
【0087】この処理では、n番目のピッチ周期区間内
の波形の短時間のパワーが急激に上昇する直前の零交差
点を選択するが、具体的には以下のようにする。
【0088】まず、各ピッチ区間の開始点の決定部8は
確実度βの最大値が検出されたピッチ周期内において、
r =S(m) であったとして、n番目の短時間パワー算
出区間(幅CでPj (j=m)を算出)の開始点Sm
求めるとともに、ピッチ周期をτn として、Sm ±τn
/6の範囲の入力音声波形について、前記(6)式に準
じた、カットオフ周波数2000Hzで21次のFIR
型フィルタにより低域ろ波を行なった後、ろ波波形に対
し、波形の零交差点と、波形の正または負のピーク値
(または、絶対値の最大値)とを検出する。
【0089】この場合、これらは一般に複数個ずつ存在
するが、ここでは、零交差点とは、隣接する2つの標本
値の積が負または零になる場合において、絶対値の小さ
い方の標本点を指す。
【0090】この後、各ピッチ区間の開始点の決定部8
は前記ろ波波形上で、以下に示す判定条件Aまたは判定
条件Bのいずれかの条件を満足する零交差点zのうち、
時間的に最も後方に位置するものを仮のピッチ区間開始
点Pn とする。
【0091】[判定条件A]零交差点zより時間的に前
方にある最大ピーク値(または、絶対値の最大値)の大
きさが、零交差点zの後方にある最大ピーク値(また
は、絶対値の最大値)の大きさの60%を越えないこ
と。
【0092】[判定条件B]零交差点zが時間的に最も
前方の零交差点であること。
【0093】またこのとき、ろ波波形上で、零交差点z
が検出されない場合には、各ピッチ区間の開始点の決定
部8は絶対値が最小となる点で、時間的に最も後方に位
置するものを仮のピッチ区間開始点Pn とする。
【0094】この後、各ピッチ区間の開始点の決定部8
は入力波形上で時間的に仮のピッチ区間開始点Pn に対
応する点を中心に±2点の標本点のなかで、絶対値が最
小になる点を検索し、これを最終的なピッチ区間開始点
n とする。
【0095】そして、この一連の処理によって最終的な
ピッチ区間開始点Pn が決定されれば、各ピッチ区間の
開始点の決定部8は前記ステップST13で入力音声波
形に当てはめたピッチ周期のスケールをシフトして、前
記ステップST14で得られたピッチ区間開始点Pn
最も近いピッチ区切りの目盛り(スケールの目盛り)を
前記ピッチ区間開始点Pn に合わせ(図3(e)参
照)、以下スケールの残りのピッチ区切りの目盛りが示
す点の近傍の入力音声波形について、Pn+1 からPN
で、またPn-1 からP1 まで、隣りですでに決定された
ピッチ区間開始点の近傍との波形の形状の類似度を考慮
しながら、順次ピッチ区間の開始点を決定していく(ス
テップST15)。但し、Nはスケールで示される当該
有音区間の全ピッチ周期区間数である。
【0096】そして、この処理で使用されるピッチ区間
の開始点の決定手順として、例えば次に述べる手順を用
いて逐次、Pi (n<i≦N)を決定する。
【0097】ます、各ピッチ区間の開始点の決定部8は
ピッチ周期のスケールで示される点P’i をPi の最初
の候補点とし、同様にスケールで示されるi−1番目の
ピッチ周期をτi-1 とした後、次式に示す演算式に基づ
いてひつと前で決定されたPi-1 の近傍と、P’i の近
傍との波形の類似度θ(Pi-1 、P’i )を算出する。
【0098】
【数4】 但し、xd :ステップST8で求めたダウンサンプリン
グ波形で、ki-1 、k’i はそれぞれxd 上で時間的に
i-1 、P’i に対応する点。
【0099】Hi-1 :xd 上でτi-1 /5の時間幅に相
当する標本点数。
【0100】次に、各ピッチ区間の開始点の決定部8
は、k’i を前後に1点ずつ最大±Hi-1 点までシフト
して、各々についてki-1 点の近傍との類似度を計算
し、合計2・hi-1 +1個の類似度θ(ki-1
k’i )のうち、最大値を与えるk’iを求め、この点
に入力音声波形上で対応する点を新たな候補点P’i
する。そして、P’i ±τi-1 /14の範囲の入力音声
波形について、前記(6)式に準じた、カットオフ周波
数2000Hzで21次のFIR型フィルタにより低域
ろ波を行なう。
【0101】この後、各ピッチ区間の開始点の決定部8
はろ波波形に対し、波形の零交差点と、波形の正または
負のピーク値(または、絶対値の最大値)とを検出す
る。
【0102】この場合、これらは一般に複数個ずつ存在
するが、ここでは、零交差点とは、隣接する2つの標本
値の積が負または零になる場合において、絶対値の小さ
い方の標本点を指す。
【0103】この後、各ピッチ区間の開始点の決定部8
はろ波波形状で、以下に示す判定条件Aまたは判定条件
Bのいずれかの条件を満足する零交差点zのうち、時間
的に最も後方に位置するものを仮のPi とする。
【0104】[判定条件A]零交差点zより時間的に前
方にある最大ピーク値(または、絶対値の最大値)の大
きさが、零交差点zの後方にある最大ピーク値(また
は、絶対値の最大値)の大きさの60%を越えないこ
と。
【0105】[判定条件B]零交差点zが時間的に最も
前方の零交差点であること。
【0106】またこのとき、ろ波波形上で、零交差点z
が検出されない場合には、各ピッチ区間の開始点の決定
部8は絶対値が最小となる点で、時間的に最も後方に位
置するものを仮のPi とする。
【0107】この後、各ピッチ区間の開始点の決定部8
は入力波形上で時間的に仮のPi に対応する点を中心に
±2点の標本点のなかで、絶対値が最小になる点を検索
し、これを最終的なPi を決定し、これを入力音声波形
上での最終的なPi とする。
【0108】以下、各ピッチ区間の開始点の決定部8は
iを1増やしてi=Nまで、上述した最終的なPi の決
定処理を繰り返し行なう。
【0109】また、各ピッチ区間の開始点の決定部8は
i (n>i≧1)についても、上述した手法に準じた
手法で1ピッチ区間につき、iを1ずつ減少させなが
ら、各ピッチ区間毎に類似度θ(Pi+1 、P’i )を最
大にするP’i をPi としていく。
【0110】以上のようにして、当該有声音区間全体に
ついて、1ピッチ区間毎の開始点を決定する(図3
(f)参照)。
【0111】但し、この場合、決定された各ピッチ区間
の開始点は入力音声波形の零交差点を選択しているの
で、最終的な各ピッチ区間の長さは、ステップST12
で得られたピッチ周期のスケールで示される各ピッチ周
期とは必ずしも一致しない。
【0112】以上説明したように、本実施例によれば、
老若男女の個人差によらず、また有声音区間の開始や終
了部分あるいは有声子音部等、ピッチ周波数が大きく変
化したり、局所的に変化する部分においても、何ら事前
のパラメータの調整もなく、波形の各有声区間内の各ピ
ッチ周期の正しい抽出が可能となり、波形を1ピッチ区
間毎に区切るまでの一連の処理を、正確にかつ自動的に
行なうことができる。
【0113】また、その結果を用いて、声の高さや話速
の変換などを目的とした波形の加工を、その最適な単位
である1ピッチ単位の波形処理を用いて自動的に行なう
ことができる。
【0114】したがって、従来のようにな一定の窓幅の
フレーム単位での処理に比べ、波形の短縮や繰り返し、
間引きといった操作をエコー感などの音質劣化を引き起
こすことなく、高品質に実現することができる。
【0115】
【発明の効果】以上説明したように本発明によれば、任
意の音声波形に対し、波形各部のピッチ周期の抽出に始
まり、波形を1ピッチ区間毎に区切るまでの一連の処理
を、正確にかつ自動的に行なうことができ、これによっ
て音声のピッチ周波数の正確な分析を可能にするととも
に、ピッチ周期や話速の変換など、本来1ピッチ単位の
波形処理が適している音声変換装置や音声合成装置の処
理品質を向上させることができる。
【図面の簡単な説明】
【図1】本発明による音声のピッチ区間自動抽出方法の
一実施例を用いた音声処理システムの一例を示すブロッ
ク図である。
【図2】図1に示す音声処理システムの動作例を示すフ
ローチャートである。
【図3】図1に示す音声処理システムの動作例を示す波
形図である。
【符号の説明】
2 有声・無声・無音の判定部 4 ピッチ周期の予備抽出部 6 1ピッチ毎の周期の抽出部 8 各ピッチ区間の開始点の決定部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力音声波形を取り込むとともに、その
    うちの有声音区間の適当な部分でピッチ周期の予備抽出
    を行ない、その結果に基づいて、有声音区間全体の各部
    分ごとに複数のピッチ候補を求めていき、どの候補が最
    も適しているか判定し、この入力音声波形に基づいてピ
    ッチ周期の予備抽出を行なって複数のピッチ候補を求め
    た後、各ピッチ候補のうち、どのピッチ候補が最も適し
    ているか判定し、この判定処理によって得られたピッチ
    周期に基づいて各ピッチ区間の開始点を決定して前記入
    力音声波形を各ピッチ区間毎に区切って出力する、 ことを特徴とする音声のピッチ区間自動抽出方法。
  2. 【請求項2】 入力音声波形から有声音区間を抽出し、 当該有声音区間の開始点より時間的に後方に向いてある
    程度パワーの大きくなった部分について、複数の異なる
    分析窓幅により自己相関関数R(τ)を求め、それぞれ
    の自己相関関数について、τ>0における最大値をR
    (τ)max として、V=R(τ)max /R(0) とその時
    の時間遅れτの値を求めていき、Vの大きさとτの値の
    ばらつきを考慮して、最も信頼できるτの値を当該有声
    区間の仮のピッチ周期τpとし、 当該有声区間の開始点より、数ミリ秒毎に適当な窓幅の
    分析フレームで、τpを参考にしながら、予め設定され
    ている方法でフレーム内の平均ピッチ周期抽出のための
    分析を行なってその候補を複数求め、全体として連続性
    やパワーの変化を考慮しながら、各フレームの候補のう
    ちどれかを採用して、ピッチ周波数(ピッチ周波数の逆
    数)の時間軌跡を決定し、 当該ピッチ周波数時間軌跡を平滑化した後、入力波形に
    含まれる周波数成分のうち、時々刻々当該ピッチ周波数
    時間軌跡以下の周波数成分を残すことを目的にカットオ
    フ周波数を適応的に変化させる低域ろ波を施し、当該有
    声区間全体として連続な正弦波状の波形を得、この波形
    の開始点からパワーの変化を考慮しながら逐次その周期
    を測定して1ピッチ毎のピッチ周期のスケールを構成
    し、 当該有声区間の中央部の波形の正負のピーク値や1ms
    前後の短区間パワーを基に、最も確実に決定できる部分
    から、時間的に前後に、1ピッチ周期内の波形の短時間
    のパワーが急激に上昇する直前の零交差がピッチ区間の
    開始点となるように、ピッチ周期のスケールに合わせて
    最適なピッチ開始点を求めていく、請求項1記載の音声
    のピッチ区間自動抽出方法。
JP30869292A 1992-11-18 1992-11-18 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置 Expired - Lifetime JP3219868B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30869292A JP3219868B2 (ja) 1992-11-18 1992-11-18 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30869292A JP3219868B2 (ja) 1992-11-18 1992-11-18 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置

Publications (2)

Publication Number Publication Date
JPH06161494A true JPH06161494A (ja) 1994-06-07
JP3219868B2 JP3219868B2 (ja) 2001-10-15

Family

ID=17984140

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30869292A Expired - Lifetime JP3219868B2 (ja) 1992-11-18 1992-11-18 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置

Country Status (1)

Country Link
JP (1) JP3219868B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125600A (ja) * 1999-10-26 2001-05-11 Sony Corp 再生速度変換装置及び方法
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
JP2004334238A (ja) * 1996-11-20 2004-11-25 Yamaha Corp 音信号分析装置及び方法
JP2005227782A (ja) * 2004-02-10 2005-08-25 Samsung Electronics Co Ltd 有声音および無声音の検出装置、並びにその方法
KR100538985B1 (ko) * 1996-09-27 2006-03-23 소니 가부시끼 가이샤 음성부호화방법및장치와피치검출방법및장치
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
JP2007228135A (ja) * 2006-02-22 2007-09-06 National Institute Of Advanced Industrial & Technology 発声位置推定方法およびそれを用いた発声位置推定装置、電動車椅子
JP2011107714A (ja) * 2010-12-09 2011-06-02 National Institute Of Advanced Industrial Science & Technology 電動車椅子
JP2014219481A (ja) * 2013-05-02 2014-11-20 ヤマハ株式会社 音響解析装置
JP2017156688A (ja) * 2016-03-04 2017-09-07 ヤマハ株式会社 会話評価装置およびプログラム
JP2019158739A (ja) * 2018-03-15 2019-09-19 富士通株式会社 情報処理プログラム、情報処理方法及び情報処理装置
CN111292748A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种可适应多种频率的语音录入系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3500690B2 (ja) 1994-03-28 2004-02-23 ソニー株式会社 オーディオピッチ抽出装置及びオーディオ処理装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100538985B1 (ko) * 1996-09-27 2006-03-23 소니 가부시끼 가이샤 음성부호화방법및장치와피치검출방법및장치
JP2004334238A (ja) * 1996-11-20 2004-11-25 Yamaha Corp 音信号分析装置及び方法
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
US7191120B2 (en) 1997-01-23 2007-03-13 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
JP4505899B2 (ja) * 1999-10-26 2010-07-21 ソニー株式会社 再生速度変換装置及び方法
JP2001125600A (ja) * 1999-10-26 2001-05-11 Sony Corp 再生速度変換装置及び方法
JP2005227782A (ja) * 2004-02-10 2005-08-25 Samsung Electronics Co Ltd 有声音および無声音の検出装置、並びにその方法
JP4740609B2 (ja) * 2004-02-10 2011-08-03 三星電子株式会社 有声音および無声音の検出装置、並びにその方法
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
JP2007228135A (ja) * 2006-02-22 2007-09-06 National Institute Of Advanced Industrial & Technology 発声位置推定方法およびそれを用いた発声位置推定装置、電動車椅子
JP4682344B2 (ja) * 2006-02-22 2011-05-11 独立行政法人産業技術総合研究所 発声位置推定方法およびそれを用いた発声位置推定装置、電動車椅子
JP2011107714A (ja) * 2010-12-09 2011-06-02 National Institute Of Advanced Industrial Science & Technology 電動車椅子
JP2014219481A (ja) * 2013-05-02 2014-11-20 ヤマハ株式会社 音響解析装置
JP2017156688A (ja) * 2016-03-04 2017-09-07 ヤマハ株式会社 会話評価装置およびプログラム
JP2019158739A (ja) * 2018-03-15 2019-09-19 富士通株式会社 情報処理プログラム、情報処理方法及び情報処理装置
CN111292748A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种可适应多种频率的语音录入系统
CN111292748B (zh) * 2020-02-07 2023-07-28 普强时代(珠海横琴)信息技术有限公司 一种可适应多种频率的语音录入系统

Also Published As

Publication number Publication date
JP3219868B2 (ja) 2001-10-15

Similar Documents

Publication Publication Date Title
US9324330B2 (en) Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
JP2002516420A (ja) 音声コーダ
Bonada et al. Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016
JP2002515609A (ja) ピッチ検出の精密化
JP3219868B2 (ja) 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JP2612868B2 (ja) 音声の発声速度変換方法
JP2001051687A (ja) 合成音生成装置
JP2904279B2 (ja) 音声合成方法および装置
Samad et al. Pitch detection of speech signals using the cross-correlation technique
Wang et al. Frequency domain adaptive postfiltering for enhancement of noisy speech
JP3266124B2 (ja) アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置
OʼShaughnessy Formant estimation and tracking
Strik et al. A dynamic programming algorithm for time-aligning and averaging physiological signals related to speech
CN110033791B (zh) 一种歌曲基频提取方法及装置
Golipour et al. A new approach for phoneme segmentation of speech signals.
JP2612867B2 (ja) 音声ピッチ変換方法
JP4128848B2 (ja) 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体
JP2612869B2 (ja) 声質変換方法
RU2174714C2 (ru) Способ выделения основного тона
JP2003150191A (ja) 音声スペクトル推定方法、その装置、そのプログラムおよびその記録媒体
JPH0377998B2 (ja)
Umeda Another consistency in phoneme duration
JP3233543B2 (ja) インパルス駆動点抽出方法およびピッチ波形抽出方法とその装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090810

Year of fee payment: 8

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 9

Free format text: PAYMENT UNTIL: 20100810

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110810

Year of fee payment: 10

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 11

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 11

Free format text: PAYMENT UNTIL: 20120810

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130810

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 12

Free format text: PAYMENT UNTIL: 20130810