JP2569472B2 - 音声分析装置 - Google Patents
音声分析装置Info
- Publication number
- JP2569472B2 JP2569472B2 JP60231721A JP23172185A JP2569472B2 JP 2569472 B2 JP2569472 B2 JP 2569472B2 JP 60231721 A JP60231721 A JP 60231721A JP 23172185 A JP23172185 A JP 23172185A JP 2569472 B2 JP2569472 B2 JP 2569472B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- frequency
- fourier transform
- pitch
- pitch frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephone Function (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、入力音声信号を分析する音声分析装置に
関する。
関する。
音声認識装置、聴覚障害者のための発生練習装置、音
声分析合成による通信システムあるいは音声合成装置な
どにおいては、目的とする処理を実現するために、入力
音声信号の分析及びその特徴抽出が必要となる。入力音
声信号の分析は、一般に、その周波数スペクトルに基づ
いてなされる。それは、人間の聴覚が音声信号の時間変
化波形そのものより、むしろ音声信号のスペクトルに対
して敏感であり、同一のスペクトル形状を持った信号を
同じ音韻として認識するという事実によっている。
声分析合成による通信システムあるいは音声合成装置な
どにおいては、目的とする処理を実現するために、入力
音声信号の分析及びその特徴抽出が必要となる。入力音
声信号の分析は、一般に、その周波数スペクトルに基づ
いてなされる。それは、人間の聴覚が音声信号の時間変
化波形そのものより、むしろ音声信号のスペクトルに対
して敏感であり、同一のスペクトル形状を持った信号を
同じ音韻として認識するという事実によっている。
音声信号は、有声音部分においては、声帯振動によっ
て駆動される周期的信号としての構造を持つ。その結
果、有声音部分の周波数スペクトルは、線スペクトル的
構造を持つ。一方、無音声部分においては、音声信号は
声帯振動をともなわず、むしろ、声動を通過する気流に
よって起こされる雑音をその音源としている。その結
果、この無音声部分の周波数スペクトルは、線スペクト
ルのような周期的な構造を持たない。これに対応して、
従来の音声分析においては、入力音声信号の音源として
周期的パルス発生源を想定する方法と、ノイズ音源を想
定する方法がある。前者は自己回帰モデル(ARモデル)
による音声分析で良く知られ、後者はケプストラム分析
による音声分析で良く知られている。これらの音声分析
によれば、入力音声信号のスペクトルから微細な構造を
取り除いたいわゆるスペクトル包絡が得られる。
て駆動される周期的信号としての構造を持つ。その結
果、有声音部分の周波数スペクトルは、線スペクトル的
構造を持つ。一方、無音声部分においては、音声信号は
声帯振動をともなわず、むしろ、声動を通過する気流に
よって起こされる雑音をその音源としている。その結
果、この無音声部分の周波数スペクトルは、線スペクト
ルのような周期的な構造を持たない。これに対応して、
従来の音声分析においては、入力音声信号の音源として
周期的パルス発生源を想定する方法と、ノイズ音源を想
定する方法がある。前者は自己回帰モデル(ARモデル)
による音声分析で良く知られ、後者はケプストラム分析
による音声分析で良く知られている。これらの音声分析
によれば、入力音声信号のスペクトルから微細な構造を
取り除いたいわゆるスペクトル包絡が得られる。
さらに、上記の分析方法以外の有力な分析方法とし
て、フィルタバングによる周波数分析方法がある。この
分析方法は、入力音声信号を多数のそれぞれ異なる中心
周波数を持つバンドパスフィルタに通し、それらフィル
タ出力をもってスペクトル強度とするものである。この
分析方法の特徴は、例えば、ハードウェア化による実時
間処理の容易さにある。
て、フィルタバングによる周波数分析方法がある。この
分析方法は、入力音声信号を多数のそれぞれ異なる中心
周波数を持つバンドパスフィルタに通し、それらフィル
タ出力をもってスペクトル強度とするものである。この
分析方法の特徴は、例えば、ハードウェア化による実時
間処理の容易さにある。
入力音声信号を、上記のARモデルによる分析方法ある
いはケプストラム分析方法などの方法で分析し、スペク
トル包絡を求める場合、これらの方法は系の時間的定常
性を仮定しているため、本来的には、時間的に音韻が変
化する場合には、適用できないものである。そこで、こ
れらの分析方法においては、系が大きく変化しないと見
られるような短かい時間領域の信号を切り出し、これに
端点の影響が出ないようにハミング窓、ハニング窓など
の窓関数をかけることで、時間的に準定常的な信号を作
り出している。そして、この信号を分析することによっ
て得られるスペクトル包絡を、上記信号切り出し時点で
のスペクトル包絡としている。
いはケプストラム分析方法などの方法で分析し、スペク
トル包絡を求める場合、これらの方法は系の時間的定常
性を仮定しているため、本来的には、時間的に音韻が変
化する場合には、適用できないものである。そこで、こ
れらの分析方法においては、系が大きく変化しないと見
られるような短かい時間領域の信号を切り出し、これに
端点の影響が出ないようにハミング窓、ハニング窓など
の窓関数をかけることで、時間的に準定常的な信号を作
り出している。そして、この信号を分析することによっ
て得られるスペクトル包絡を、上記信号切り出し時点で
のスペクトル包絡としている。
上述したように、従来の音声分析においては、入力音
声信号のスペクトルを求める場合、ある時間的な長さ
(以下、フレーム長と記す)で切り出された信号部分の
平均的なスペクトルを求めている。このため、スペクト
ルの急激な変化を十分に抽出するためには、そのフレー
ム長を短くする必要がある。特に、子音の立上り部分で
は、数ミリ秒の時間内にスペクトルが刻々変化していく
ため、フレーム長にも数ミリ秒程度のオーダが要求され
る。しかし、このようにすると、フレーム長と声帯振動
のピッチ周期が同程度となるので、スペクトルの抽出結
果が声帯パルスが解析フレーム長のどこにどの程度含ま
れるかという点に大きく依存し、スペクトルを安定に抽
出することができなくなることが知られている。
声信号のスペクトルを求める場合、ある時間的な長さ
(以下、フレーム長と記す)で切り出された信号部分の
平均的なスペクトルを求めている。このため、スペクト
ルの急激な変化を十分に抽出するためには、そのフレー
ム長を短くする必要がある。特に、子音の立上り部分で
は、数ミリ秒の時間内にスペクトルが刻々変化していく
ため、フレーム長にも数ミリ秒程度のオーダが要求され
る。しかし、このようにすると、フレーム長と声帯振動
のピッチ周期が同程度となるので、スペクトルの抽出結
果が声帯パルスが解析フレーム長のどこにどの程度含ま
れるかという点に大きく依存し、スペクトルを安定に抽
出することができなくなることが知られている。
この原因は、非定常な系のスペクトルの時間的発展を
解析する上において、これを定常な系として仮定された
モデルによって行なおうとしているためと考えられる。
なお、この明細書では時間的発展や時間発展を時間軸方
向の変化という意味で使用している。
解析する上において、これを定常な系として仮定された
モデルによって行なおうとしているためと考えられる。
なお、この明細書では時間的発展や時間発展を時間軸方
向の変化という意味で使用している。
また、従来のスペクトル抽出においては、スペクトル
の急激な変化に対処するためには、信号切出しのための
フレーム位置をずらす際に、その時間間隔(以下、フレ
ーム周期と記す)を短くする必要がある。しかし、例え
ば、フレーム周期を半分にすると、解析しなければなら
ないフレーム数が倍になるというように、フレーム周期
を短くすると、処理量は非常に大きくなる。例えば、1
秒間にわたって連続する音声信号を50μsecのピッチで
アナログ/デジタル変換することによって得られるデー
タ数は20000個である。ところが、上記データ長を、フ
レーム長10msec、フレーム周期2msecで分析すると、分
析されるフレーム数は、 1s÷0.002s=500 となる。その結果、分析されるデータ数は、全部で、 (10msec÷0.05msec)×500=100000 となり、本来のデータ数の5倍のデータを処理すること
になる。
の急激な変化に対処するためには、信号切出しのための
フレーム位置をずらす際に、その時間間隔(以下、フレ
ーム周期と記す)を短くする必要がある。しかし、例え
ば、フレーム周期を半分にすると、解析しなければなら
ないフレーム数が倍になるというように、フレーム周期
を短くすると、処理量は非常に大きくなる。例えば、1
秒間にわたって連続する音声信号を50μsecのピッチで
アナログ/デジタル変換することによって得られるデー
タ数は20000個である。ところが、上記データ長を、フ
レーム長10msec、フレーム周期2msecで分析すると、分
析されるフレーム数は、 1s÷0.002s=500 となる。その結果、分析されるデータ数は、全部で、 (10msec÷0.05msec)×500=100000 となり、本来のデータ数の5倍のデータを処理すること
になる。
以上述べたように、系の定常性を基本とする従来の音
声分析においては、子音の立上がり部分などの系が非定
常な部分においては、スペクトルの急激な変化を安定か
つ精度良く捕えることができないという問題があった。
声分析においては、子音の立上がり部分などの系が非定
常な部分においては、スペクトルの急激な変化を安定か
つ精度良く捕えることができないという問題があった。
この発明の第1の目的は、子音の立上がり部分のよう
な非定常な系のスペクトルの時間的発展を、安定かつ精
度よく抽出することができる音声分析装置を提供すると
ころにある。
な非定常な系のスペクトルの時間的発展を、安定かつ精
度よく抽出することができる音声分析装置を提供すると
ころにある。
この発明の第2の目的は、上記第1の目的を達成でき
るとともに、無音部分や子音部分を含むフレームのよう
に、ノイズを多く含むフレームを解析する場合であって
も、ノイズの影響を受けない高品質なスペクトルの時間
発展を得ることができる音声分析装置を提供するところ
にある。
るとともに、無音部分や子音部分を含むフレームのよう
に、ノイズを多く含むフレームを解析する場合であって
も、ノイズの影響を受けない高品質なスペクトルの時間
発展を得ることができる音声分析装置を提供するところ
にある。
上記第1の目的を達成するためにこの発明は、入力音
声信号をフーリエ変換することにより得た周波数スペク
トルから、 但し、P:入力音声信号のピッチ周波数 n:0または正の整数 なる周波数範囲のスペクトルを取り出し、これを逆フー
リエ変換することにより、周波数P×nにおけるスペ
クトルの時間発展を求めるようにしたものである。
声信号をフーリエ変換することにより得た周波数スペク
トルから、 但し、P:入力音声信号のピッチ周波数 n:0または正の整数 なる周波数範囲のスペクトルを取り出し、これを逆フー
リエ変換することにより、周波数P×nにおけるスペ
クトルの時間発展を求めるようにしたものである。
また、上記第2の目的を達成するためにこの発明は、
上記のようにして得られる周波数P×nのスペクトル
の時間発展を平滑するようにしたものである。
上記のようにして得られる周波数P×nのスペクトル
の時間発展を平滑するようにしたものである。
以下、図面を参照してこの発明の一実施例を詳細に説
明する。
明する。
第1図は一実施例の構成を示すブロック図であるが、
この第1図を説明する前に、第2図乃至第6図を用いて
一実施例の概要を説明する。
この第1図を説明する前に、第2図乃至第6図を用いて
一実施例の概要を説明する。
今、音声信号i(t)の生成モデルとして第2図に示
すようなものを考える。このモデルにおいては、音源と
して、ピッチ周期(T)で繰り返すパルス列p(t)を
声帯振動の強度包絡e(t)で振幅変調するようなもの
を想定している。そして、この音源からの信号を非定常
な声道特性q(t;τ)によってフィルタリングすること
により、音声信号i(t)を得ている。
すようなものを考える。このモデルにおいては、音源と
して、ピッチ周期(T)で繰り返すパルス列p(t)を
声帯振動の強度包絡e(t)で振幅変調するようなもの
を想定している。そして、この音源からの信号を非定常
な声道特性q(t;τ)によってフィルタリングすること
により、音声信号i(t)を得ている。
上記モデルを数学的に表現すると、次式(1)のよう
になる。
になる。
i(t)=∫dτq(t;τ)e(τ)p(τ) ……
(1) 特殊な例として声道特性を定常とすると、 q(t;τ)→q(t−τ) となり、式(1)は従来のケプストラム分析におけるモ
デルと同じく、次式(2)に帰着することになる。
(1) 特殊な例として声道特性を定常とすると、 q(t;τ)→q(t−τ) となり、式(1)は従来のケプストラム分析におけるモ
デルと同じく、次式(2)に帰着することになる。
i(t)=∫dτq(t−τ)e(τ)p(τ) ……
(2) つまり、本実施例の基礎となるモデルにおいては、従
来のケプストラム分析におけるモデル(式(2))の声
道特性を、時間的に変化するものとして考えている。
(2) つまり、本実施例の基礎となるモデルにおいては、従
来のケプストラム分析におけるモデル(式(2))の声
道特性を、時間的に変化するものとして考えている。
さて、非定常声道特性q(t;τ)、声帯振動波形(パ
ルス列)p(t)、音源の包絡強度e(t)をフーリエ
分解すると、それぞれ、 と表わせる。
ルス列)p(t)、音源の包絡強度e(t)をフーリエ
分解すると、それぞれ、 と表わせる。
式(3)は、定常モデルの式(2)のq(t−τ)に
対する表現、つまり、 の非定常な場合に対する自然な拡張となっており、Q
(t,ω)は声道特性のスペクトルの角周波数ω成分の時
間的変化を表現する。
対する表現、つまり、 の非定常な場合に対する自然な拡張となっており、Q
(t,ω)は声道特性のスペクトルの角周波数ω成分の時
間的変化を表現する。
式(3),(4),(5)を式(1)の音声生成モデ
ルに代入すると、 が得られる。
ルに代入すると、 が得られる。
ここで、 とし、これを式(7)に代入すると、 となる。さらに、式(9)のQ(t,ω)のt依存性につ
いてフーリエ変換することにより、式(10)に示される
ようなQ′(P,ω)が得られる。
いてフーリエ変換することにより、式(10)に示される
ようなQ′(P,ω)が得られる。
Q′(P,ω)=∫dte-itpQ(t,ω) ……(10) 音声信号i(t)のフーリエスペクトルI(ω)は、
式(9)と(10)から、 と表わすことができる。
式(9)と(10)から、 と表わすことができる。
ところで、式(8)で定義されるF(ω)は、第3図
に示すような 周期の離散的スペクトルである。図中のスペクトルの幅
(Δω)は、上記包絡強度e(t)のスペクトルE
(ω)のバンド幅である。このバンド幅(Δω)の大き
さは、包絡強度e(t)の時間変化の激しさによって規
定されるものである。ここで、包絡強度e(t)は、第
3図に示す2つのスペクトルS1,S2が分離するために
は、声帯振動の1ピッチ以内の時間で激しく変化しない
という条件を満たさなければならない。同様に、式(1
0)で定義されるQ′(P,ω)のP依存性は、声道特性
スペクトルの時間変化に対するスペクトル表現である。
したがって、包絡強度e(t)が声帯振動の1ピッチ以
内の時間で激しく変化しないと仮定すれば、Pは、 に帯域制限される。
に示すような 周期の離散的スペクトルである。図中のスペクトルの幅
(Δω)は、上記包絡強度e(t)のスペクトルE
(ω)のバンド幅である。このバンド幅(Δω)の大き
さは、包絡強度e(t)の時間変化の激しさによって規
定されるものである。ここで、包絡強度e(t)は、第
3図に示す2つのスペクトルS1,S2が分離するために
は、声帯振動の1ピッチ以内の時間で激しく変化しない
という条件を満たさなければならない。同様に、式(1
0)で定義されるQ′(P,ω)のP依存性は、声道特性
スペクトルの時間変化に対するスペクトル表現である。
したがって、包絡強度e(t)が声帯振動の1ピッチ以
内の時間で激しく変化しないと仮定すれば、Pは、 に帯域制限される。
Q′(P,ω)のω依存性は、声道特性スペクトルを示
すもので、第4図に示すように、通常は1ピッチに対応
する周波数変化 以内では、大きく変化しないと考えられる。
すもので、第4図に示すように、通常は1ピッチに対応
する周波数変化 以内では、大きく変化しないと考えられる。
以上の議論から、式(11)の積分内のQ′(P,ω−
P)は においてだけ、0以外の値をもち、そのとき、 ∫Q′(P,ω−P)Q′(P,ω) ……(12) と近似できる。
P)は においてだけ、0以外の値をもち、そのとき、 ∫Q′(P,ω−P)Q′(P,ω) ……(12) と近似できる。
そこで、Q′(P,ω)を、ωが の近傍であるとみなして、 によって代表すれば、 の範囲では、式(11)のI(ω)は、次の で近似される。
この式(14)のF(ω−P)は定義式(8)により、 であるから、 と変形される。
は、式(4)と(10)の定義より であるから、これらを式(15)に代入することにより、 はさらに、 となる。ところが、仮定により、 とも、スペクトルが に帯域制限されているので、式(18)の右辺の積分は、 の場合だけ、0以外の値をもつ。そして、式(18)のω
は、式(13)の仮定により、 の近傍、つまり、 であるとしているので、式(13)と(19)から、式(1
8)のnに関する和は、n=mの項だけが残る。
は、式(13)の仮定により、 の近傍、つまり、 であるとしているので、式(13)と(19)から、式(1
8)のnに関する和は、n=mの項だけが残る。
式(20)の積分内の関数 は、前述のように、 に帯域制限されていると仮定しているため、式(20)の
τに関する積分は、サンプル間隔(T)の和で近似でき
る。
τに関する積分は、サンプル間隔(T)の和で近似でき
る。
ところで、 は音声スペクトルI(ω)の 近傍における値として定義されたが、それ以外の周波数
範囲へも、周期関数として拡張することができる。
範囲へも、周期関数として拡張することができる。
但し、l=0,±1,±2,…… これを図示したのが、第5図である。
こうして定義された周期関数 はフーリエ級数展開により、 と表わすことができる。ここで導入された は、 と逆変換によって求めることができる。
以上求めた式(21)と(22)を比較すれば、 とファクトライズすることが分かる。この式(24)が求
める関係式である。
める関係式である。
式(24)の左辺 は、式(23)より であるが、積分範囲 において、 であるから、式(23)は次式(25)で代用される。
以上まとめると、声道特性の時間的変化q(t;τ)、
声帯音源の振幅の包絡強度e(t)がともにピッチ周期
T以内の時間で激しく変化しないこと、いいかえれば、
そのスペクトルが に帯域制限されていることを仮定すれば、入力音声信号
をi(t)として、 の手続きで結果が得られる。この手続きを示す式(26)
を図解したのが第6図である。得られた結果である式
(24)の意味するものは、「時間nTにおける は、声帯振動スペクトルとそのときの音源強度及びその
ときの声道特性スペクトルの積である。」ということで
ある。この が入力音声信号i(t)の周波数スペクトルの時間的発
展SEP(t;P・n)である。但し、ここで、 でする。
声帯音源の振幅の包絡強度e(t)がともにピッチ周期
T以内の時間で激しく変化しないこと、いいかえれば、
そのスペクトルが に帯域制限されていることを仮定すれば、入力音声信号
をi(t)として、 の手続きで結果が得られる。この手続きを示す式(26)
を図解したのが第6図である。得られた結果である式
(24)の意味するものは、「時間nTにおける は、声帯振動スペクトルとそのときの音源強度及びその
ときの声道特性スペクトルの積である。」ということで
ある。この が入力音声信号i(t)の周波数スペクトルの時間的発
展SEP(t;P・n)である。但し、ここで、 でする。
本実施例の概略は上述したようなものであるが、ここ
で、第1図に戻り、上述したような処理を行うための構
成を説明する。
で、第1図に戻り、上述したような処理を行うための構
成を説明する。
第1図において、11は、入力音声信号i(t)をフー
リエ変換して周波数スペクトルを得るフーリエ変換部で
ある。
リエ変換して周波数スペクトルを得るフーリエ変換部で
ある。
12は、入力音声信号i(t)のピッチ周波数(P)
を検出するピッチ周波数検出部である。このピッチ周波
数検出部12は、例えばフーリエ変換部11の出力をケプス
トラム分析することにより、ピッチ周波数(P)を検
出する。
を検出するピッチ周波数検出部である。このピッチ周波
数検出部12は、例えばフーリエ変換部11の出力をケプス
トラム分析することにより、ピッチ周波数(P)を検
出する。
13は、フーリエ変換部11から出力される周波数スペク
トルより、所定の周波数範囲(A)にあるスペクトル
を抽出するスペクトル抽出部である。ここで、所定の周
波数範囲(A)とは、ピッチ周波数検出部12で検出さ
れたピッチ周波数(P)に基づいて次のように設定さ
れる。
トルより、所定の周波数範囲(A)にあるスペクトル
を抽出するスペクトル抽出部である。ここで、所定の周
波数範囲(A)とは、ピッチ周波数検出部12で検出さ
れたピッチ周波数(P)に基づいて次のように設定さ
れる。
但し、nは0または正の整数である。
14は、スペクトル抽出部13で抽出された周波数スペク
トルを逆にフーリエ変換することにより、周波数P×
nにおける周波数スペクトルの時間発展SEP(t;P)
を得る逆フーリエ変換部である。
トルを逆にフーリエ変換することにより、周波数P×
nにおける周波数スペクトルの時間発展SEP(t;P)
を得る逆フーリエ変換部である。
第1図に示すようにブロック化される本実施例の音声
分析装置は、ハードウェア、ソフトウェアのいずれによ
っても実現できるものであるが、ここで、ソフトウェア
による場合を代表として、第1図の具体的な構成を実測
例を基に説明する。
分析装置は、ハードウェア、ソフトウェアのいずれによ
っても実現できるものであるが、ここで、ソフトウェア
による場合を代表として、第1図の具体的な構成を実測
例を基に説明する。
第7図は、マイクロホンから入力される音声信号を50
μsecの間隔でサンプリングし、このサンプリング値を1
2ビットのアナログ/デジタルコンバータにより量子化
することにより得た音声試料を示すものである。但し、
第7図は実際上に得られた音声試料のうち、1638ポイン
ト分の試料だけを示す。また、話者は20代女性で、音韻
は母音“ア”である。さらに、第7図のフレームでは、
語頭部も含んでいる。
μsecの間隔でサンプリングし、このサンプリング値を1
2ビットのアナログ/デジタルコンバータにより量子化
することにより得た音声試料を示すものである。但し、
第7図は実際上に得られた音声試料のうち、1638ポイン
ト分の試料だけを示す。また、話者は20代女性で、音韻
は母音“ア”である。さらに、第7図のフレームでは、
語頭部も含んでいる。
第8図は、上記音声試料の処理を示すフローチャート
である。この第8図において、ステップS1では、量子化
された音声試料から予じめ定めたフレーム長分の音声試
料が取り出される。このフレーム中の音声試料をin(1
nN)とすると、次のステップS2では、前処理とし
て、次式で示される差分をとる処理がなされる。
である。この第8図において、ステップS1では、量子化
された音声試料から予じめ定めたフレーム長分の音声試
料が取り出される。このフレーム中の音声試料をin(1
nN)とすると、次のステップS2では、前処理とし
て、次式で示される差分をとる処理がなされる。
in←in−in-1 次に、この差分出力にステップS3でハミング窓をかけ
た上で、 ステップS4でフーリエ変換(FFT)を施し、この変換結
果に従ってステップS5で周波数スペクトルI(ω)を求
める。このようにして得られるスペクトルI(ω)の実
部と虚部をそれぞれIRn,IInとすると、これらはそれぞ
れ第9図、第10図に示すようなものとなる。但し、nは である。
た上で、 ステップS4でフーリエ変換(FFT)を施し、この変換結
果に従ってステップS5で周波数スペクトルI(ω)を求
める。このようにして得られるスペクトルI(ω)の実
部と虚部をそれぞれIRn,IInとすると、これらはそれぞ
れ第9図、第10図に示すようなものとなる。但し、nは である。
以上が第1図に示すフーリエ変換部11の処理に対応す
る。また、ステップS6,S7では、ピッチ周波数検出部12
の処理がなされる。すなわち、ステップS6では、フーリ
エ変換出力のケプストラム分析がなされ、次のステップ
S7では、この分析結果に従って入力音声信号のピッチ周
期(いいかえればピッチ周波数P)(T)が検出され
る。
る。また、ステップS6,S7では、ピッチ周波数検出部12
の処理がなされる。すなわち、ステップS6では、フーリ
エ変換出力のケプストラム分析がなされ、次のステップ
S7では、この分析結果に従って入力音声信号のピッチ周
期(いいかえればピッチ周波数P)(T)が検出され
る。
以下、ステップS8〜S10では、第1図に示すスペクト
ル抽出部13、逆フーリエ変換部14の処理がなされる。つ
まり、周波数スペクトルI(ω)から1周期分をとり出
しては、逆フーリエ変換して、スペクトルI(ω)の時
間発展 SEP(t;P・n)を求めることが繰り返される。これ
をさらに詳しく説明すると、まず、ステップS8では、ピ
ッチ周期(T)より大きな値Lを長さとする2つの領域 IMRj,IMIj(1jL) に対して、スペクトルIRn,IInのn×M番目前後のM/2
個のデータを移す処理がなされる。移す規則は、FFTア
ルゴリズムに対応するように、第11図に示すような規則
に従ってなされる。この後、ステップS9でIMR,IMIの組
に対して逆フーリエ変換することにより、スペクトルの
時間発展 が得られる。この処理は、1からN/2Mまでのmについて
行われる。
ル抽出部13、逆フーリエ変換部14の処理がなされる。つ
まり、周波数スペクトルI(ω)から1周期分をとり出
しては、逆フーリエ変換して、スペクトルI(ω)の時
間発展 SEP(t;P・n)を求めることが繰り返される。これ
をさらに詳しく説明すると、まず、ステップS8では、ピ
ッチ周期(T)より大きな値Lを長さとする2つの領域 IMRj,IMIj(1jL) に対して、スペクトルIRn,IInのn×M番目前後のM/2
個のデータを移す処理がなされる。移す規則は、FFTア
ルゴリズムに対応するように、第11図に示すような規則
に従ってなされる。この後、ステップS9でIMR,IMIの組
に対して逆フーリエ変換することにより、スペクトルの
時間発展 が得られる。この処理は、1からN/2Mまでのmについて
行われる。
なお、スペクトルの直流成分 は、m=0の場合に対応するが、始めに音声試料を差分
したので、ここでは、 を0と考えて無視した。
したので、ここでは、 を0と考えて無視した。
第12図は、こうして得られたスペクトルの時間発展SE
P(mT;P・n)の絶対値の対数を示すものである。
P(mT;P・n)の絶対値の対数を示すものである。
以上詳述したこの実施例によれば、次のような効果が
ある。すなわち、従来のケプストラム解析、ARモデルに
よる音声分析では、入力音声信号のうち、解析フレーム
中の平均的スペクトルしか得ることができなかったのに
対し、この実施例では、解析フレーム中のスペクトルの
時間的発展を抽出することができるので、スペクトルの
急激な変化も安定にかつ精度良く抽出することができ
る。
ある。すなわち、従来のケプストラム解析、ARモデルに
よる音声分析では、入力音声信号のうち、解析フレーム
中の平均的スペクトルしか得ることができなかったのに
対し、この実施例では、解析フレーム中のスペクトルの
時間的発展を抽出することができるので、スペクトルの
急激な変化も安定にかつ精度良く抽出することができ
る。
また、得られたスペクトルの時間発展SEP(t;
Pn)は式(24)に示すように明確な意味をもち、解析
中に人為的なパラメータ(例えばARモデルにおける分析
次数、ケプストラム分析におけるカットオフケフレンシ
ーなど)が含まれないので、信頼性が高い。
Pn)は式(24)に示すように明確な意味をもち、解析
中に人為的なパラメータ(例えばARモデルにおける分析
次数、ケプストラム分析におけるカットオフケフレンシ
ーなど)が含まれないので、信頼性が高い。
第13図はこの発明の他の実施例の構成を示すブロック
図である。なお、第13図において、先の第1図と同一部
には同一符号を付し、詳細な説明を省略する。
図である。なお、第13図において、先の第1図と同一部
には同一符号を付し、詳細な説明を省略する。
この実施例では、逆フーリエ変換部14の出力は、絶対
値部15に与えられる。絶対値部15は入力信号の絶対値を
とり、平滑化部16に与える。平滑化部16は、入力信号の
時間軸上での移動平均をとることで、入力信号を平滑化
する。そして、この平滑出力を対数化部17に与え、その
対数をとるようにしたものである。
値部15に与えられる。絶対値部15は入力信号の絶対値を
とり、平滑化部16に与える。平滑化部16は、入力信号の
時間軸上での移動平均をとることで、入力信号を平滑化
する。そして、この平滑出力を対数化部17に与え、その
対数をとるようにしたものである。
上記構成によれば、次のような効果がある。すなわ
ち、無音部分や子音部分を含むフレームから得られたス
ペクトルの時間発展は多くのノイズを含むため、これを
そのまま使用することは問題がある。しかし、本実施例
のように、逆フーリエ変換部14から得られるスペクトル
の時間発展SEP(mT;P・n)を、一旦平滑する構成に
よれば、上記ノイズの影響を軽減でき、高品質な時間発
展出力を得ることができる。
ち、無音部分や子音部分を含むフレームから得られたス
ペクトルの時間発展は多くのノイズを含むため、これを
そのまま使用することは問題がある。しかし、本実施例
のように、逆フーリエ変換部14から得られるスペクトル
の時間発展SEP(mT;P・n)を、一旦平滑する構成に
よれば、上記ノイズの影響を軽減でき、高品質な時間発
展出力を得ることができる。
第14図、第15図はそれぞれ、子音“カ”の立上がり部
分について、平滑化した場合と平滑化しない場合の時間
発展を示すものである。これら2つの図を比較すると、
平滑化を施した第14図の方が、平滑化を施さない第15図
より、大幅にノイズの影響が軽減されていることがわか
る。なお、第14図では、以下に示すように、単純に3点
の平均をとることにより、移動平均を求めている。
分について、平滑化した場合と平滑化しない場合の時間
発展を示すものである。これら2つの図を比較すると、
平滑化を施した第14図の方が、平滑化を施さない第15図
より、大幅にノイズの影響が軽減されていることがわか
る。なお、第14図では、以下に示すように、単純に3点
の平均をとることにより、移動平均を求めている。
|SEP(mT,P・n|←{|SEP((m−1)T,P・n)
|+|SEP(mT,P・n)|+|SEP((m+1)T,P
・n)|}/3 〔発明の効果〕 この発明によれば、データ量の大幅な増大を伴なうこ
となく、非定常な系のスペクトルの急激な変化を、安定
かつ精度良く抽出することができるので、子音の立上が
り部分などの分析能力を大幅に向上させることができ
る。
|+|SEP(mT,P・n)|+|SEP((m+1)T,P
・n)|}/3 〔発明の効果〕 この発明によれば、データ量の大幅な増大を伴なうこ
となく、非定常な系のスペクトルの急激な変化を、安定
かつ精度良く抽出することができるので、子音の立上が
り部分などの分析能力を大幅に向上させることができ
る。
第1図は一実施例の構成を示すブロック図、第2図乃至
第6図は一実施例の概略を説明するための図、第7図は
一実施例の実測例を説明するための波形図、第8図は一
実施例の実測例の処理を説明するためのフローチャー
ト、第9図、第10図は一実施例の実測例を説明するため
のスペクトル図、第11図は第8図の一部の処理を説明す
るための図、第12図は一実施例の実測例を説明するため
のスペクトル図、第13図はこの発明の他の実施例の構成
を示すブロック図、第14図、第15図は第13図の効果を説
明するためのスペクトル図である。 11……フーリエ変換部、12……ピッチ周波数検出部、13
……スペクトル抽出部、14……逆フーリエ変換部、15…
…絶対値部、16……平滑部、17……対数化部。
第6図は一実施例の概略を説明するための図、第7図は
一実施例の実測例を説明するための波形図、第8図は一
実施例の実測例の処理を説明するためのフローチャー
ト、第9図、第10図は一実施例の実測例を説明するため
のスペクトル図、第11図は第8図の一部の処理を説明す
るための図、第12図は一実施例の実測例を説明するため
のスペクトル図、第13図はこの発明の他の実施例の構成
を示すブロック図、第14図、第15図は第13図の効果を説
明するためのスペクトル図である。 11……フーリエ変換部、12……ピッチ周波数検出部、13
……スペクトル抽出部、14……逆フーリエ変換部、15…
…絶対値部、16……平滑部、17……対数化部。
Claims (4)
- 【請求項1】入力音声信号をフーリエ変換して周波数ス
ペクトルを得るフーリエ変換手段と、 上記入力音声信号のピッチ周波数を検出するピッチ周波
数検出手段と、 上記フーリエ変換手段の変換出力から上記ピッチ周波数
検出手段で検出されたピッチ周波数によって規定される
周波数範囲(fA) fP・(n−(fP/2))<fA<fP・(n+(fP/2)) 但し、fP:ピッチ周波数 n:0または正の整数 の周波数スペクトルを抽出するスペクトル抽出手段と、 このスペクトル抽出手段の抽出出力を逆フーリエ変換す
ることにより、周波数fP・nの周波数スペクトルの時間
軸方向の変化を求める逆フーリエ変換手段とを具備した
ことを特徴とする音声分析装置。 - 【請求項2】上記ピッチ周波数検出手段は、 上記入力音声信号をフーリエ変換して周波数スペクトル
を得るフーリエ変換手段と、 このフーリエ変換手段の変換出力をケプストラム解析す
ることにより、ピッチ周波数を得るケプストラム解析手
段とを具備したことを特徴とする特許請求の範囲第1項
記載の音声分析装置。 - 【請求項3】入力音声信号をフーリエ変換して周波数ス
ペクトルを得るフーリエ変換手段と、 上記入力音声信号のピッチ周波数を検出するピッチ周波
数検出手段と、 上記フーリエ変換手段の変換出力から上記ピッチ周波数
検出手段で検出されたピッチ周波数によって規定される
周波数範囲(fA) fP・(n−(fP/2))<fA<fP・(n+(fP/2)) 但し、fP:ピッチ周波数 n:0または正の整数 の周波数スペクトルを抽出するスペクトル抽出手段と、 このスペクトル抽出手段の抽出出力を逆フーリエ変換す
ることにより、周波数fP・nの周波数スペクトルの時間
軸方向の変化を求める逆フーリエ変換手段と、 この逆フーリエ変換手段の変換出力を平滑する平滑手段
とを具備したことを特徴とする音声分析装置。 - 【請求項4】上記ピッチ周波数検出手段は、 上記入力音声信号をフーリエ変換して周波数スペクトル
を得るフーリエ変換手段と、 このフーリエ変換手段の変換出力をケプストラム解析す
ることにより、ピッチ周波数を得るケプストラム解析手
段とを具備したことを特徴とする特許請求の範囲第3項
記載の音声分析装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60231721A JP2569472B2 (ja) | 1985-10-17 | 1985-10-17 | 音声分析装置 |
US06/917,509 US4827516A (en) | 1985-10-16 | 1986-10-10 | Method of analyzing input speech and speech analysis apparatus therefor |
EP86114258A EP0219109B1 (en) | 1985-10-16 | 1986-10-15 | Method of analyzing input speech and speech analysis apparatus therefor |
DE8686114258T DE3687815T2 (de) | 1985-10-16 | 1986-10-15 | Verfahren und vorrichtung zur sprachanalyse. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60231721A JP2569472B2 (ja) | 1985-10-17 | 1985-10-17 | 音声分析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6290700A JPS6290700A (ja) | 1987-04-25 |
JP2569472B2 true JP2569472B2 (ja) | 1997-01-08 |
Family
ID=16927979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60231721A Expired - Lifetime JP2569472B2 (ja) | 1985-10-16 | 1985-10-17 | 音声分析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2569472B2 (ja) |
-
1985
- 1985-10-17 JP JP60231721A patent/JP2569472B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPS6290700A (ja) | 1987-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2763322B2 (ja) | 音声処理方法 | |
EP0219109B1 (en) | Method of analyzing input speech and speech analysis apparatus therefor | |
US5054085A (en) | Preprocessing system for speech recognition | |
JP4624552B2 (ja) | 狭帯域言語信号からの広帯域言語合成 | |
JP3364904B2 (ja) | 自動音声認識方法及び装置 | |
Sukhostat et al. | A comparative analysis of pitch detection methods under the influence of different noise conditions | |
Fort et al. | Parametric and non-parametric estimation of speech formants: application to infant cry | |
JPH10133693A (ja) | 音声認識装置 | |
Prasad et al. | Speech features extraction techniques for robust emotional speech analysis/recognition | |
EP0248593A1 (en) | Preprocessing system for speech recognition | |
Zbancioc et al. | Using neural networks and LPCC to improve speech recognition | |
Kawahara et al. | Higher order waveform symmetry measure and its application to periodicity detectors for speech and singing with fine temporal resolution | |
JP2001022369A (ja) | 音源情報の抽出方法 | |
JP2569472B2 (ja) | 音声分析装置 | |
Dubey et al. | Hypernasality detection using zero time windowing | |
JP3035939B2 (ja) | 音声分析合成装置 | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech | |
KR0128851B1 (ko) | 극성이 다른 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출 방법 | |
JP4313740B2 (ja) | 残響除去方法、プログラムおよび記録媒体 | |
JP2885984B2 (ja) | 音声分析装置 | |
JPH1097288A (ja) | 背景雑音除去装置及び音声認識装置 | |
JP2898637B2 (ja) | 音声信号分析方法 | |
Krause | Recent developments in speech signal pitch extraction | |
Kasthuri et al. | Speech Filters for Speech Signal Noise Reduction | |
KR0173924B1 (ko) | 음성신호의 유성음 구간에서 이포크 검출 방법 |