JPH02239293A - 音声処理方法 - Google Patents
音声処理方法Info
- Publication number
- JPH02239293A JPH02239293A JP1060371A JP6037189A JPH02239293A JP H02239293 A JPH02239293 A JP H02239293A JP 1060371 A JP1060371 A JP 1060371A JP 6037189 A JP6037189 A JP 6037189A JP H02239293 A JPH02239293 A JP H02239293A
- Authority
- JP
- Japan
- Prior art keywords
- mel
- section
- speech
- spectrum
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002194 synthesizing effect Effects 0.000 title abstract description 3
- 238000001228 spectrum Methods 0.000 claims abstract description 50
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims description 29
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000001308 synthesis method Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 description 33
- 238000003786 synthesis reaction Methods 0.000 description 33
- 238000006243 chemical reaction Methods 0.000 description 22
- 238000000034 method Methods 0.000 description 16
- 238000000605 extraction Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 235000019687 Lamb Nutrition 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野〕
本発明は、音声を分析してパラメータに変換し、そのパ
ラメータから再び音声を合成する音声分析合成方式に関
するものである。
ラメータから再び音声を合成する音声分析合成方式に関
するものである。
従来、音声分析合成方式の一方式として、メルケプスト
ラム方式が存在する。
ラム方式が存在する。
(文献)
(1)今井,阿部:“改良メルケプストラム法によるス
ペクトル包絡抽出”,電子通信学会論文誌Vol.J6
2−A No.4 (1979/4)(2)今井,住
田他:“音声合成のためのメル対数スペクトル近似(M
LSA)フィルタ”,電子通信学会論文誌VolJ66
−A No.2 (1983/2)(3)小林.岡村
他:“メルケプストラム音声合成器の構成”,日本音響
学会音声研究会資料S83−03(1983/4) (4)北村.今井他:“メルケプストラムを用いる音声
合成と合成音声の品質” 日本音響学会聴覚研究会資料
H83−40 (1983/6)この方式では、分析時
には改良ケブスドラム法でスペクトラム包絡を求めて、
それをメル目盛を近似する非直線周波数目盛上のケプス
ドラム係数に変換し、スベクトラム包絡情報とする。合
成時には、合成フィルタとしてメル対数スペクトル近似
フィルタ(MLSAフィルタ)を用い、分析時に得られ
たメルケプストラム係数をフィルタ係数として入力する
ことにより合成音を生成する。
ペクトル包絡抽出”,電子通信学会論文誌Vol.J6
2−A No.4 (1979/4)(2)今井,住
田他:“音声合成のためのメル対数スペクトル近似(M
LSA)フィルタ”,電子通信学会論文誌VolJ66
−A No.2 (1983/2)(3)小林.岡村
他:“メルケプストラム音声合成器の構成”,日本音響
学会音声研究会資料S83−03(1983/4) (4)北村.今井他:“メルケプストラムを用いる音声
合成と合成音声の品質” 日本音響学会聴覚研究会資料
H83−40 (1983/6)この方式では、分析時
には改良ケブスドラム法でスペクトラム包絡を求めて、
それをメル目盛を近似する非直線周波数目盛上のケプス
ドラム係数に変換し、スベクトラム包絡情報とする。合
成時には、合成フィルタとしてメル対数スペクトル近似
フィルタ(MLSAフィルタ)を用い、分析時に得られ
たメルケプストラム係数をフィルタ係数として入力する
ことにより合成音を生成する。
また別の音声分析合成方式として、PSE方式が存在す
る。
る。
(文献)
(5)中島,鈴木:“パワースペクトル包絡(PSE)
音声分析・合成系“,音響学会誌Vol.44, No
.11,P.824 (1988) (6)中島,鈴木:“非定常態波形のスペクトル・モデ
ルに基づくピッチ対同期形PSE分析法”音響学会誌V
ol.44, No.12, P.900 (1988
)この方式では、分析時には音声波形からFFTにより
得られるパワースペクトルを基本周波数の整数倍の位置
で標本化し、その標本点を余弦級数により滑らかに結ん
だものをスペクトル包絡として求める。合成時には得ら
れたスペクトル包絡から零位相インパルス応答波形を求
めて基本周期(基本周゛波数の逆数)で重ね合わすこと
により合成音声を生成する。
音声分析・合成系“,音響学会誌Vol.44, No
.11,P.824 (1988) (6)中島,鈴木:“非定常態波形のスペクトル・モデ
ルに基づくピッチ対同期形PSE分析法”音響学会誌V
ol.44, No.12, P.900 (1988
)この方式では、分析時には音声波形からFFTにより
得られるパワースペクトルを基本周波数の整数倍の位置
で標本化し、その標本点を余弦級数により滑らかに結ん
だものをスペクトル包絡として求める。合成時には得ら
れたスペクトル包絡から零位相インパルス応答波形を求
めて基本周期(基本周゛波数の逆数)で重ね合わすこと
により合成音声を生成する。
しかしながら上記従来例には、それぞれつぎに示すよう
な欠点があった。
な欠点があった。
(1)メルケプストラム方式においては、改良ケブスド
ラムでスペクトル包絡を求める際にケブスドラム係数の
次数と音声の基本周波数の関係によってスペクトル包絡
が振動する傾向にある。
ラムでスペクトル包絡を求める際にケブスドラム係数の
次数と音声の基本周波数の関係によってスペクトル包絡
が振動する傾向にある。
の極と零のダイナミックレンジが大きいときには、その
急激な変化に追従出来ない。これらの理由によりメルケ
プストラム方式における分析方式はスペクトル包絡を精
密に求めるのに不向きであり、音質劣化の原因となって
いる。これに対してPSE方式における分析方式では、
スペクトルを基本周波数で標本化して、その標本点を通
る近似曲線(余弦級数)を包絡とするので、上記のよう
な問題は生じない。
急激な変化に追従出来ない。これらの理由によりメルケ
プストラム方式における分析方式はスペクトル包絡を精
密に求めるのに不向きであり、音質劣化の原因となって
いる。これに対してPSE方式における分析方式では、
スペクトルを基本周波数で標本化して、その標本点を通
る近似曲線(余弦級数)を包絡とするので、上記のよう
な問題は生じない。
(2)PSE法においては、合成時に零位相インパルス
応答波形を重ね合わせる際、基本周期(基本周波数の逆
数)で、時刻0に対称なインパルス応答波形を重ね合わ
せるために、合成波形を記憶してお《バツファが必要と
なる。また、無声音声区間での合成においてもインパル
ス応答波形を重ね合わせるために、無声音声区間の合成
音において重ね合わせの周期が存在することになり、ス
ペクトルを求めた際にホワイトノイズの特性のような連
続スペクトルにならず、重ね合わせ周波数の整数倍の位
置でのみエネルギーを有する線スペクトルとなる。この
特性は実際の音声とはかけはなれたものとなる。これら
の理由によりPSE方式における合成方式は実時間処理
には不向きであり、また得られる合成音声の特性にも問
題がある。これに対してメルケプストラム法における合
成方式では、フィルタ(MLSAフィルタ)を用いるの
で、DSPなどで容易に実時間処理が可能であり、また
有声音声区間と無声音声区間とでは音源を替えて、無声
音声区間ではホワイトノイズを音源とすることによりP
SE方式で発生するような問題は生じない。
応答波形を重ね合わせる際、基本周期(基本周波数の逆
数)で、時刻0に対称なインパルス応答波形を重ね合わ
せるために、合成波形を記憶してお《バツファが必要と
なる。また、無声音声区間での合成においてもインパル
ス応答波形を重ね合わせるために、無声音声区間の合成
音において重ね合わせの周期が存在することになり、ス
ペクトルを求めた際にホワイトノイズの特性のような連
続スペクトルにならず、重ね合わせ周波数の整数倍の位
置でのみエネルギーを有する線スペクトルとなる。この
特性は実際の音声とはかけはなれたものとなる。これら
の理由によりPSE方式における合成方式は実時間処理
には不向きであり、また得られる合成音声の特性にも問
題がある。これに対してメルケプストラム法における合
成方式では、フィルタ(MLSAフィルタ)を用いるの
で、DSPなどで容易に実時間処理が可能であり、また
有声音声区間と無声音声区間とでは音源を替えて、無声
音声区間ではホワイトノイズを音源とすることによりP
SE方式で発生するような問題は生じない。
本発明によれば、ある短い時間長の音声波形データをF
FT t,,て短時間パワースペクトルを求め、その短
時間パワースペクトルを基本周波数の整数倍の位置で標
本化し、得られた標本点に対して余弦級数モデルをあて
はめてスペクトル包絡を求める。
FT t,,て短時間パワースペクトルを求め、その短
時間パワースペクトルを基本周波数の整数倍の位置で標
本化し、得られた標本点に対して余弦級数モデルをあて
はめてスペクトル包絡を求める。
このスペクトル包絡からメルケプストラム係数を算出し
て、得られたメルケプストラム係数を合成フィルタ(M
LSAフィルタ)のフィルタ係数として入力し、合成音
声を生成する。このように構成することにより、より実
用的で高品質な合成音声を生成するようにしたものであ
る。
て、得られたメルケプストラム係数を合成フィルタ(M
LSAフィルタ)のフィルタ係数として入力し、合成音
声を生成する。このように構成することにより、より実
用的で高品質な合成音声を生成するようにしたものであ
る。
〔実施例〕
第1図は本発明の特徴を最もよ《表わす図面であり、同
図においてlは短時間音声波形(この単位時間長を1フ
レームとする)を分析して対数スペクトル包絡データを
生成し、有声/無声判定を行い、ピッチ(基本周波数)
を抽出する分析部、2は分析部lで生成された包絡デー
タをメルケプストラム係数に変換するパラメータ変換部
、3はパラメータ変換部2で得られるメルケプストラム
係数と分析部lで得られる有声/無声情報とピッチ情報
から合成音声波形を生成する合成部である。
図においてlは短時間音声波形(この単位時間長を1フ
レームとする)を分析して対数スペクトル包絡データを
生成し、有声/無声判定を行い、ピッチ(基本周波数)
を抽出する分析部、2は分析部lで生成された包絡デー
タをメルケプストラム係数に変換するパラメータ変換部
、3はパラメータ変換部2で得られるメルケプストラム
係数と分析部lで得られる有声/無声情報とピッチ情報
から合成音声波形を生成する合成部である。
第2図は第1図における分析部の構成を示している。4
は入力されたlフレーム分の音声が有声区間か無声区間
かを判定するための有声/無声判定部、5は入力された
1フレームのピッチ(基本周波数)を抽出するピッチ抽
出部、6は入力されたlフレームの音声データのパワー
スペクトルを求めるパワースペクトル抽出部、7はパワ
ースペクトル柚出部6で得られるパワースペクトルをピ
ッチ抽出部5で得られるピッチ間隔で標本化する標本化
部、8は標本化部7で得られる標本点系列に対して余弦
級数モデルをあてはめて係数を求めるパラメータ推定部
、9はパラメータ推定部8で得られる係数から対数スペ
クトル包絡を求めるスペクトル包絡生成部である。
は入力されたlフレーム分の音声が有声区間か無声区間
かを判定するための有声/無声判定部、5は入力された
1フレームのピッチ(基本周波数)を抽出するピッチ抽
出部、6は入力されたlフレームの音声データのパワー
スペクトルを求めるパワースペクトル抽出部、7はパワ
ースペクトル柚出部6で得られるパワースペクトルをピ
ッチ抽出部5で得られるピッチ間隔で標本化する標本化
部、8は標本化部7で得られる標本点系列に対して余弦
級数モデルをあてはめて係数を求めるパラメータ推定部
、9はパラメータ推定部8で得られる係数から対数スペ
クトル包絡を求めるスペクトル包絡生成部である。
第3図は第l図におけるパラメータ変換部の構成を示し
ている。10は周波数軸をメル目盛に変換するための近
似周波数目盛を作成するためのメル近似目盛生成部、1
1は周波数軸をメル近似目盛に変換するための周波数軸
変換部、l2は対数スペクトル包絡からケプストラム係
数を生成するケプスドラム変換部である。
ている。10は周波数軸をメル目盛に変換するための近
似周波数目盛を作成するためのメル近似目盛生成部、1
1は周波数軸をメル近似目盛に変換するための周波数軸
変換部、l2は対数スペクトル包絡からケプストラム係
数を生成するケプスドラム変換部である。
第4図は第1図における合成部の構成を示している。l
3は有声音声区間の音源を発生するためのパルス音源発
生部、l4は無声音声区間の音源を発生するためのノイ
ズ音源発生部、l5は有声/無声判定部4から得られる
有声/無声情報に従って音源を切り換えるための音源切
り換え部、l6はメルケプストラム係数と音源から合成
音声波形を生成するための合成フィルタ部である。
3は有声音声区間の音源を発生するためのパルス音源発
生部、l4は無声音声区間の音源を発生するためのノイ
ズ音源発生部、l5は有声/無声判定部4から得られる
有声/無声情報に従って音源を切り換えるための音源切
り換え部、l6はメルケプストラム係数と音源から合成
音声波形を生成するための合成フィルタ部である。
つぎに本実施例の具体的な動作を説明する。
説明の前に、いま音声資料として次のようなデータを仮
定する。
定する。
サンプリング周波数: 12kHz
フレーム長: 2 1 .33 msec (256デ
ータポイント)フレーム周期: lomsec (12
0データポイント)まず1フレーム長の音声データが分
析部lに入力されると、有声/無声判定部4では入力さ
れたフレームが有声音声区間であるか無声音声区間であ
るかの判定がなされる。ここでの判定は、例えば文献(
B.S.Atal and L.R,Rabiner
: ’A PatternRecognition A
pproach to Voiced−Unvoice
dSilence Classification w
ith Applicationsto Speec
h Recognition , IEEE Tr
ans.ASSP Vol.24 No.3 1
976)に記載されている方法などで実現可能である。
ータポイント)フレーム周期: lomsec (12
0データポイント)まず1フレーム長の音声データが分
析部lに入力されると、有声/無声判定部4では入力さ
れたフレームが有声音声区間であるか無声音声区間であ
るかの判定がなされる。ここでの判定は、例えば文献(
B.S.Atal and L.R,Rabiner
: ’A PatternRecognition A
pproach to Voiced−Unvoice
dSilence Classification w
ith Applicationsto Speec
h Recognition , IEEE Tr
ans.ASSP Vol.24 No.3 1
976)に記載されている方法などで実現可能である。
パワースペクトル抽出部5では入力されたlフレーム長
のデータについて窓掛け処理(ブラックマン窓7ハニン
グ窓など)をしたあとFFT処理を施し、対数パワース
ペクトルを求める。以後の処理でピッチを求める際に、
周波数分解能を細かくとる必要があるので、FFTの点
数は大きめ(例えば2048ポイント)にとる必要があ
る。
のデータについて窓掛け処理(ブラックマン窓7ハニン
グ窓など)をしたあとFFT処理を施し、対数パワース
ペクトルを求める。以後の処理でピッチを求める際に、
周波数分解能を細かくとる必要があるので、FFTの点
数は大きめ(例えば2048ポイント)にとる必要があ
る。
入力されたフレームが有声音声区間の場合には、ピッチ
抽出部6でピッチを抽出する。この時ピッチ抽出部6で
はパワースペクトル抽出部5で得られた対数パワースペ
クトルの逆FFTによりケプストラムを求め、ケブスド
ラムの最大値を与えるケフレンシー(単位は(sec)
)の逆数をピッチ(基本周波数: fo (Hz))と
する方法などが考えられる。
抽出部6でピッチを抽出する。この時ピッチ抽出部6で
はパワースペクトル抽出部5で得られた対数パワースペ
クトルの逆FFTによりケプストラムを求め、ケブスド
ラムの最大値を与えるケフレンシー(単位は(sec)
)の逆数をピッチ(基本周波数: fo (Hz))と
する方法などが考えられる。
また無声音声区間ではピッチは存在しないので、ピッチ
を十分低い一定値(例えばIOOHZ)とする。
を十分低い一定値(例えばIOOHZ)とする。
つぎに標本化部7では、パワースペクトル抽出部5で求
めた対数パワースペクトルをピッチ抽出部6からのピッ
チ間隔(ピッチの整数倍の位置)で標本化して、標本点
系列を求める。
めた対数パワースペクトルをピッチ抽出部6からのピッ
チ間隔(ピッチの整数倍の位置)で標本化して、標本点
系列を求める。
このとき標本点系列を求める周波数帯域は、12kHz
サンプリングの場合θ〜5kHzが適当であるが、特に
限定されるものではない(ただしサンプリング定理より
サンプリング周波数の1/2以下にする)。
サンプリングの場合θ〜5kHzが適当であるが、特に
限定されるものではない(ただしサンプリング定理より
サンプリング周波数の1/2以下にする)。
ここで、いま必要とする周波数帯域を5kHzとすると
f。X(N−1)が5000を越える最小値がモデルの
上限周波数F (Hz), Nが標本点系列の個数で
ある。
f。X(N−1)が5000を越える最小値がモデルの
上限周波数F (Hz), Nが標本点系列の個数で
ある。
つぎにパラメータ推定部8で、標本化部で求めた標本点
系列)+, (j=0. 1・・・,N−1)から
N項余弦級数 Y(λ)=ΣAicosiλ, (o≦λ≦π)(l)
の係数パラメータA+ (i=o, l・・・,N−
1)を求める。ただしy0については、零周波数におけ
る対数パワースペクトルの値であるが、FFTによるノ
′;ワースベクトルの零周波数における値は正確ではな
いので、y0の近似値としてy,の値を用いる。
系列)+, (j=0. 1・・・,N−1)から
N項余弦級数 Y(λ)=ΣAicosiλ, (o≦λ≦π)(l)
の係数パラメータA+ (i=o, l・・・,N−
1)を求める。ただしy0については、零周波数におけ
る対数パワースペクトルの値であるが、FFTによるノ
′;ワースベクトルの零周波数における値は正確ではな
いので、y0の近似値としてy,の値を用いる。
A+を求めるには、標本点系列YlとY(λ)との誤差
二乗和 J=Σ(Y(δ) y+l”+ δ=π/ (N−
1) (2)を最小にすればよい。具体的
にはJをA (1, A I ,・・・A N−1につ
いて偏微分したものをOとおいて得られるN次の連立l
次方程式の解を求めれば良い。
二乗和 J=Σ(Y(δ) y+l”+ δ=π/ (N−
1) (2)を最小にすればよい。具体的
にはJをA (1, A I ,・・・A N−1につ
いて偏微分したものをOとおいて得られるN次の連立l
次方程式の解を求めれば良い。
つぎにスペクトル包絡生成部9で、パラメータ推定部で
求められたA6,Al,・・・AN−1から?(λ)=
A■+A1cosλ+A 2 cos2λ+−+ AN
−1 cos (N−1)λ (3)
により対数スペクトル包絡データを求める。
求められたA6,Al,・・・AN−1から?(λ)=
A■+A1cosλ+A 2 cos2λ+−+ AN
−1 cos (N−1)λ (3)
により対数スペクトル包絡データを求める。
以上の動作により、分析部lにおいて有声/無声情報、
ピッチ情報および対数スペクトル包絡データを生成する
。
ピッチ情報および対数スペクトル包絡データを生成する
。
つぎにパラメータ変換部2においてスペクトル包絡デー
タからメルケプストラム係数に変換する。
タからメルケプストラム係数に変換する。
まず予めメル近似目盛生成部10において、メル周波数
目盛を近似する非直線周波数目盛を作成する。メル目盛
は聴覚上の周波数分解能を表わす心理的な物理量であり
、一次の全極通過フィルタの位相特性により近似する。
目盛を近似する非直線周波数目盛を作成する。メル目盛
は聴覚上の周波数分解能を表わす心理的な物理量であり
、一次の全極通過フィルタの位相特性により近似する。
一時の全極通過フィルタの伝達特性を
とした時の周波数特性は
H (e”) =exp ( jβ(Ω))ただしΩ=
W△t,△tはデイジタルフィルタの単位遅延時間、ω
は角周波数である。ここで非直線周波数目盛として Ω=β(Ω) を考え、伝達関数H (z)におけるαを0.35 (
サンプリング周波数が10kHzの場合)〜0,46
(同12kHz)の任意の値を選べばΩはメル目盛とよ
く一致することが知られている。
W△t,△tはデイジタルフィルタの単位遅延時間、ω
は角周波数である。ここで非直線周波数目盛として Ω=β(Ω) を考え、伝達関数H (z)におけるαを0.35 (
サンプリング周波数が10kHzの場合)〜0,46
(同12kHz)の任意の値を選べばΩはメル目盛とよ
く一致することが知られている。
つぎに周波数軸変換部11で分析部lで求めた対数スペ
クトル包絡の周波数軸をメル近似目盛生成部10で作成
したメル目盛に変換し、メル対数スペクトル包絡を求め
る。直線周波数目盛における通常の対数スペクトルG+
(Ω)に対して、メル対数スペクトルGm(Ω)は Grn(Ω) =Gt (β一′(Ω))
(8)と変換されるる ケブストラム変換部12では、周波数軸変換部1lで得
られたメル対数スペクトル包絡データを逆FFTするこ
とによりメルケプストラム係数を求める。次数はFFT
の点数の1/2個までとることができるが、実際には1
5〜20が適当とされている。
クトル包絡の周波数軸をメル近似目盛生成部10で作成
したメル目盛に変換し、メル対数スペクトル包絡を求め
る。直線周波数目盛における通常の対数スペクトルG+
(Ω)に対して、メル対数スペクトルGm(Ω)は Grn(Ω) =Gt (β一′(Ω))
(8)と変換されるる ケブストラム変換部12では、周波数軸変換部1lで得
られたメル対数スペクトル包絡データを逆FFTするこ
とによりメルケプストラム係数を求める。次数はFFT
の点数の1/2個までとることができるが、実際には1
5〜20が適当とされている。
以上がパラメータ変換部2における動作説明である。つ
ぎに合成部3では有声/無声情報、ピッチ情報、メルケ
プストラム係数から合成音声波形を生成する。
ぎに合成部3では有声/無声情報、ピッチ情報、メルケ
プストラム係数から合成音声波形を生成する。
まず有声/無声情報に従って、ノイズ音源生成部l3ま
たはパルス音源生成部l4で音源データを作成する。す
なわち入力フレームが有声音声区間パルス波形を生成し
音源とする。その際メルケプストラム係数の1次の項は
音声のパワー(強さ)の大きさを表わしているので、こ
の値を用いてパルスの大きさを制御する。また入力フレ
ームが無声音声区間の場合には、ノイズ音源生成部l3
で白色雑音としてM系列を発生させて音源とする。
たはパルス音源生成部l4で音源データを作成する。す
なわち入力フレームが有声音声区間パルス波形を生成し
音源とする。その際メルケプストラム係数の1次の項は
音声のパワー(強さ)の大きさを表わしているので、こ
の値を用いてパルスの大きさを制御する。また入力フレ
ームが無声音声区間の場合には、ノイズ音源生成部l3
で白色雑音としてM系列を発生させて音源とする。
音源切り変え部15では、有声/無声情報に従って、有
声音声区間ではパルス音源発生部14で生成したパルス
系列を、無声音声区間ではノイズ音源発生部l3で生成
したM系列を合成フィルタ部に対して送出する。
声音声区間ではパルス音源発生部14で生成したパルス
系列を、無声音声区間ではノイズ音源発生部l3で生成
したM系列を合成フィルタ部に対して送出する。
合成フィルタ部l6では、音源切り変え部15からの音
源系列と、パラメータ変換部2からのメルケプストラム
係数からメル対数スペクトル近似フィルタ(MLSAフ
ィルタ)を用いて合成音声波形を生成する。このMLS
Aフィルタについては文献(3)に記載されている方法
を用いて実現可能である。
源系列と、パラメータ変換部2からのメルケプストラム
係数からメル対数スペクトル近似フィルタ(MLSAフ
ィルタ)を用いて合成音声波形を生成する。このMLS
Aフィルタについては文献(3)に記載されている方法
を用いて実現可能である。
記の実施例ではパラメータ変換部2における構成を第3
図のように示したが、文献(3)に記載されている方法
により構成することも可能である。その場合の構成図を
第5図に示す。第5図において17はスペクトル包絡デ
ータからケプストラム係数を求めるケブスドラム変換部
、l8はケプスドラム係数をメルケプストラム係数に変
換するメルケプストラム変換部である。このように構成
した時の動作をつぎに示す。
図のように示したが、文献(3)に記載されている方法
により構成することも可能である。その場合の構成図を
第5図に示す。第5図において17はスペクトル包絡デ
ータからケプストラム係数を求めるケブスドラム変換部
、l8はケプスドラム係数をメルケプストラム係数に変
換するメルケプストラム変換部である。このように構成
した時の動作をつぎに示す。
ケプストラム変換部l7では、分析部lで作成された対
数スペクトル包絡データに対して逆FFT処理を施すこ
とによりケブスドラム係数を求める。
数スペクトル包絡データに対して逆FFT処理を施すこ
とによりケブスドラム係数を求める。
つぎにメルケプストラム変換部l8においてケプストラ
ム係数C (m)をメルケプストラム係数Ca(m)に
次の再帰式で変換する。
ム係数C (m)をメルケプストラム係数Ca(m)に
次の再帰式で変換する。
n=・・・, −2, −1, O
Ca (m) = p:’, m=0. 1. 2 −
−− (11)以上の説明では、分析合成
装置を例にあげたが、本発明の方式は分析合成装置のみ
に限定されるものではな《、規則合成装置にも適用され
るものである。その場合実施例を第6図に示す。
−− (11)以上の説明では、分析合成
装置を例にあげたが、本発明の方式は分析合成装置のみ
に限定されるものではな《、規則合成装置にも適用され
るものである。その場合実施例を第6図に示す。
第6図において19は規則合成用単位音声データ(例え
ば単音節データ)作成部であり、20は音声波形から対
数スペクトル包絡データを求めるための分析部で、第1
図の分析部lと同様の構成である。
ば単音節データ)作成部であり、20は音声波形から対
数スペクトル包絡データを求めるための分析部で、第1
図の分析部lと同様の構成である。
2lは対数スペクトル包絡データからメルケプストラム
係数を生成するためのパラメータ変換部であり、第l図
のパラメータ変換部2と同様の構成である。22はそれ
ぞれの単位音声データに対応するメルケプストラム係数
を格納しておくためのメモリ部である。23は任意の文
字列データから合成音声を生成するための規則合成部で
あり、24は入力された文字列を解析するための文字列
解析部、25は文字列解析部24からの解析結果からパ
ラメータ接続規則やピッチ情報.有声/無声情報を生成
するための規則部、26は規則部25のパラメータ接続
規則に従ってメモリ部22からメルケプストラム係数を
取りだして接続し、メルケプストラム係数の時系列を生
成するパラメータ接続部、27はメルケプストラム係数
時系列とピッチ情報,有声/無声情報から合成音声を生
成するための合成部で、第1図の合成部3と同様の構成
である。
係数を生成するためのパラメータ変換部であり、第l図
のパラメータ変換部2と同様の構成である。22はそれ
ぞれの単位音声データに対応するメルケプストラム係数
を格納しておくためのメモリ部である。23は任意の文
字列データから合成音声を生成するための規則合成部で
あり、24は入力された文字列を解析するための文字列
解析部、25は文字列解析部24からの解析結果からパ
ラメータ接続規則やピッチ情報.有声/無声情報を生成
するための規則部、26は規則部25のパラメータ接続
規則に従ってメモリ部22からメルケプストラム係数を
取りだして接続し、メルケプストラム係数の時系列を生
成するパラメータ接続部、27はメルケプストラム係数
時系列とピッチ情報,有声/無声情報から合成音声を生
成するための合成部で、第1図の合成部3と同様の構成
である。
第6図に沿って動作の説明をする。
まず規則合成用単位音声データ作成部l9で規則合成に
必要なデータを作成する。ここで規則合成の単位となる
音声(例えば単音節音声)の分析を行い(分析部20)
、メルケプストラム係数を求めて(パラメータ変換部2
1)、メモリ部22に格納しておく。
必要なデータを作成する。ここで規則合成の単位となる
音声(例えば単音節音声)の分析を行い(分析部20)
、メルケプストラム係数を求めて(パラメータ変換部2
1)、メモリ部22に格納しておく。
つぎに規則合成部23で任意の文字列データから合成音
声を生成する。入力された文字列データは文字列解析部
24で解析されて、単音節単位の情報に分解される。こ
の情報をもとに規則部25ではパラメータ接続規則,ピ
ッチ情報,有声/無声情報を作成する。パラメータ接続
部26では、パラメータ接続規則に従ってメモリ部22
から必要なデータ(メルケプストラム係数)を取りだし
てきて接続し、メルケプストラム係数の時系列を作成す
る。合成部27ではピッチ情報,有声/無声情報とメル
ケプストラム係数時系列データから規則合成音声を生成
する。
声を生成する。入力された文字列データは文字列解析部
24で解析されて、単音節単位の情報に分解される。こ
の情報をもとに規則部25ではパラメータ接続規則,ピ
ッチ情報,有声/無声情報を作成する。パラメータ接続
部26では、パラメータ接続規則に従ってメモリ部22
から必要なデータ(メルケプストラム係数)を取りだし
てきて接続し、メルケプストラム係数の時系列を作成す
る。合成部27ではピッチ情報,有声/無声情報とメル
ケプストラム係数時系列データから規則合成音声を生成
する。
尚、本実施例ならびに他の実施例ともにパラメータとし
てメルケプストラム係数を使用しているが、式(4).
(6). (9), (10)においてα=O
とおくことにより、得られるパラメータはケブス]・ラ
ム係数と等価となる。この場合、第3図においてメル近
似目盛生成部lOと周波数軸変換部11を、第5図にお
いてメルケプストラム変換部18を削除し、第4図の合
成フィルタ部l6を対数振幅特性近似フィルタ(LMA
フィルタ)に変更することにより容易に実現できる。
てメルケプストラム係数を使用しているが、式(4).
(6). (9), (10)においてα=O
とおくことにより、得られるパラメータはケブス]・ラ
ム係数と等価となる。この場合、第3図においてメル近
似目盛生成部lOと周波数軸変換部11を、第5図にお
いてメルケプストラム変換部18を削除し、第4図の合
成フィルタ部l6を対数振幅特性近似フィルタ(LMA
フィルタ)に変更することにより容易に実現できる。
以上説明したように、音声波形から求めた対数パワース
ペクトルを基本周波数で標本化し、得られた標本点につ
いて余弦級数モデルをあてはめてスペクトル包絡を求め
、そのスペクトル包絡からメルケプストラム係数を求め
、LMSAフィルタで合成することにより、より高品質
な合成音声を得られる効果がある。
ペクトルを基本周波数で標本化し、得られた標本点につ
いて余弦級数モデルをあてはめてスペクトル包絡を求め
、そのスペクトル包絡からメルケプストラム係数を求め
、LMSAフィルタで合成することにより、より高品質
な合成音声を得られる効果がある。
第1図は本発明の実施例のブロック図。
第2図は第1図における分析部のブロック図。
第3図は第1図におけるパラメータ変換部のブロック図
。 第4図は第1図における合成部のブロック図。 第5図は第l図におけるパラメータ変換部の他の実施例
のブロック図。 第6図は本発明の他の実施例のブロック図。 lは分析部、2はパラメータ変換部、3は合成部、4は
有声/無声判定部、5はパワースペクトル抽出部、6は
ピッチ抽出部、7は標本化部、8はパラメータ推定部、
9はスペクトル包絡生成部、lOはメル近似目盛生成部
、11は周波数軸変換部、l2はケプストラム変換部、
I3はノイズ音源発生部、l4はパルス音源発生部、1
5は音源切り換え部、16は合成フィルタ部、l7はケ
プストラム変換部、18はメルケプストラム変換部、l
9は規則合成用単位音声データ作成部、20は分析部、
2lはパラメータ変換部、22はメモリ部、23は規則
合成部、24は文字列解析部、25は規則部、26はパ
ラメータ接続部、27は合成部。
。 第4図は第1図における合成部のブロック図。 第5図は第l図におけるパラメータ変換部の他の実施例
のブロック図。 第6図は本発明の他の実施例のブロック図。 lは分析部、2はパラメータ変換部、3は合成部、4は
有声/無声判定部、5はパワースペクトル抽出部、6は
ピッチ抽出部、7は標本化部、8はパラメータ推定部、
9はスペクトル包絡生成部、lOはメル近似目盛生成部
、11は周波数軸変換部、l2はケプストラム変換部、
I3はノイズ音源発生部、l4はパルス音源発生部、1
5は音源切り換え部、16は合成フィルタ部、l7はケ
プストラム変換部、18はメルケプストラム変換部、l
9は規則合成用単位音声データ作成部、20は分析部、
2lはパラメータ変換部、22はメモリ部、23は規則
合成部、24は文字列解析部、25は規則部、26はパ
ラメータ接続部、27は合成部。
Claims (1)
- 音声をいったんパラメータに変換して、そのパラメータ
から再び音声を合成する音声分析合成方式であって、入
力された音声の短時間パワースペクトルを基本周波数で
標本化し、得られた標本点に対して余弦級数モデルをあ
てはめてスペクトル包絡を求め、このスペクトル包絡か
らメルケプストラム係数を算出し、このメルケプストラ
ム係数をメル対数スペクトル近似フィルタの係数として
合成音声を生成することを特徴とする音声分析合成方式
。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1060371A JP2763322B2 (ja) | 1989-03-13 | 1989-03-13 | 音声処理方法 |
DE69009545T DE69009545T2 (de) | 1989-03-13 | 1990-03-09 | Verfahren zur Sprachanalyse und -synthese. |
EP90302580A EP0388104B1 (en) | 1989-03-13 | 1990-03-09 | Method for speech analysis and synthesis |
US08/257,429 US5485543A (en) | 1989-03-13 | 1994-06-08 | Method and apparatus for speech analysis and synthesis by sampling a power spectrum of input speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1060371A JP2763322B2 (ja) | 1989-03-13 | 1989-03-13 | 音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH02239293A true JPH02239293A (ja) | 1990-09-21 |
JP2763322B2 JP2763322B2 (ja) | 1998-06-11 |
Family
ID=13140209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1060371A Expired - Fee Related JP2763322B2 (ja) | 1989-03-13 | 1989-03-13 | 音声処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5485543A (ja) |
EP (1) | EP0388104B1 (ja) |
JP (1) | JP2763322B2 (ja) |
DE (1) | DE69009545T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006208600A (ja) * | 2005-01-26 | 2006-08-10 | Brother Ind Ltd | 音声合成装置及び音声合成方法 |
Families Citing this family (129)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03136100A (ja) * | 1989-10-20 | 1991-06-10 | Canon Inc | 音声処理方法及び装置 |
SE469576B (sv) * | 1992-03-17 | 1993-07-26 | Televerket | Foerfarande och anordning foer talsyntes |
IT1263756B (it) * | 1993-01-15 | 1996-08-29 | Alcatel Italia | Metodo automatico per implementazione di curve intonative su messaggi vocali codificati con tecniche che permettono l'assegnazione del pitch |
US5479559A (en) * | 1993-05-28 | 1995-12-26 | Motorola, Inc. | Excitation synchronous time encoding vocoder and method |
US5504834A (en) * | 1993-05-28 | 1996-04-02 | Motrola, Inc. | Pitch epoch synchronous linear predictive coding vocoder and method |
JP3548230B2 (ja) * | 1994-05-30 | 2004-07-28 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3559588B2 (ja) * | 1994-05-30 | 2004-09-02 | キヤノン株式会社 | 音声合成方法及び装置 |
US6050950A (en) | 1996-12-18 | 2000-04-18 | Aurora Holdings, Llc | Passive/non-invasive systemic and pulmonary blood pressure measurement |
US6092039A (en) * | 1997-10-31 | 2000-07-18 | International Business Machines Corporation | Symbiotic automatic speech recognition and vocoder |
US6163765A (en) * | 1998-03-30 | 2000-12-19 | Motorola, Inc. | Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system |
US6151572A (en) * | 1998-04-27 | 2000-11-21 | Motorola, Inc. | Automatic and attendant speech to text conversion in a selective call radio system and method |
US6073094A (en) * | 1998-06-02 | 2000-06-06 | Motorola | Voice compression by phoneme recognition and communication of phoneme indexes and voice features |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2004356894A (ja) * | 2003-05-28 | 2004-12-16 | Mitsubishi Electric Corp | 音質調整装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP4107613B2 (ja) * | 2006-09-04 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 残響除去における低コストのフィルタ係数決定法 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8024193B2 (en) * | 2006-10-10 | 2011-09-20 | Apple Inc. | Methods and apparatus related to pruning for concatenative text-to-speech synthesis |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7877252B2 (en) * | 2007-05-18 | 2011-01-25 | Stmicroelectronics S.R.L. | Automatic speech recognition method and apparatus, using non-linear envelope detection of signal power spectra |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN104282300A (zh) * | 2013-07-05 | 2015-01-14 | 中国移动通信集团公司 | 一种非周期成分音节模型建立、及语音合成的方法和设备 |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
CN103811022B (zh) * | 2014-02-18 | 2017-04-19 | 天地融科技股份有限公司 | 一种解析波形的方法和装置 |
CN103811021B (zh) * | 2014-02-18 | 2016-12-07 | 天地融科技股份有限公司 | 一种解析波形的方法和装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN113421584B (zh) * | 2021-07-05 | 2023-06-23 | 平安科技(深圳)有限公司 | 音频降噪方法、装置、计算机设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61278000A (ja) * | 1985-06-04 | 1986-12-08 | 三菱電機株式会社 | 有声音無声音判別装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
-
1989
- 1989-03-13 JP JP1060371A patent/JP2763322B2/ja not_active Expired - Fee Related
-
1990
- 1990-03-09 DE DE69009545T patent/DE69009545T2/de not_active Expired - Fee Related
- 1990-03-09 EP EP90302580A patent/EP0388104B1/en not_active Expired - Lifetime
-
1994
- 1994-06-08 US US08/257,429 patent/US5485543A/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61278000A (ja) * | 1985-06-04 | 1986-12-08 | 三菱電機株式会社 | 有声音無声音判別装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006208600A (ja) * | 2005-01-26 | 2006-08-10 | Brother Ind Ltd | 音声合成装置及び音声合成方法 |
Also Published As
Publication number | Publication date |
---|---|
US5485543A (en) | 1996-01-16 |
EP0388104A2 (en) | 1990-09-19 |
EP0388104A3 (en) | 1991-07-03 |
JP2763322B2 (ja) | 1998-06-11 |
DE69009545D1 (de) | 1994-07-14 |
EP0388104B1 (en) | 1994-06-08 |
DE69009545T2 (de) | 1994-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2763322B2 (ja) | 音声処理方法 | |
Schroeder | Vocoders: Analysis and synthesis of speech | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
US4754485A (en) | Digital processor for use in a text to speech system | |
JP5275612B2 (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
Chazan et al. | Speech reconstruction from mel frequency cepstral coefficients and pitch frequency | |
EP1005021A2 (en) | Method and apparatus to extract formant-based source-filter data for coding and synthesis employing cost function and inverse filtering | |
EP1422693B1 (en) | Pitch waveform signal generation apparatus; pitch waveform signal generation method; and program | |
Milner et al. | Speech reconstruction from mel-frequency cepstral coefficients using a source-filter model | |
JPH1097287A (ja) | 周期信号変換方法、音変換方法および信号分析方法 | |
Meyer et al. | A quasiarticulatory speech synthesizer for German language running in real time | |
JPH0612089A (ja) | 音声認識方法 | |
Athineos et al. | LP-TRAP: Linear predictive temporal patterns | |
WO2001004873A1 (fr) | Procede d'extraction d'information de source sonore | |
JP3973492B2 (ja) | 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 | |
JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
JPH0777979A (ja) | 音声制御音響変調装置 | |
JPH0744727A (ja) | 画像作成方法およびその装置 | |
Greenberg et al. | The analysis and representation of speech | |
JP3035939B2 (ja) | 音声分析合成装置 | |
JPH07261798A (ja) | 音声分析合成装置 | |
JP2899533B2 (ja) | 音質改善装置 | |
JP2956936B2 (ja) | 音声合成装置の発声速度制御回路 | |
Ebihara et al. | Speech synthesis software with a variable speaking rate and its implementation on a 32-bit microprocessor | |
Zhu et al. | A speech analysis-synthesis-editing system based on the ARX speech production model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |