JPH02239293A - 音声処理方法 - Google Patents

音声処理方法

Info

Publication number
JPH02239293A
JPH02239293A JP1060371A JP6037189A JPH02239293A JP H02239293 A JPH02239293 A JP H02239293A JP 1060371 A JP1060371 A JP 1060371A JP 6037189 A JP6037189 A JP 6037189A JP H02239293 A JPH02239293 A JP H02239293A
Authority
JP
Japan
Prior art keywords
mel
section
speech
spectrum
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1060371A
Other languages
English (en)
Other versions
JP2763322B2 (ja
Inventor
Takashi Aso
隆 麻生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP1060371A priority Critical patent/JP2763322B2/ja
Priority to DE69009545T priority patent/DE69009545T2/de
Priority to EP90302580A priority patent/EP0388104B1/en
Publication of JPH02239293A publication Critical patent/JPH02239293A/ja
Priority to US08/257,429 priority patent/US5485543A/en
Application granted granted Critical
Publication of JP2763322B2 publication Critical patent/JP2763322B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野〕 本発明は、音声を分析してパラメータに変換し、そのパ
ラメータから再び音声を合成する音声分析合成方式に関
するものである。
〔従来の技術〕
従来、音声分析合成方式の一方式として、メルケプスト
ラム方式が存在する。
(文献) (1)今井,阿部:“改良メルケプストラム法によるス
ペクトル包絡抽出”,電子通信学会論文誌Vol.J6
2−A  No.4 (1979/4)(2)今井,住
田他:“音声合成のためのメル対数スペクトル近似(M
LSA)フィルタ”,電子通信学会論文誌VolJ66
−A  No.2 (1983/2)(3)小林.岡村
他:“メルケプストラム音声合成器の構成”,日本音響
学会音声研究会資料S83−03(1983/4) (4)北村.今井他:“メルケプストラムを用いる音声
合成と合成音声の品質” 日本音響学会聴覚研究会資料
H83−40 (1983/6)この方式では、分析時
には改良ケブスドラム法でスペクトラム包絡を求めて、
それをメル目盛を近似する非直線周波数目盛上のケプス
ドラム係数に変換し、スベクトラム包絡情報とする。合
成時には、合成フィルタとしてメル対数スペクトル近似
フィルタ(MLSAフィルタ)を用い、分析時に得られ
たメルケプストラム係数をフィルタ係数として入力する
ことにより合成音を生成する。
また別の音声分析合成方式として、PSE方式が存在す
る。
(文献) (5)中島,鈴木:“パワースペクトル包絡(PSE)
音声分析・合成系“,音響学会誌Vol.44, No
.11,P.824 (1988) (6)中島,鈴木:“非定常態波形のスペクトル・モデ
ルに基づくピッチ対同期形PSE分析法”音響学会誌V
ol.44, No.12, P.900 (1988
)この方式では、分析時には音声波形からFFTにより
得られるパワースペクトルを基本周波数の整数倍の位置
で標本化し、その標本点を余弦級数により滑らかに結ん
だものをスペクトル包絡として求める。合成時には得ら
れたスペクトル包絡から零位相インパルス応答波形を求
めて基本周期(基本周゛波数の逆数)で重ね合わすこと
により合成音声を生成する。
〔発明が解決しようとしている課題〕
しかしながら上記従来例には、それぞれつぎに示すよう
な欠点があった。
(1)メルケプストラム方式においては、改良ケブスド
ラムでスペクトル包絡を求める際にケブスドラム係数の
次数と音声の基本周波数の関係によってスペクトル包絡
が振動する傾向にある。
の極と零のダイナミックレンジが大きいときには、その
急激な変化に追従出来ない。これらの理由によりメルケ
プストラム方式における分析方式はスペクトル包絡を精
密に求めるのに不向きであり、音質劣化の原因となって
いる。これに対してPSE方式における分析方式では、
スペクトルを基本周波数で標本化して、その標本点を通
る近似曲線(余弦級数)を包絡とするので、上記のよう
な問題は生じない。
(2)PSE法においては、合成時に零位相インパルス
応答波形を重ね合わせる際、基本周期(基本周波数の逆
数)で、時刻0に対称なインパルス応答波形を重ね合わ
せるために、合成波形を記憶してお《バツファが必要と
なる。また、無声音声区間での合成においてもインパル
ス応答波形を重ね合わせるために、無声音声区間の合成
音において重ね合わせの周期が存在することになり、ス
ペクトルを求めた際にホワイトノイズの特性のような連
続スペクトルにならず、重ね合わせ周波数の整数倍の位
置でのみエネルギーを有する線スペクトルとなる。この
特性は実際の音声とはかけはなれたものとなる。これら
の理由によりPSE方式における合成方式は実時間処理
には不向きであり、また得られる合成音声の特性にも問
題がある。これに対してメルケプストラム法における合
成方式では、フィルタ(MLSAフィルタ)を用いるの
で、DSPなどで容易に実時間処理が可能であり、また
有声音声区間と無声音声区間とでは音源を替えて、無声
音声区間ではホワイトノイズを音源とすることによりP
SE方式で発生するような問題は生じない。
〔課題を解決するための手段〕
本発明によれば、ある短い時間長の音声波形データをF
FT t,,て短時間パワースペクトルを求め、その短
時間パワースペクトルを基本周波数の整数倍の位置で標
本化し、得られた標本点に対して余弦級数モデルをあて
はめてスペクトル包絡を求める。
このスペクトル包絡からメルケプストラム係数を算出し
て、得られたメルケプストラム係数を合成フィルタ(M
LSAフィルタ)のフィルタ係数として入力し、合成音
声を生成する。このように構成することにより、より実
用的で高品質な合成音声を生成するようにしたものであ
る。
〔実施例〕 第1図は本発明の特徴を最もよ《表わす図面であり、同
図においてlは短時間音声波形(この単位時間長を1フ
レームとする)を分析して対数スペクトル包絡データを
生成し、有声/無声判定を行い、ピッチ(基本周波数)
を抽出する分析部、2は分析部lで生成された包絡デー
タをメルケプストラム係数に変換するパラメータ変換部
、3はパラメータ変換部2で得られるメルケプストラム
係数と分析部lで得られる有声/無声情報とピッチ情報
から合成音声波形を生成する合成部である。
第2図は第1図における分析部の構成を示している。4
は入力されたlフレーム分の音声が有声区間か無声区間
かを判定するための有声/無声判定部、5は入力された
1フレームのピッチ(基本周波数)を抽出するピッチ抽
出部、6は入力されたlフレームの音声データのパワー
スペクトルを求めるパワースペクトル抽出部、7はパワ
ースペクトル柚出部6で得られるパワースペクトルをピ
ッチ抽出部5で得られるピッチ間隔で標本化する標本化
部、8は標本化部7で得られる標本点系列に対して余弦
級数モデルをあてはめて係数を求めるパラメータ推定部
、9はパラメータ推定部8で得られる係数から対数スペ
クトル包絡を求めるスペクトル包絡生成部である。
第3図は第l図におけるパラメータ変換部の構成を示し
ている。10は周波数軸をメル目盛に変換するための近
似周波数目盛を作成するためのメル近似目盛生成部、1
1は周波数軸をメル近似目盛に変換するための周波数軸
変換部、l2は対数スペクトル包絡からケプストラム係
数を生成するケプスドラム変換部である。
第4図は第1図における合成部の構成を示している。l
3は有声音声区間の音源を発生するためのパルス音源発
生部、l4は無声音声区間の音源を発生するためのノイ
ズ音源発生部、l5は有声/無声判定部4から得られる
有声/無声情報に従って音源を切り換えるための音源切
り換え部、l6はメルケプストラム係数と音源から合成
音声波形を生成するための合成フィルタ部である。
つぎに本実施例の具体的な動作を説明する。
説明の前に、いま音声資料として次のようなデータを仮
定する。
サンプリング周波数: 12kHz フレーム長: 2 1 .33 msec (256デ
ータポイント)フレーム周期: lomsec (12
0データポイント)まず1フレーム長の音声データが分
析部lに入力されると、有声/無声判定部4では入力さ
れたフレームが有声音声区間であるか無声音声区間であ
るかの判定がなされる。ここでの判定は、例えば文献(
B.S.Atal and L.R,Rabiner 
: ’A PatternRecognition A
pproach to Voiced−Unvoice
dSilence Classification w
ith Applicationsto  Speec
h  Recognition , IEEE  Tr
ans.ASSP  Vol.24  No.3  1
976)に記載されている方法などで実現可能である。
パワースペクトル抽出部5では入力されたlフレーム長
のデータについて窓掛け処理(ブラックマン窓7ハニン
グ窓など)をしたあとFFT処理を施し、対数パワース
ペクトルを求める。以後の処理でピッチを求める際に、
周波数分解能を細かくとる必要があるので、FFTの点
数は大きめ(例えば2048ポイント)にとる必要があ
る。
入力されたフレームが有声音声区間の場合には、ピッチ
抽出部6でピッチを抽出する。この時ピッチ抽出部6で
はパワースペクトル抽出部5で得られた対数パワースペ
クトルの逆FFTによりケプストラムを求め、ケブスド
ラムの最大値を与えるケフレンシー(単位は(sec)
)の逆数をピッチ(基本周波数: fo (Hz))と
する方法などが考えられる。
また無声音声区間ではピッチは存在しないので、ピッチ
を十分低い一定値(例えばIOOHZ)とする。
つぎに標本化部7では、パワースペクトル抽出部5で求
めた対数パワースペクトルをピッチ抽出部6からのピッ
チ間隔(ピッチの整数倍の位置)で標本化して、標本点
系列を求める。
このとき標本点系列を求める周波数帯域は、12kHz
サンプリングの場合θ〜5kHzが適当であるが、特に
限定されるものではない(ただしサンプリング定理より
サンプリング周波数の1/2以下にする)。
ここで、いま必要とする周波数帯域を5kHzとすると
f。X(N−1)が5000を越える最小値がモデルの
上限周波数F (Hz),  Nが標本点系列の個数で
ある。
つぎにパラメータ推定部8で、標本化部で求めた標本点
系列)+,  (j=0.  1・・・,N−1)から
N項余弦級数 Y(λ)=ΣAicosiλ, (o≦λ≦π)(l)
の係数パラメータA+ (i=o,  l・・・,N−
1)を求める。ただしy0については、零周波数におけ
る対数パワースペクトルの値であるが、FFTによるノ
′;ワースベクトルの零周波数における値は正確ではな
いので、y0の近似値としてy,の値を用いる。
A+を求めるには、標本点系列YlとY(λ)との誤差
二乗和 J=Σ(Y(δ)  y+l”+  δ=π/ (N−
1)       (2)を最小にすればよい。具体的
にはJをA (1, A I ,・・・A N−1につ
いて偏微分したものをOとおいて得られるN次の連立l
次方程式の解を求めれば良い。
つぎにスペクトル包絡生成部9で、パラメータ推定部で
求められたA6,Al,・・・AN−1から?(λ)=
A■+A1cosλ+A 2 cos2λ+−+ AN
−1 cos (N−1)λ         (3)
により対数スペクトル包絡データを求める。
以上の動作により、分析部lにおいて有声/無声情報、
ピッチ情報および対数スペクトル包絡データを生成する
つぎにパラメータ変換部2においてスペクトル包絡デー
タからメルケプストラム係数に変換する。
まず予めメル近似目盛生成部10において、メル周波数
目盛を近似する非直線周波数目盛を作成する。メル目盛
は聴覚上の周波数分解能を表わす心理的な物理量であり
、一次の全極通過フィルタの位相特性により近似する。
一時の全極通過フィルタの伝達特性を とした時の周波数特性は H (e”) =exp ( jβ(Ω))ただしΩ=
W△t,△tはデイジタルフィルタの単位遅延時間、ω
は角周波数である。ここで非直線周波数目盛として Ω=β(Ω) を考え、伝達関数H (z)におけるαを0.35 (
サンプリング周波数が10kHzの場合)〜0,46 
(同12kHz)の任意の値を選べばΩはメル目盛とよ
く一致することが知られている。
つぎに周波数軸変換部11で分析部lで求めた対数スペ
クトル包絡の周波数軸をメル近似目盛生成部10で作成
したメル目盛に変換し、メル対数スペクトル包絡を求め
る。直線周波数目盛における通常の対数スペクトルG+
(Ω)に対して、メル対数スペクトルGm(Ω)は Grn(Ω) =Gt (β一′(Ω))      
        (8)と変換されるる ケブストラム変換部12では、周波数軸変換部1lで得
られたメル対数スペクトル包絡データを逆FFTするこ
とによりメルケプストラム係数を求める。次数はFFT
の点数の1/2個までとることができるが、実際には1
5〜20が適当とされている。
以上がパラメータ変換部2における動作説明である。つ
ぎに合成部3では有声/無声情報、ピッチ情報、メルケ
プストラム係数から合成音声波形を生成する。
まず有声/無声情報に従って、ノイズ音源生成部l3ま
たはパルス音源生成部l4で音源データを作成する。す
なわち入力フレームが有声音声区間パルス波形を生成し
音源とする。その際メルケプストラム係数の1次の項は
音声のパワー(強さ)の大きさを表わしているので、こ
の値を用いてパルスの大きさを制御する。また入力フレ
ームが無声音声区間の場合には、ノイズ音源生成部l3
で白色雑音としてM系列を発生させて音源とする。
音源切り変え部15では、有声/無声情報に従って、有
声音声区間ではパルス音源発生部14で生成したパルス
系列を、無声音声区間ではノイズ音源発生部l3で生成
したM系列を合成フィルタ部に対して送出する。
合成フィルタ部l6では、音源切り変え部15からの音
源系列と、パラメータ変換部2からのメルケプストラム
係数からメル対数スペクトル近似フィルタ(MLSAフ
ィルタ)を用いて合成音声波形を生成する。このMLS
Aフィルタについては文献(3)に記載されている方法
を用いて実現可能である。
記の実施例ではパラメータ変換部2における構成を第3
図のように示したが、文献(3)に記載されている方法
により構成することも可能である。その場合の構成図を
第5図に示す。第5図において17はスペクトル包絡デ
ータからケプストラム係数を求めるケブスドラム変換部
、l8はケプスドラム係数をメルケプストラム係数に変
換するメルケプストラム変換部である。このように構成
した時の動作をつぎに示す。
ケプストラム変換部l7では、分析部lで作成された対
数スペクトル包絡データに対して逆FFT処理を施すこ
とによりケブスドラム係数を求める。
つぎにメルケプストラム変換部l8においてケプストラ
ム係数C (m)をメルケプストラム係数Ca(m)に
次の再帰式で変換する。
n=・・・, −2, −1, O Ca (m) = p:’, m=0. 1. 2 −
−−       (11)以上の説明では、分析合成
装置を例にあげたが、本発明の方式は分析合成装置のみ
に限定されるものではな《、規則合成装置にも適用され
るものである。その場合実施例を第6図に示す。
第6図において19は規則合成用単位音声データ(例え
ば単音節データ)作成部であり、20は音声波形から対
数スペクトル包絡データを求めるための分析部で、第1
図の分析部lと同様の構成である。
2lは対数スペクトル包絡データからメルケプストラム
係数を生成するためのパラメータ変換部であり、第l図
のパラメータ変換部2と同様の構成である。22はそれ
ぞれの単位音声データに対応するメルケプストラム係数
を格納しておくためのメモリ部である。23は任意の文
字列データから合成音声を生成するための規則合成部で
あり、24は入力された文字列を解析するための文字列
解析部、25は文字列解析部24からの解析結果からパ
ラメータ接続規則やピッチ情報.有声/無声情報を生成
するための規則部、26は規則部25のパラメータ接続
規則に従ってメモリ部22からメルケプストラム係数を
取りだして接続し、メルケプストラム係数の時系列を生
成するパラメータ接続部、27はメルケプストラム係数
時系列とピッチ情報,有声/無声情報から合成音声を生
成するための合成部で、第1図の合成部3と同様の構成
である。
第6図に沿って動作の説明をする。
まず規則合成用単位音声データ作成部l9で規則合成に
必要なデータを作成する。ここで規則合成の単位となる
音声(例えば単音節音声)の分析を行い(分析部20)
、メルケプストラム係数を求めて(パラメータ変換部2
1)、メモリ部22に格納しておく。
つぎに規則合成部23で任意の文字列データから合成音
声を生成する。入力された文字列データは文字列解析部
24で解析されて、単音節単位の情報に分解される。こ
の情報をもとに規則部25ではパラメータ接続規則,ピ
ッチ情報,有声/無声情報を作成する。パラメータ接続
部26では、パラメータ接続規則に従ってメモリ部22
から必要なデータ(メルケプストラム係数)を取りだし
てきて接続し、メルケプストラム係数の時系列を作成す
る。合成部27ではピッチ情報,有声/無声情報とメル
ケプストラム係数時系列データから規則合成音声を生成
する。
尚、本実施例ならびに他の実施例ともにパラメータとし
てメルケプストラム係数を使用しているが、式(4).
  (6).  (9),  (10)においてα=O
とおくことにより、得られるパラメータはケブス]・ラ
ム係数と等価となる。この場合、第3図においてメル近
似目盛生成部lOと周波数軸変換部11を、第5図にお
いてメルケプストラム変換部18を削除し、第4図の合
成フィルタ部l6を対数振幅特性近似フィルタ(LMA
フィルタ)に変更することにより容易に実現できる。
〔発明の効果〕
以上説明したように、音声波形から求めた対数パワース
ペクトルを基本周波数で標本化し、得られた標本点につ
いて余弦級数モデルをあてはめてスペクトル包絡を求め
、そのスペクトル包絡からメルケプストラム係数を求め
、LMSAフィルタで合成することにより、より高品質
な合成音声を得られる効果がある。
【図面の簡単な説明】
第1図は本発明の実施例のブロック図。 第2図は第1図における分析部のブロック図。 第3図は第1図におけるパラメータ変換部のブロック図
。 第4図は第1図における合成部のブロック図。 第5図は第l図におけるパラメータ変換部の他の実施例
のブロック図。 第6図は本発明の他の実施例のブロック図。 lは分析部、2はパラメータ変換部、3は合成部、4は
有声/無声判定部、5はパワースペクトル抽出部、6は
ピッチ抽出部、7は標本化部、8はパラメータ推定部、
9はスペクトル包絡生成部、lOはメル近似目盛生成部
、11は周波数軸変換部、l2はケプストラム変換部、
I3はノイズ音源発生部、l4はパルス音源発生部、1
5は音源切り換え部、16は合成フィルタ部、l7はケ
プストラム変換部、18はメルケプストラム変換部、l
9は規則合成用単位音声データ作成部、20は分析部、
2lはパラメータ変換部、22はメモリ部、23は規則
合成部、24は文字列解析部、25は規則部、26はパ
ラメータ接続部、27は合成部。

Claims (1)

    【特許請求の範囲】
  1. 音声をいったんパラメータに変換して、そのパラメータ
    から再び音声を合成する音声分析合成方式であって、入
    力された音声の短時間パワースペクトルを基本周波数で
    標本化し、得られた標本点に対して余弦級数モデルをあ
    てはめてスペクトル包絡を求め、このスペクトル包絡か
    らメルケプストラム係数を算出し、このメルケプストラ
    ム係数をメル対数スペクトル近似フィルタの係数として
    合成音声を生成することを特徴とする音声分析合成方式
JP1060371A 1989-03-13 1989-03-13 音声処理方法 Expired - Fee Related JP2763322B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP1060371A JP2763322B2 (ja) 1989-03-13 1989-03-13 音声処理方法
DE69009545T DE69009545T2 (de) 1989-03-13 1990-03-09 Verfahren zur Sprachanalyse und -synthese.
EP90302580A EP0388104B1 (en) 1989-03-13 1990-03-09 Method for speech analysis and synthesis
US08/257,429 US5485543A (en) 1989-03-13 1994-06-08 Method and apparatus for speech analysis and synthesis by sampling a power spectrum of input speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1060371A JP2763322B2 (ja) 1989-03-13 1989-03-13 音声処理方法

Publications (2)

Publication Number Publication Date
JPH02239293A true JPH02239293A (ja) 1990-09-21
JP2763322B2 JP2763322B2 (ja) 1998-06-11

Family

ID=13140209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1060371A Expired - Fee Related JP2763322B2 (ja) 1989-03-13 1989-03-13 音声処理方法

Country Status (4)

Country Link
US (1) US5485543A (ja)
EP (1) EP0388104B1 (ja)
JP (1) JP2763322B2 (ja)
DE (1) DE69009545T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006208600A (ja) * 2005-01-26 2006-08-10 Brother Ind Ltd 音声合成装置及び音声合成方法

Families Citing this family (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03136100A (ja) * 1989-10-20 1991-06-10 Canon Inc 音声処理方法及び装置
SE469576B (sv) * 1992-03-17 1993-07-26 Televerket Foerfarande och anordning foer talsyntes
IT1263756B (it) * 1993-01-15 1996-08-29 Alcatel Italia Metodo automatico per implementazione di curve intonative su messaggi vocali codificati con tecniche che permettono l'assegnazione del pitch
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US5504834A (en) * 1993-05-28 1996-04-02 Motrola, Inc. Pitch epoch synchronous linear predictive coding vocoder and method
JP3548230B2 (ja) * 1994-05-30 2004-07-28 キヤノン株式会社 音声合成方法及び装置
JP3559588B2 (ja) * 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
US6050950A (en) 1996-12-18 2000-04-18 Aurora Holdings, Llc Passive/non-invasive systemic and pulmonary blood pressure measurement
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
US6163765A (en) * 1998-03-30 2000-12-19 Motorola, Inc. Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system
US6151572A (en) * 1998-04-27 2000-11-21 Motorola, Inc. Automatic and attendant speech to text conversion in a selective call radio system and method
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2004356894A (ja) * 2003-05-28 2004-12-16 Mitsubishi Electric Corp 音質調整装置
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP4107613B2 (ja) * 2006-09-04 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 残響除去における低コストのフィルタ係数決定法
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8024193B2 (en) * 2006-10-10 2011-09-20 Apple Inc. Methods and apparatus related to pruning for concatenative text-to-speech synthesis
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7877252B2 (en) * 2007-05-18 2011-01-25 Stmicroelectronics S.R.L. Automatic speech recognition method and apparatus, using non-linear envelope detection of signal power spectra
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN104282300A (zh) * 2013-07-05 2015-01-14 中国移动通信集团公司 一种非周期成分音节模型建立、及语音合成的方法和设备
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN103811022B (zh) * 2014-02-18 2017-04-19 天地融科技股份有限公司 一种解析波形的方法和装置
CN103811021B (zh) * 2014-02-18 2016-12-07 天地融科技股份有限公司 一种解析波形的方法和装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN113421584B (zh) * 2021-07-05 2023-06-23 平安科技(深圳)有限公司 音频降噪方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61278000A (ja) * 1985-06-04 1986-12-08 三菱電機株式会社 有声音無声音判別装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61278000A (ja) * 1985-06-04 1986-12-08 三菱電機株式会社 有声音無声音判別装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006208600A (ja) * 2005-01-26 2006-08-10 Brother Ind Ltd 音声合成装置及び音声合成方法

Also Published As

Publication number Publication date
US5485543A (en) 1996-01-16
EP0388104A2 (en) 1990-09-19
EP0388104A3 (en) 1991-07-03
JP2763322B2 (ja) 1998-06-11
DE69009545D1 (de) 1994-07-14
EP0388104B1 (en) 1994-06-08
DE69009545T2 (de) 1994-11-03

Similar Documents

Publication Publication Date Title
JP2763322B2 (ja) 音声処理方法
Schroeder Vocoders: Analysis and synthesis of speech
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US4754485A (en) Digital processor for use in a text to speech system
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
Chazan et al. Speech reconstruction from mel frequency cepstral coefficients and pitch frequency
EP1005021A2 (en) Method and apparatus to extract formant-based source-filter data for coding and synthesis employing cost function and inverse filtering
EP1422693B1 (en) Pitch waveform signal generation apparatus; pitch waveform signal generation method; and program
Milner et al. Speech reconstruction from mel-frequency cepstral coefficients using a source-filter model
JPH1097287A (ja) 周期信号変換方法、音変換方法および信号分析方法
Meyer et al. A quasiarticulatory speech synthesizer for German language running in real time
JPH0612089A (ja) 音声認識方法
Athineos et al. LP-TRAP: Linear predictive temporal patterns
WO2001004873A1 (fr) Procede d'extraction d'information de source sonore
JP3973492B2 (ja) 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
JPH0777979A (ja) 音声制御音響変調装置
JPH0744727A (ja) 画像作成方法およびその装置
Greenberg et al. The analysis and representation of speech
JP3035939B2 (ja) 音声分析合成装置
JPH07261798A (ja) 音声分析合成装置
JP2899533B2 (ja) 音質改善装置
JP2956936B2 (ja) 音声合成装置の発声速度制御回路
Ebihara et al. Speech synthesis software with a variable speaking rate and its implementation on a 32-bit microprocessor
Zhu et al. A speech analysis-synthesis-editing system based on the ARX speech production model

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees