JPH1074099A - 連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置 - Google Patents
連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置Info
- Publication number
- JPH1074099A JPH1074099A JP9115442A JP11544297A JPH1074099A JP H1074099 A JPH1074099 A JP H1074099A JP 9115442 A JP9115442 A JP 9115442A JP 11544297 A JP11544297 A JP 11544297A JP H1074099 A JPH1074099 A JP H1074099A
- Authority
- JP
- Japan
- Prior art keywords
- path
- speech
- equalization
- frame
- markov
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000001914 filtration Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 21
- 230000007704 transition Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000000746 purification Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 6
- 230000003595 spectral effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
ケンスによって構成される、外乱によって影響を受けや
すい音声信号を等化する。 【解決手段】 音声信号は隠れマルコフモデルによって
モデル化され、各瞬間tにおいて、等化フィルタは瞬間
tにおいてマルコフ概念における経路に関連して構成さ
れ、少なくとも前記複数個の等化フィルタはフレームに
与えられて、瞬間tにおいて複数個のフィルタ処理され
た音声フレームシーケンスおよび与えられた等化フィル
タにそれぞれ関連して各経路に対する発声確率を得る。
マルコフ概念において最も可能性のある経路に対応する
等化フィルタが選択される。選択された等化フィルタに
よって与えられるフィルタ処理されたフレームが等化フ
レームとして選択される。
Description
を実行することにより、音声信号の等化フィルタ処理の
ための方法および装置に関する。
減衰」に対して同期する広い意味で用いられている。
発明の方法および装置は、外乱を受けやすいデジタル音
声信号、および処理するべき信号または「クリーンな」
信号を構成する信号に適用され、これはクリーンな信号
の隠れマルコフモデル(HMM)、または等化外乱によ
るフィルタ処理のための関数とともに、実際のデータか
ら推定されるクリーンな信号のモデルの近似を行なうこ
とにより実施する。
網(STN)または移動通信のための広域システム(G
SM)において、電話網による自動音声認識(ASR)
の方法を向上させるために適用できる。本発明の別の応
用は、音声信号からノイズを取除くことにある。
ー」の電話、コンピュータ、データ端末などの音声制御
のために認識が局所的に行なわれる場合、付加的ノイズ
によって導入された外乱を減らす技術が求められる。こ
れらの技術は、特に、スペクトル減算によるフィルタ処
理、アンテナフィルタ処理、マルコフモデル状態フィル
タ処理、または基準モデルに対する部屋のノイズが加わ
るインラインを含む。
コフモデルおよびある瞬間tにおけるシステムの最も可
能性のある状態を既知として、スペクトル減算フィルタ
(ウィーナフィルタ)を適用することを含む。クリーン
な信号のモデルはマルコフモデルの状態によって与えら
れ、ノイズモデルはノイズが取除かれるべきワードの前
にある無音から推定される。
分に広い水平線にわたって推定されるケプストラムベク
トルからDC成分を減算することにより、電話回線の影
響を減らすことである。ウィンドウに分けられるデジタ
ル電話信号では、「水平」の表示は連続するウィンドウ
の所与の整数を示す。この種のアプローチのより詳細な
説明として、C.モクベル(Mokbel)、J.モネ(Monn
e )、およびD.ジュベ(Jouvet)による「電話回線状
態の変化に対する音声レコグナイザのオンライン適
合」、ユーロスピーチ(Eurospeech)、ページ1247
−1250、ベルリン1993年が参照できる。十分に
広い水平線では、ケプストラムベクトルの平均値は電話
回線の影響を表わすことが観測され、この観測はチャネ
ル特性がゆっくりと変わる場合に特に当てはまる。
めのシステムは、クリーンな信号の特性およびノイズま
たは外乱の特性を知った上で行なわれる。残念ながら、
クリーンシステムのモデルまたはそのパラメータが未知
であるのならシステムはより複雑となる。
が、パラメータが未知である自己回帰システムの出力で
あるとされるのなら、ノイズを取除くために「推定−最
大化」(EM)型方法を用いて、自己回帰モデルのパラ
メータの推定値を得る、および外乱をフィルタ処理によ
りなくす(たとえば、G.セリュ(Celeux)およびJ.
ディボル(Diebolt )による「EMアルゴリズムのシミ
ュレートされたアニール型バージョン」(Une version
de type recuit simule de l'algorithme EM)、Rappor
ts de Recherche No. 1123, Programme 5, INRIA, 19
89年11月参照)。
適用するための基準を決定するために、デジタル信号に
特有の統計に基づくブラインド等化を用いることができ
る。特に、文献FR−A−2 722 631はデジタ
ル電話信号のブラインド等化を用いる適応型フィルタ方
法およびシステム、ならびに電話伝送および/またはA
SRへの応用を記載している。この文献に記載されてい
る方法では、音声信号に関連する一般的統計および電話
チャネルは、ほとんど一定である畳み込み効果を有する
という仮定に基づいている。
について単純な仮定、すなわち自己回帰するおよび/ま
たはガウス型である、および/または安定していると仮
定できるのなら満足のいく結果を得ることができるが、
これは常に可能ではない。
および/または変わりやすさを減じるために統計的語彙
モデルを用いて、それにより認識をより強固(ロバス
ト)なものにすることが行なわれている。
ような態様でインラインアプリケーションを提供するこ
とができないという欠点を持っている。提案される方法
は認識される信号が終わるまで待ち、その後ノイズ取出
しまたは等化の後の信号を識別する前にバイアスを推定
するために反復を行なう。さらに、減算するべきバイア
スの推定量はマルコフモデルの最良の経路において「推
定−最大化」方法において直接または間接的に従属し、
マルコフ概念における経路またはアライメントは、モデ
ルの確率密度が対応する、音声フレームの流れと状態
(または遷移)の流れとの組合せである。この従属性は
最初の観測が大きな外乱を受けているのならその処理法
を偏らせる危険がある。なぜなら、このような外乱は誤
ったアライメントを生成し得るからである。
ローチと根本的に異なり、より普遍的であり、音声フレ
ームと同期するという点で上記の欠点を補う。
レームの観測されたシーケンスからなる音声信号を等化
するための方法を提供する。音声信号は外乱によって影
響を受けやすく、この方法では音声信号はHMMによっ
てモデル化される。この方法は各瞬間tにおいて以下の
点で特徴付けられる。
て、かつマルコフモデルの複数個のパラメータに基づい
て、等化フィルタは瞬間tでマルコフ概念における経路
と関連して構成される。
与えられて、瞬間tにおいて複数個のフィルタ処理され
た音声フレームシーケンスおよび与えられた等化フィル
タにそれぞれ関連する各経路に対する発声確率を得る。
路すなわち、対応する与えられた等化フィルタによって
フィルタ処理された音声フレームのシーケンスに対して
最も高い発声確率を有する経路、に対応する等化フィル
タが選択されるまたは「保持」される。
れるフィルタ処理されたフレームは、等化されたフレー
ムとして保持される。
装置を提供する。この装置は外乱によって影響を受けた
音声信号を入力に受取り、減じられた外乱を有する音声
信号を出力から送る等化フィルタモジュールを含む。
載を読みかつ添付されている図面を見ることにより明ら
かとなる。
ムと呼ばれる連続する音声フレームの観測されたシーケ
ンスx 1 、…、x t 、…、x Tfによって構成される音声
信号が対象となる。x 1 の添数の1は予め定められた最
初の観測瞬間を表わし、x t の添字tは現在の瞬間を表
わし、x Tfの添字Tfは観測されたシーケンスの最後の
瞬間を表わす。この音声信号は外乱によって影響を受け
やすい。
または学習サンプルに基づいて推定できる1つ以上の混
合によって生成されると仮定する。したがって、信号は
λと書かれるHMMを実現すると見られる。所与の瞬間
において、観測はマルコフオートマトンに関連する混合
の一成分によって生成される。しかし、信号を観測して
もこの成分が何であるのか、または対応する混合は何で
あるのか知ることはできない。観測は不完全であると言
われる。既知であるのは、混合のパラメータ、マルコフ
オートマトンのパラメータ、および観測された信号に影
響する外乱の性質のみである。
とって周知である。この議題については、L.ラビナー
(Rabiner )およびB.H.ジュアン(Juang )による
「音声認識の基本」、プレンティスホールシグナルプロ
セシングシリーズ、A.V.オッペンハイムシリーズ編
集、1993年、またはD.ジュベの博士論文「統計的
方法による接続語のスピーカ別認識」(Reconnaissance
de mots connectes independamment du locuteur par
des methodes satistiques)E.N.S T., 1988年を参
照することができる。
ータによって定義されるマルコフオートマトンによって
構成される。そのパラメータとは、その状態または遷移
q1、…、qN (Nはモデルの状態の数である)、これ
らの状態間の遷移、および所与の状態(または所与の遷
移)にある観測ベクトルの発声密度である。したがっ
て、3つのパラメータの組がHMM λを記述する。
の組。π(qi )と書かれる。 ・状態qi から状態qj への遷移の確率の組。aqi,qj
と書かれ、かつ時間と独立していると仮定される。
対する発声確率の組。bqi(x)と書かれ、これらの確
率は平均ベクトルm qiおよび共分散行列R qiを有する、
ガウス確率関係に従うとする。
ンの状態に関連する。しかし、これらは遷移と等しく関
連付けることができる。これは本発明の本質的特性をど
のようにも変えない。
られる。このモデルにおいて、および上記で述べたよう
に、マルコフ概念における長さtの経路は、モデルの確
率密度が対応する、t個のフレームの流れおよびt個の
状態の流れの組合せである。より簡単にするためには、
経路はt個の状態または遷移の流れsのq1 ,…,qt
であるとする。表記としてs=[q1 ,…,qt]が用
いられる。
ームx t に与えることにより減じられ、その関数は等化
フィルタまたはイコライザと関連する。
て、以下で詳細に説明するように、瞬間tにおいてマル
コフオートマトンにある経路に関連してイコライザが構
成される。したがって、オートマトンにおける経路また
はアライメントの変動は所与の瞬間における観測された
信号だけでなく、経路で運ばれるイコライザの状態に依
存し、前記イコライザは各瞬間において観測されたフレ
ームに与えられる。
(・)は経路sによって運ばれるイコライザと関連する
関数を指示するために以下で用いられる。これはベクト
ルθ(s)によってパラメータ化される。
して、かつHMM λのパラメータが既知として、等化
関数の最良のパラメータベクトルの推定値が求められ
る。この最良パラメータベクトルは以下のように書かれ
る。
することにより、このベクトルは経路sによって運ばれ
るイコライザによってフィルタ処理された入力音声フレ
ームシーケンスである以下の音声フレームシーケンスに
対する最大発声確率を有するパラメータベクトルによっ
て推定される。
の定義が与えられると以下が得られる。
下つき)は状態または遷移qτ(τは下つき)で発声さ
れるベクトルxτ(τは下つき)の確率関係に関連す
る、平均を表わすベクトルおよび共分散行列である。
-1は逆行列を示す。
-1はより明確にするために用いられている。
さらにJ(xτ(τは下つき))はヤコビ行列であり、
kおよびlが整数である、k番目の行およびl番目の列
にある要素が、ベクトルFθ(s)(xτ)(左におい
てθ(s)およびτは下つき)のl番目の要素に対して
ベクトルxτ(τは下つき)のk番目の要素の導関数で
ある。
たら、
分することであり、その導関数がゼロであるθの値を求
めることになる。関数fθ(s)(θ(s)は下つき)
(・)はθ(s)に相対して微分できるものとする。導
関数がゼロであるという条件とともに微分することによ
り、以下の式(2)が得られる。
つき)(・)を有しかつ経路sによって運ばれるイコラ
イザのパラメータを推定するのを可能にする。唯一の仮
定は、等化関数が微分であるということがわかる。もた
らされる式は特に外乱の性質と無関係に、かつ観測され
たシーケンスx 1 ,…,x t の性質と無関係に、イコラ
イザを完全に決定するのを可能にする。
で行なうことができる。すなわち、フィルタ処理に適用
することができ、かつロバスト認識に用いることができ
る。
いて、所与の瞬間での等化のフレームを生成するため
に、最も可能性のある経路によって運ばれるイコライザ
のみが考慮される。
与える外乱をフィルタ処理するために、以下の関数を有
するイコライザのみが与えられる。
は、発声された言葉の終了を待って、認識される言葉は
HMMにおける最も可能性のある経路から識別され、種
々の経路におけるイコライザは音声復号化の間、すなわ
ち新しい観測値の到着を備えて経路または整列に沿って
進行している間、動作中である。
フレームx t+1 (事前フィルタ処理)または音声フレー
ムx t (事後フィルタ処理)に影響を与える外乱をフィ
ルタ処理するために、マルコフオートマトンの各経路s
に対して以下の関数を有してイコライザが与えられる。
ーケンスの最後の瞬間Tf において認識の決定がとられ
る。すなわち、瞬間Tf での最も可能性のある経路は以
下を満足させる経路として選択される。
ら、モデルのすべての経路に対して各瞬間tにおいて確
率が計算されることを必要とする。対応する実行は非常
に複雑となり、さらに等化関数が複雑であるのなら演算
時間もかかってしまう。
は適応型プロシージャを実現することによって減らされ
る。これは、経路によって運ばれるイコライザに対し
て、iが1からtの範囲の整数である以下の最良のパラ
メータベクトル
みを考慮に入れる。
可能性があるとして選択される経路は以下の近似式を満
たす経路である。
可能性のある経路として選択されるのは以下の近似式を
満たす経路である。
コライザのパラメータを推定するための関数を変更しな
いことは明らかである。しかし、その確率の関数とし
て、経路の順序付けに影響を与え得る。この近似の影響
を減じながら妥当な計算量を保つためには、最新のm個
のフレームについての確率を調整することができる。こ
こでmは所定の整数である。このような調整は計算量を
増加させないと示すことができる。
はさらに他の近似を行なう。もし、各瞬間tにおいてN
状態のHMMにおいてすべての可能な経路に対してフィ
ルタをストアする必要があるのなら、NTf個のフィルタ
となる。これは実際には不可能である。最もよい経路を
K個しか保つことができない。ここでKは所定の整数で
ある。ビタビアルゴリズムを用いるASRシステムに関
連する特定の実施例では、所与の状態をもたらす最良の
経路のみが各瞬間で保持され、その結果、フィルタの数
はN個に減らされ、ここでNは上記の指定された状態の
数である。
メータベクトルθ(s)の量を限定することができる。
さらに、等化関数を音素のようなそれぞれの共通の音単
位に関連するグループにまとめることができる。
法的性質を持ち得る。付加的外乱の例としては、音声に
エンジンのノイズまたはクラクションのノイズを含むこ
とが挙げられる。これは、運転手が車の中から電話をか
けている場合、または歩行者が道路交通のある環境、ま
たは一般的に騒音のある環境で電話をかけている場合に
起こり得る。
乱がある。この場合、忘却係数を推定値に含めることが
できる。
定のバイアスを含み得る。本発明の方法によって実現さ
れる2種類の等化関数の種類を以下に記載する。これら
2つの特定の等化関数はそれぞれ外乱の2つの基本的な
種類に与えられる。
から減算する。この関数では、伝達チャネルによる大き
な畳み込みの影響およびスピーカの影響があり、減じら
れるべきであると仮定する。
化された関数である。これは大量の付加的ノイズからな
る外乱に有利に適用できる。
する場合、イコライザパラメータを推定するための一般
的式(2)から、イコライザは各経路に対して以下の関
数を有することがわかる。
は消える。
よって上記の推定式(4)を以下のように解釈すること
ができる。所与の経路のバイアスは経路の対応する平均
値のベクトル間の差異の和であり、その差異は平均値に
ついて分散の逆射によって重み付けられ(分散が大きけ
れば大きいほど、和における差の重み付けは減る)、和
は考慮されている経路の分散の逆射の和によって重み付
られる(推定されるバイアスは従って音声ベクトルの次
元を有する)。
いる場合、イコライザのパラメータを推定するための一
般式(2)から、外乱は各経路に対して以下の純化関数
を有するイコライザによって多重線形回帰によってフィ
ルタ処理されることが示される。
列であり、bは列ベクトルである。
る。回帰は平均値のベクトルおよび考慮されている経路
に沿った重み付けられた音声フレームのベクトルの比で
あることが示される。
に記載する。上記で記載した方法を実現する等化装置は
等化フィルタリングモジュールを含む。このモジュール
は外乱によって影響を受けた音声信号を受取る入力を有
し、前記信号に対して上記の方法に従ってフィルタ動作
を施し、外乱が減じられた出力音声信号を送る。
信号に含まれる最も関連する可能な情報を表わすよう選
択される。
ラムベクトルは適切な音声フレームの非限定例をなす。
一般には、最初の10個ほどのケプストラム係数のみが
考慮される。かなり満足のいく態様で音域のインパルス
応答をモデル化し、認識のために適する情報を運ぶ。さ
らに、これらの係数は入力信号のエネルギに対して不感
応であり、ASRにおいての品質基準をなす。
間ウィンドウの音声信号から計算することができる。ウ
ィンドウは固定時間長、たとえば10msから40ms
の範囲にあってもよい。
は等化フィルタリングモジュールに含まれるケプストラ
ム演算のためのモジュール1の特定の実施例を示す。
ジタル化モジュール(図示されていない)はアナログ音
声信号をデジタル音声信号s(n)に変換する。信号s
(n)はモジュール1の入力に与えられる。
10を有する。モジュール10は音声信号のスペクトル
エネルギを演算する。モジュール10は信号のスペクト
ルを出力する高速フーリエ変換モジュール12を有す
る。
4の入力に接続される。フィルタバンク14はスペクト
ル包絡線推定のためにスペクトルを平滑化する。フィル
タバンク14の臨界帯域は非線形スケール、メルスケー
ル、またはバークスケールで分布され、それによって高
い周波数より低い周波数においてより大きなベクトル分
解を与える。したがって、人間の聴覚系にもっと整合す
る。聴覚システムは高い周波数より低い周波数において
より高い分解で分析することが示されている。典型的に
は、フィルタバンク14は24個の周波数帯を有する。
ンク14からの出力は平滑化されたベクトルS(f)を
なす、24個の周波数域におけるスペクトルエネルギに
よって構成されるベクトルを与える。
ュール10の出力でもある、フィルタバンク14の出力
は、モジュール16の入力に接続されて、音声信号のス
ペクトルエネルギの対数を計算する。モジュール16の
出力はモジュール18の入力に接続されて逆高速フーリ
エ変換を行ない、この逆フーリエ変換は逆余弦変換によ
って行なわれる。モジュール18は音声信号s(n)の
ケプストラムC(n)を、メル周波数ベースのケプスト
ラム係数(MFCC)として知られているケプストラム
ベクトルの組の形で出力する。
理方法および装置にも容易に組合せることができるとい
う利点を有する。
結果は非常に満足のいくものである。特に、ASRにお
いて、特定の条件下ではエラーレートを30%も下げる
ことができる。
特定の実施例における音声信号のケプストラムを演算す
るためのモジュールを示す図である。
Claims (9)
- 【請求項1】 連続する入力音声フレームの観測された
シーケンスによって構成される音声信号を等化するため
の方法であって、前記音声信号は外乱によって影響を受
けやすく、前記方法は隠れマルコフモデルによって前記
音声信号をモデル化する予備的ステップを含み、各瞬間
tにおいて、 (a) 複数個の前の音声フレームに基づいて、かつ前
記マルコフモデルの複数個のパラメータに基づいて、瞬
間tにおいてマルコフ概念の経路に関連する複数個の等
化フィルタを形成するステップと、 (b) 前記フレームに対して少なくとも前記複数個の
等化フィルタを与えて、瞬間tにおいて、複数個のフィ
ルタ処理された音声フレームシーケンスおよび前記与え
られた等化フィルタにそれぞれ関連する各経路の発声確
率を得るステップと、 (c) 対応する与えられた等化フィルタによってフィ
ルタ処理された音声フレームのシーケンスに対して最も
高い発声確率を有する経路である、マルコフ概念におい
て最も可能性のある経路に対応する前記等化フィルタの
うちの1つを選択するステップと、 (d) 前記選択された等化フィルタによって与えられ
るフィルタ処理されたフレームを等化されたフレームと
して選択するステップとを含む、方法。 - 【請求項2】 各音声フレームはベクトルx t によって
表わされ、 マルコフ概念において長さtを有する経路は、t個の状
態または遷移のシーケンスs={q1 、…、qt }であ
り、 経路sに関連する前記等化フィルタは、θ(s)が経路
sに関連する等化フィルタのパラメータを含むベクトル
である、以下の関数によって定義され、 【数1】 ステップ(a)では、経路sに関連する等化フィルタは
以下の関数によって定義され、 【数2】 この関数のパラメータは各経路sに対して以下の式 【数3】 請求項1に記載の方法。 - 【請求項3】 前記隠れマルコフモデルはλであり、ス
テップ(b)の際に、音声フレームx t+1 (事前フィル
タ処理)または音声フレームx t (事後フィルタ処理)
に影響する外乱をフィルタ処理するために、以下の等化
関数を有するフィルタのみを与えるステップを含み、 【数4】 請求項1に記載の方法。 - 【請求項4】 ロバスト音声認識に与えられ、最も可能
性のある経路は以下を満足させ、 【数5】 請求項3に記載の方法。 - 【請求項5】 前記最も可能性のある経路は以下の近似
式を満たす前記経路として選択され、 【数6】 請求項3に記載の方法。 - 【請求項6】 前記最も可能性のある経路は以下の近似
式を満たす前記経路として選択され、 【数7】 請求項4に記載の方法。 - 【請求項7】 前記等化フィルタは各経路に対して以下
の関数を有し、 【数8】 請求項1に記載の方法。 - 【請求項8】 前記外乱は線形多重回帰を用いてフィル
タ処理され、このフィルタ処理は各経路に対して、以下
の純化関数を有する等化フィルタによって行なわれ、 【数9】 ここでθ=(A,b)、ここでAは正方行列であり、b
は列ベクトルである、請求項1に記載の方法。 - 【請求項9】 連続する入力音声フレームの観測された
シーケンスによって構成される音声信号を等化するため
の装置であって、音声信号は外乱によって影響を受けや
すく、前記装置は隠れマルコフモデルによって音声信号
をモデル化するための手段と、 複数個の前の音声フレームに基づいて、かつ前記マルコ
フモデルの複数個のパラメータに基づいて、瞬間tにお
いてマルコフ概念の経路に関連する複数個の等化フィル
タを形成するための手段と、 前記フレームに少なくとも前記複数個の等化フィルタを
与えて、瞬間tにおいて、複数個のフィルタ処理された
音声フレームシーケンスおよび前記与えられた等化フィ
ルタにそれぞれ関連する各経路に対する発声確率を得る
ための手段と、 対応する与えられた等化フィルタによってフィルタ処理
された音声フレームのシーケンスの最も高い発声確率を
有する経路である、マルコフ概念において最も可能性の
ある経路に対応する前記等化フィルタのうちの1つを選
択するための手段と、 前記選択された等化フィルタによって与えられるフィル
タ処理されたフレームを等化されたフレームとして選択
するための手段とを含み、 前記装置は外乱によって影響を受けた音声信号を入力で
受取り、減じられた外乱を有する音声信号を出力から送
る、装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9605629 | 1996-05-06 | ||
FR9605629A FR2748342B1 (fr) | 1996-05-06 | 1996-05-06 | Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1074099A true JPH1074099A (ja) | 1998-03-17 |
JP3919287B2 JP3919287B2 (ja) | 2007-05-23 |
Family
ID=9491861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11544297A Expired - Fee Related JP3919287B2 (ja) | 1996-05-06 | 1997-05-06 | 連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5864806A (ja) |
EP (1) | EP0806760B1 (ja) |
JP (1) | JP3919287B2 (ja) |
DE (1) | DE69705891T2 (ja) |
FR (1) | FR2748342B1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005202222A (ja) * | 2004-01-16 | 2005-07-28 | Toshiba Corp | ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置 |
US6954608B2 (en) | 2001-10-15 | 2005-10-11 | Canon Kabushiki Kaisha | Heating device and image forming apparatus |
JP2006287490A (ja) * | 2005-03-31 | 2006-10-19 | Sumitomo Electric Ind Ltd | シングルキャリアブロック伝送用受信機 |
JP2007221445A (ja) * | 2006-02-16 | 2007-08-30 | Sharp Corp | サラウンドシステム |
Families Citing this family (172)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6038528A (en) * | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
US6292776B1 (en) * | 1999-03-12 | 2001-09-18 | Lucent Technologies Inc. | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
SE514875C2 (sv) * | 1999-09-07 | 2001-05-07 | Ericsson Telefon Ab L M | Förfarande och anordning för konstruktion av digitala filter |
US6652489B2 (en) * | 2000-02-07 | 2003-11-25 | Medrad, Inc. | Front-loading medical injector and syringes, syringe interfaces, syringe adapters and syringe plungers for use therewith |
US6477488B1 (en) * | 2000-03-10 | 2002-11-05 | Apple Computer, Inc. | Method for dynamic context scope selection in hybrid n-gram+LSA language modeling |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US20020065649A1 (en) * | 2000-08-25 | 2002-05-30 | Yoon Kim | Mel-frequency linear prediction speech recognition apparatus and method |
TW473704B (en) * | 2000-08-30 | 2002-01-21 | Ind Tech Res Inst | Adaptive voice recognition method with noise compensation |
DE10050331C2 (de) * | 2000-10-11 | 2002-11-28 | Deutsch Zentr Luft & Raumfahrt | Verfahren zur Anhebung des Signal/Rausch-Verhältnisses bei der Verarbeitung mehrkanaliger digitaler Datensätze |
US7117145B1 (en) * | 2000-10-19 | 2006-10-03 | Lear Corporation | Adaptive filter for speech enhancement in a noisy environment |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7103541B2 (en) * | 2002-06-27 | 2006-09-05 | Microsoft Corporation | Microphone array signal enhancement using mixture models |
US7356466B2 (en) * | 2002-06-28 | 2008-04-08 | Samsung Electronics Co., Ltd. | Method and apparatus for performing observation probability calculations |
JP2004356894A (ja) * | 2003-05-28 | 2004-12-16 | Mitsubishi Electric Corp | 音質調整装置 |
US20050027530A1 (en) * | 2003-07-31 | 2005-02-03 | Tieyan Fu | Audio-visual speaker identification using coupled hidden markov models |
KR100827097B1 (ko) * | 2004-04-22 | 2008-05-02 | 삼성전자주식회사 | 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치 |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US7852912B2 (en) * | 2005-03-25 | 2010-12-14 | Agilent Technologies, Inc. | Direct determination equalizer system |
US8924212B1 (en) * | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
JP4396646B2 (ja) * | 2006-02-07 | 2010-01-13 | ヤマハ株式会社 | 応答波形合成方法、応答波形合成装置、音響設計支援装置および音響設計支援プログラム |
US8251924B2 (en) * | 2006-07-07 | 2012-08-28 | Ambient Corporation | Neural translator |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) * | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) * | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102256201A (zh) * | 2010-05-19 | 2011-11-23 | 上海聪维声学技术有限公司 | 用于助听器的自动环境识别方法 |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
CN104221079B (zh) | 2012-02-21 | 2017-03-01 | 塔塔顾问服务有限公司 | 利用频谱特性进行声音分析的改进的梅尔滤波器组结构 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
CN110096712B (zh) | 2013-03-15 | 2023-06-20 | 苹果公司 | 通过智能数字助理的用户培训 |
CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2681715B1 (fr) * | 1991-09-25 | 1994-02-11 | Matra Communication | Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire . |
US5664059A (en) * | 1993-04-29 | 1997-09-02 | Panasonic Technologies, Inc. | Self-learning speaker adaptation based on spectral variation source decomposition |
US5590242A (en) * | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5778336A (en) * | 1996-10-01 | 1998-07-07 | Lucent Technologies Inc. | Speech coding and joint data/channel bias estimation using finite state vector quantizer derived from sequential constraints |
-
1996
- 1996-05-06 FR FR9605629A patent/FR2748342B1/fr not_active Expired - Fee Related
-
1997
- 1997-05-02 EP EP97401001A patent/EP0806760B1/fr not_active Expired - Lifetime
- 1997-05-02 DE DE69705891T patent/DE69705891T2/de not_active Expired - Fee Related
- 1997-05-05 US US08/841,866 patent/US5864806A/en not_active Expired - Fee Related
- 1997-05-06 JP JP11544297A patent/JP3919287B2/ja not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6954608B2 (en) | 2001-10-15 | 2005-10-11 | Canon Kabushiki Kaisha | Heating device and image forming apparatus |
US7027764B2 (en) | 2001-10-15 | 2006-04-11 | Canon Kabushiki Kaisha | Heating device and image forming apparatus |
JP2005202222A (ja) * | 2004-01-16 | 2005-07-28 | Toshiba Corp | ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置 |
JP4542790B2 (ja) * | 2004-01-16 | 2010-09-15 | 株式会社東芝 | ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置 |
JP2006287490A (ja) * | 2005-03-31 | 2006-10-19 | Sumitomo Electric Ind Ltd | シングルキャリアブロック伝送用受信機 |
JP2007221445A (ja) * | 2006-02-16 | 2007-08-30 | Sharp Corp | サラウンドシステム |
Also Published As
Publication number | Publication date |
---|---|
US5864806A (en) | 1999-01-26 |
EP0806760A1 (fr) | 1997-11-12 |
EP0806760B1 (fr) | 2001-08-01 |
JP3919287B2 (ja) | 2007-05-23 |
DE69705891T2 (de) | 2002-04-11 |
FR2748342B1 (fr) | 1998-07-17 |
FR2748342A1 (fr) | 1997-11-07 |
DE69705891D1 (de) | 2001-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3919287B2 (ja) | 連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置 | |
KR100549133B1 (ko) | 노이즈 감소 방법 및 장치 | |
Nakatani et al. | A unified convolutional beamformer for simultaneous denoising and dereverberation | |
Kinoshita et al. | Neural Network-Based Spectrum Estimation for Online WPE Dereverberation. | |
EP0886263B1 (en) | Environmentally compensated speech processing | |
US5781883A (en) | Method for real-time reduction of voice telecommunications noise not measurable at its source | |
EP0807305B1 (en) | Spectral subtraction noise suppression method | |
US5590242A (en) | Signal bias removal for robust telephone speech recognition | |
EP0689194B1 (en) | Method of and apparatus for signal recognition that compensates for mismatching | |
US7065486B1 (en) | Linear prediction based noise suppression | |
US8296135B2 (en) | Noise cancellation system and method | |
EP0720149A1 (en) | Speech recognition bias equalisation method and apparatus | |
Fang et al. | Integrating statistical uncertainty into neural network-based speech enhancement | |
Kim et al. | On the applications of the interacting multiple model algorithm for enhancing noisy speech | |
Kosaka et al. | Instantaneous environment adaptation techniques based on fast PMC and MAP-CMS methods | |
Hirsch | Automatic speech recognition in adverse acoustic conditions | |
Acero et al. | Towards environment-independent spoken language systems | |
Nakatani et al. | Real-time speech enhancement in noisy reverberant multi-talker environments based on a location-independent room acoustics model | |
Tsujikawa et al. | Low-Complexity and Accurate Noise Suppression Based on an a Priori SNR Model for Robust Speech Recognition on Embedded Systems and Its Evaluation in a Car Environment | |
Yoshioka et al. | Enhancement of noisy reverberant speech by linear filtering followed by nonlinear noise suppression | |
EP1521243A1 (en) | Speech coding method applying noise reduction by modifying the codebook gain | |
Techini et al. | Robust front-end based on MVA processing for Arabic speech recognition | |
TLUčÁK et al. | Neural Network Based Speech Enhancement | |
Sehr et al. | A simplified decoding method for a robust distant-talking ASR concept based on feature-domain dereverberation | |
EP1521242A1 (en) | Speech coding method applying noise reduction by modifying the codebook gain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040302 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070213 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |