JPH1074099A - 連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置 - Google Patents

連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置

Info

Publication number
JPH1074099A
JPH1074099A JP9115442A JP11544297A JPH1074099A JP H1074099 A JPH1074099 A JP H1074099A JP 9115442 A JP9115442 A JP 9115442A JP 11544297 A JP11544297 A JP 11544297A JP H1074099 A JPH1074099 A JP H1074099A
Authority
JP
Japan
Prior art keywords
path
speech
equalization
frame
markov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9115442A
Other languages
English (en)
Other versions
JP3919287B2 (ja
Inventor
Chafic Mokbel
シャフィ・モクベル
Denis Jouvet
ドゥニ・ジュベ
Jean Monne
ジャン・モネ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JPH1074099A publication Critical patent/JPH1074099A/ja
Application granted granted Critical
Publication of JP3919287B2 publication Critical patent/JP3919287B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

(57)【要約】 【課題】 連続する入力音声フレームの観測されたシー
ケンスによって構成される、外乱によって影響を受けや
すい音声信号を等化する。 【解決手段】 音声信号は隠れマルコフモデルによって
モデル化され、各瞬間tにおいて、等化フィルタは瞬間
tにおいてマルコフ概念における経路に関連して構成さ
れ、少なくとも前記複数個の等化フィルタはフレームに
与えられて、瞬間tにおいて複数個のフィルタ処理され
た音声フレームシーケンスおよび与えられた等化フィル
タにそれぞれ関連して各経路に対する発声確率を得る。
マルコフ概念において最も可能性のある経路に対応する
等化フィルタが選択される。選択された等化フィルタに
よって与えられるフィルタ処理されたフレームが等化フ
レームとして選択される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は信号の統計的モデル
を実行することにより、音声信号の等化フィルタ処理の
ための方法および装置に関する。
【0002】以降において、「等化」の用語は「外乱の
減衰」に対して同期する広い意味で用いられている。
【0003】より特定的に、フィルタ処理するための本
発明の方法および装置は、外乱を受けやすいデジタル音
声信号、および処理するべき信号または「クリーンな」
信号を構成する信号に適用され、これはクリーンな信号
の隠れマルコフモデル(HMM)、または等化外乱によ
るフィルタ処理のための関数とともに、実際のデータか
ら推定されるクリーンな信号のモデルの近似を行なうこ
とにより実施する。
【0004】本発明の方法および装置は、特に切換電話
網(STN)または移動通信のための広域システム(G
SM)において、電話網による自動音声認識(ASR)
の方法を向上させるために適用できる。本発明の別の応
用は、音声信号からノイズを取除くことにある。
【0005】
【従来技術】ASRシステムにおいて、「ハンドフリ
ー」の電話、コンピュータ、データ端末などの音声制御
のために認識が局所的に行なわれる場合、付加的ノイズ
によって導入された外乱を減らす技術が求められる。こ
れらの技術は、特に、スペクトル減算によるフィルタ処
理、アンテナフィルタ処理、マルコフモデル状態フィル
タ処理、または基準モデルに対する部屋のノイズが加わ
るインラインを含む。
【0006】マルコフ状態フィルタ処理は、音声のマル
コフモデルおよびある瞬間tにおけるシステムの最も可
能性のある状態を既知として、スペクトル減算フィルタ
(ウィーナフィルタ)を適用することを含む。クリーン
な信号のモデルはマルコフモデルの状態によって与えら
れ、ノイズモデルはノイズが取除かれるべきワードの前
にある無音から推定される。
【0007】集中認識のため、既知の技術の目的は、十
分に広い水平線にわたって推定されるケプストラムベク
トルからDC成分を減算することにより、電話回線の影
響を減らすことである。ウィンドウに分けられるデジタ
ル電話信号では、「水平」の表示は連続するウィンドウ
の所与の整数を示す。この種のアプローチのより詳細な
説明として、C.モクベル(Mokbel)、J.モネ(Monn
e )、およびD.ジュベ(Jouvet)による「電話回線状
態の変化に対する音声レコグナイザのオンライン適
合」、ユーロスピーチ(Eurospeech)、ページ1247
−1250、ベルリン1993年が参照できる。十分に
広い水平線では、ケプストラムベクトルの平均値は電話
回線の影響を表わすことが観測され、この観測はチャネ
ル特性がゆっくりと変わる場合に特に当てはまる。
【0008】一般に、ノイズを取除くまたは等化するた
めのシステムは、クリーンな信号の特性およびノイズま
たは外乱の特性を知った上で行なわれる。残念ながら、
クリーンシステムのモデルまたはそのパラメータが未知
であるのならシステムはより複雑となる。
【0009】たとえば、クリーンな音声のセグメント
が、パラメータが未知である自己回帰システムの出力で
あるとされるのなら、ノイズを取除くために「推定−最
大化」(EM)型方法を用いて、自己回帰モデルのパラ
メータの推定値を得る、および外乱をフィルタ処理によ
りなくす(たとえば、G.セリュ(Celeux)およびJ.
ディボル(Diebolt )による「EMアルゴリズムのシミ
ュレートされたアニール型バージョン」(Une version
de type recuit simule de l'algorithme EM)、Rappor
ts de Recherche No. 1123, Programme 5, INRIA, 19
89年11月参照)。
【0010】さらに、等化を行なうイコライザの係数を
適用するための基準を決定するために、デジタル信号に
特有の統計に基づくブラインド等化を用いることができ
る。特に、文献FR−A−2 722 631はデジタ
ル電話信号のブラインド等化を用いる適応型フィルタ方
法およびシステム、ならびに電話伝送および/またはA
SRへの応用を記載している。この文献に記載されてい
る方法では、音声信号に関連する一般的統計および電話
チャネルは、ほとんど一定である畳み込み効果を有する
という仮定に基づいている。
【0011】このようなアプローチは、クリーンな信号
について単純な仮定、すなわち自己回帰するおよび/ま
たはガウス型である、および/または安定していると仮
定できるのなら満足のいく結果を得ることができるが、
これは常に可能ではない。
【0012】最近の他の研究としては、音声信号の外乱
および/または変わりやすさを減じるために統計的語彙
モデルを用いて、それにより認識をより強固(ロバス
ト)なものにすることが行なわれている。
【0013】上記のすべては、音声フレームに同期する
ような態様でインラインアプリケーションを提供するこ
とができないという欠点を持っている。提案される方法
は認識される信号が終わるまで待ち、その後ノイズ取出
しまたは等化の後の信号を識別する前にバイアスを推定
するために反復を行なう。さらに、減算するべきバイア
スの推定量はマルコフモデルの最良の経路において「推
定−最大化」方法において直接または間接的に従属し、
マルコフ概念における経路またはアライメントは、モデ
ルの確率密度が対応する、音声フレームの流れと状態
(または遷移)の流れとの組合せである。この従属性は
最初の観測が大きな外乱を受けているのならその処理法
を偏らせる危険がある。なぜなら、このような外乱は誤
ったアライメントを生成し得るからである。
【0014】本発明が提案するアプローチは上記のアプ
ローチと根本的に異なり、より普遍的であり、音声フレ
ームと同期するという点で上記の欠点を補う。
【0015】このために、本発明は連続する入力音声フ
レームの観測されたシーケンスからなる音声信号を等化
するための方法を提供する。音声信号は外乱によって影
響を受けやすく、この方法では音声信号はHMMによっ
てモデル化される。この方法は各瞬間tにおいて以下の
点で特徴付けられる。
【0016】・複数個のより前の音声フレームに基づい
て、かつマルコフモデルの複数個のパラメータに基づい
て、等化フィルタは瞬間tでマルコフ概念における経路
と関連して構成される。
【0017】・少なくとも前記複数個の等化フィルタが
与えられて、瞬間tにおいて複数個のフィルタ処理され
た音声フレームシーケンスおよび与えられた等化フィル
タにそれぞれ関連する各経路に対する発声確率を得る。
【0018】・マルコフ概念において最も確率が高い経
路すなわち、対応する与えられた等化フィルタによって
フィルタ処理された音声フレームのシーケンスに対して
最も高い発声確率を有する経路、に対応する等化フィル
タが選択されるまたは「保持」される。
【0019】・保持された等化フィルタによって与えら
れるフィルタ処理されたフレームは、等化されたフレー
ムとして保持される。
【0020】本発明はさらに上記の方法を実現する等化
装置を提供する。この装置は外乱によって影響を受けた
音声信号を入力に受取り、減じられた外乱を有する音声
信号を出力から送る等化フィルタモジュールを含む。
【0021】本発明の他の特徴および利点は、以下の記
載を読みかつ添付されている図面を見ることにより明ら
かとなる。
【0022】
【発明の実施の形態】以下の記載では、入力音声フレー
ムと呼ばれる連続する音声フレームの観測されたシーケ
ンス 1 、…、 t 、…、 Tfによって構成される音声
信号が対象となる。 1 の添数の1は予め定められた最
初の観測瞬間を表わし、 t の添字tは現在の瞬間を表
わし、 Tfの添字Tfは観測されたシーケンスの最後の
瞬間を表わす。この音声信号は外乱によって影響を受け
やすい。
【0023】この音声信号は、パラメータが既知である
または学習サンプルに基づいて推定できる1つ以上の混
合によって生成されると仮定する。したがって、信号は
λと書かれるHMMを実現すると見られる。所与の瞬間
において、観測はマルコフオートマトンに関連する混合
の一成分によって生成される。しかし、信号を観測して
もこの成分が何であるのか、または対応する混合は何で
あるのか知ることはできない。観測は不完全であると言
われる。既知であるのは、混合のパラメータ、マルコフ
オートマトンのパラメータ、および観測された信号に影
響する外乱の性質のみである。
【0024】HMMは当業者、特にASRの分野の人に
とって周知である。この議題については、L.ラビナー
(Rabiner )およびB.H.ジュアン(Juang )による
「音声認識の基本」、プレンティスホールシグナルプロ
セシングシリーズ、A.V.オッペンハイムシリーズ編
集、1993年、またはD.ジュベの博士論文「統計的
方法による接続語のスピーカ別認識」(Reconnaissance
de mots connectes independamment du locuteur par
des methodes satistiques)E.N.S T., 1988年を参
照することができる。
【0025】前述のように、HMMは特定の数のパラメ
ータによって定義されるマルコフオートマトンによって
構成される。そのパラメータとは、その状態または遷移
1、…、qN (Nはモデルの状態の数である)、これ
らの状態間の遷移、および所与の状態(または所与の遷
移)にある観測ベクトルの発声密度である。したがっ
て、3つのパラメータの組がHMM λを記述する。
【0026】・状態qi が最初の瞬間t0 で占める確率
の組。π(qi )と書かれる。 ・状態qi から状態qj への遷移の確率の組。aqi,qj
と書かれ、かつ時間と独立していると仮定される。
【0027】・所与の状態qi にある観測ベクトル
対する発声確率の組。bqi)と書かれ、これらの確
率は平均ベクトル qiおよび共分散行列 qiを有する、
ガウス確率関係に従うとする。
【0028】この場合、発声確率はマルコフオートマト
ンの状態に関連する。しかし、これらは遷移と等しく関
連付けることができる。これは本発明の本質的特性をど
のようにも変えない。
【0029】表記として、λ=(π,a,b,)が用い
られる。このモデルにおいて、および上記で述べたよう
に、マルコフ概念における長さtの経路は、モデルの確
率密度が対応する、t個のフレームの流れおよびt個の
状態の流れの組合せである。より簡単にするためには、
経路はt個の状態または遷移の流れsのq1 ,…,qt
であるとする。表記としてs=[q1 ,…,qt]が用
いられる。
【0030】観測された信号の外乱は等化関数を各フレ
ーム t に与えることにより減じられ、その関数は等化
フィルタまたはイコライザと関連する。
【0031】本発明の方法において、各瞬間tにおい
て、以下で詳細に説明するように、瞬間tにおいてマル
コフオートマトンにある経路に関連してイコライザが構
成される。したがって、オートマトンにおける経路また
はアライメントの変動は所与の瞬間における観測された
信号だけでなく、経路で運ばれるイコライザの状態に依
存し、前記イコライザは各瞬間において観測されたフレ
ームに与えられる。
【0032】表記Fθ(s)(θ(s)は下つき)
(・)は経路sによって運ばれるイコライザと関連する
関数を指示するために以下で用いられる。これはベクト
ルθ(s)によってパラメータ化される。
【0033】所与の瞬間tにおいて、所与の経路sに対
して、かつHMM λのパラメータが既知として、等化
関数の最良のパラメータベクトルの推定値が求められ
る。この最良パラメータベクトルは以下のように書かれ
る。
【0034】
【数10】
【0035】モデルλが既知でありかつ最尤度法を適用
することにより、このベクトルは経路sによって運ばれ
るイコライザによってフィルタ処理された入力音声フレ
ームシーケンスである以下の音声フレームシーケンスに
対する最大発声確率を有するパラメータベクトルによっ
て推定される。
【0036】
【数11】
【0037】マルコフモデルのパラメータに対して前述
の定義が与えられると以下が得られる。
【0038】
【数12】
【0039】t0 は所定の最初の瞬間である。
【0040】 q τ(τは下つき)および q τ(τは
下つき)は状態または遷移qτ(τは下つき)で発声さ
れるベクトルτ(τは下つき)の確率関係に関連す
る、平均を表わすベクトルおよび共分散行列である。
【0041】(・)T は転置された行列を示す。(・)
-1は逆行列を示す。
【0042】表記のq(τ−1)=qτ(τは下つき)
-1はより明確にするために用いられている。
【0043】pは観測空間の次元である。
【0044】
【数13】
【0045】は最初の状態qt0を占める確率を表わし、
さらにτ(τは下つき))はヤコビ行列であり、
kおよびlが整数である、k番目の行およびl番目の列
にある要素が、ベクトルFθ(s)(τ)(左におい
てθ(s)およびτは下つき)のl番目の要素に対して
ベクトルτ(τは下つき)のk番目の要素の導関数で
ある。
【0046】対数関数が厳密に増加する関数であるとし
たら、
【0047】
【数14】
【0048】この式を最小化することはθに相対して微
分することであり、その導関数がゼロであるθの値を求
めることになる。関数fθ(s)(θ(s)は下つき)
(・)はθ(s)に相対して微分できるものとする。導
関数がゼロであるという条件とともに微分することによ
り、以下の式(2)が得られる。
【0049】
【数15】
【0050】式(2)は関数fθ(s)(θ(s)は下
つき)(・)を有しかつ経路sによって運ばれるイコラ
イザのパラメータを推定するのを可能にする。唯一の仮
定は、等化関数が微分であるということがわかる。もた
らされる式は特に外乱の性質と無関係に、かつ観測され
たシーケンス 1 ,…, t の性質と無関係に、イコラ
イザを完全に決定するのを可能にする。
【0051】本発明の等化方法は2つの基本的なモード
で行なうことができる。すなわち、フィルタ処理に適用
することができ、かつロバスト認識に用いることができ
る。
【0052】最初のモード、すなわちフィルタ処理にお
いて、所与の瞬間での等化のフレームを生成するため
に、最も可能性のある経路によって運ばれるイコライザ
のみが考慮される。
【0053】したがって、音声フレーム t+1 に影響を
与える外乱をフィルタ処理するために、以下の関数を有
するイコライザのみが与えられる。
【0054】
【数16】
【0055】第2のモード、すなわちロバスト認識で
は、発声された言葉の終了を待って、認識される言葉は
HMMにおける最も可能性のある経路から識別され、種
々の経路におけるイコライザは音声復号化の間、すなわ
ち新しい観測値の到着を備えて経路または整列に沿って
進行している間、動作中である。
【0056】したがって、ロバスト認識において、音声
フレーム t+1 (事前フィルタ処理)または音声フレー
t (事後フィルタ処理)に影響を与える外乱をフィ
ルタ処理するために、マルコフオートマトンの各経路s
に対して以下の関数を有してイコライザが与えられる。
【0057】
【数17】
【0058】連続する入力音声フレームの観測されたシ
ーケンスの最後の瞬間Tf において認識の決定がとられ
る。すなわち、瞬間Tf での最も可能性のある経路は以
下を満足させる経路として選択される。
【0059】
【数18】
【0060】理論において、式(3)は最初の瞬間か
ら、モデルのすべての経路に対して各瞬間tにおいて確
率が計算されることを必要とする。対応する実行は非常
に複雑となり、さらに等化関数が複雑であるのなら演算
時間もかかってしまう。
【0061】実際には、この障害を避けるために、演算
は適応型プロシージャを実現することによって減らされ
る。これは、経路によって運ばれるイコライザに対し
て、iが1からtの範囲の整数である以下の最良のパラ
メータベクトル
【0062】
【数19】
【0063】を推定するために、経路sの最初のi点の
みを考慮に入れる。
【0064】したがって、最初の実現モードでは、最も
可能性があるとして選択される経路は以下の近似式を満
たす経路である。
【0065】
【数20】
【0066】同様に、第2の実現モードにおいて、最も
可能性のある経路として選択されるのは以下の近似式を
満たす経路である。
【0067】
【数21】
【0068】この構成は種々の経路によって運ばれるイ
コライザのパラメータを推定するための関数を変更しな
いことは明らかである。しかし、その確率の関数とし
て、経路の順序付けに影響を与え得る。この近似の影響
を減じながら妥当な計算量を保つためには、最新のm個
のフレームについての確率を調整することができる。こ
こでmは所定の整数である。このような調整は計算量を
増加させないと示すことができる。
【0069】演算量を減らす同じ目的のために、実際に
はさらに他の近似を行なう。もし、各瞬間tにおいてN
状態のHMMにおいてすべての可能な経路に対してフィ
ルタをストアする必要があるのなら、NTf個のフィルタ
となる。これは実際には不可能である。最もよい経路を
K個しか保つことができない。ここでKは所定の整数で
ある。ビタビアルゴリズムを用いるASRシステムに関
連する特定の実施例では、所与の状態をもたらす最良の
経路のみが各瞬間で保持され、その結果、フィルタの数
はN個に減らされ、ここでNは上記の指定された状態の
数である。
【0070】さらに演算量を減らす目的のために、パラ
メータベクトルθ(s)の量を限定することができる。
さらに、等化関数を音素のようなそれぞれの共通の音単
位に関連するグループにまとめることができる。
【0071】受ける外乱は畳み込み、および/または加
法的性質を持ち得る。付加的外乱の例としては、音声に
エンジンのノイズまたはクラクションのノイズを含むこ
とが挙げられる。これは、運転手が車の中から電話をか
けている場合、または歩行者が道路交通のある環境、ま
たは一般的に騒音のある環境で電話をかけている場合に
起こり得る。
【0072】さらに、時間を経てもあまり変化しない外
乱がある。この場合、忘却係数を推定値に含めることが
できる。
【0073】外乱はさらにバイアスを中心に変動する一
定のバイアスを含み得る。本発明の方法によって実現さ
れる2種類の等化関数の種類を以下に記載する。これら
2つの特定の等化関数はそれぞれ外乱の2つの基本的な
種類に与えられる。
【0074】最初の等化関数はバイアスを音声フレーム
から減算する。この関数では、伝達チャネルによる大き
な畳み込みの影響およびスピーカの影響があり、減じら
れるべきであると仮定する。
【0075】第2の等化関数は多重線形回帰を用いる純
化された関数である。これは大量の付加的ノイズからな
る外乱に有利に適用できる。
【0076】第1の等化関数、すなわちバイアスを抑制
する場合、イコライザパラメータを推定するための一般
的式(2)から、イコライザは各経路に対して以下の関
数を有することがわかる。
【0077】
【数22】
【0078】この場合、式(2)において、和の第2項
は消える。
【0079】(ここでは示されていない)中間の計算に
よって上記の推定式(4)を以下のように解釈すること
ができる。所与の経路のバイアスは経路の対応する平均
値のベクトル間の差異の和であり、その差異は平均値に
ついて分散の逆射によって重み付けられ(分散が大きけ
れば大きいほど、和における差の重み付けは減る)、和
は考慮されている経路の分散の逆射の和によって重み付
られる(推定されるバイアスは従って音声ベクトルの次
元を有する)。
【0080】第2の等化関数、すなわち重線形回帰を用
いる場合、イコライザのパラメータを推定するための一
般式(2)から、外乱は各経路に対して以下の純化関数
を有するイコライザによって多重線形回帰によってフィ
ルタ処理されることが示される。
【0081】
【数23】
【0082】ここでθ=()であり、は正方行
列であり、は列ベクトルである。
【0083】特定の実施例では、行列は対角行列であ
る。回帰は平均値のベクトルおよび考慮されている経路
に沿った重み付けられた音声フレームのベクトルの比で
あることが示される。
【0084】本発明の装置の種々の特定の実施例を以下
に記載する。上記で記載した方法を実現する等化装置は
等化フィルタリングモジュールを含む。このモジュール
は外乱によって影響を受けた音声信号を受取る入力を有
し、前記信号に対して上記の方法に従ってフィルタ動作
を施し、外乱が減じられた出力音声信号を送る。
【0085】音声フレーム 1 ,…, t ,…, Tf
信号に含まれる最も関連する可能な情報を表わすよう選
択される。
【0086】ASRのアプリケーションでは、ケプスト
ラムベクトルは適切な音声フレームの非限定例をなす。
一般には、最初の10個ほどのケプストラム係数のみが
考慮される。かなり満足のいく態様で音域のインパルス
応答をモデル化し、認識のために適する情報を運ぶ。さ
らに、これらの係数は入力信号のエネルギに対して不感
応であり、ASRにおいての品質基準をなす。
【0087】ケプストラムベクトルは部分的に重なる時
間ウィンドウの音声信号から計算することができる。ウ
ィンドウは固定時間長、たとえば10msから40ms
の範囲にあってもよい。
【0088】ASRのアプリケーションにおいて、図1
は等化フィルタリングモジュールに含まれるケプストラ
ム演算のためのモジュール1の特定の実施例を示す。
【0089】ASRシステムの入力において、従来のデ
ジタル化モジュール(図示されていない)はアナログ音
声信号をデジタル音声信号s(n)に変換する。信号s
(n)はモジュール1の入力に与えられる。
【0090】入力において、モジュール1はモジュール
10を有する。モジュール10は音声信号のスペクトル
エネルギを演算する。モジュール10は信号のスペクト
ルを出力する高速フーリエ変換モジュール12を有す
る。
【0091】モジュール12の出力はフィルタバンク1
4の入力に接続される。フィルタバンク14はスペクト
ル包絡線推定のためにスペクトルを平滑化する。フィル
タバンク14の臨界帯域は非線形スケール、メルスケー
ル、またはバークスケールで分布され、それによって高
い周波数より低い周波数においてより大きなベクトル分
解を与える。したがって、人間の聴覚系にもっと整合す
る。聴覚システムは高い周波数より低い周波数において
より高い分解で分析することが示されている。典型的に
は、フィルタバンク14は24個の周波数帯を有する。
【0092】信号の各ウィンドウに対して、フィルタバ
ンク14からの出力は平滑化されたベクトルS(f)を
なす、24個の周波数域におけるスペクトルエネルギに
よって構成されるベクトルを与える。
【0093】スペクトルエネルギを演算するためのモジ
ュール10の出力でもある、フィルタバンク14の出力
は、モジュール16の入力に接続されて、音声信号のス
ペクトルエネルギの対数を計算する。モジュール16の
出力はモジュール18の入力に接続されて逆高速フーリ
エ変換を行ない、この逆フーリエ変換は逆余弦変換によ
って行なわれる。モジュール18は音声信号s(n)の
ケプストラムC(n)を、メル周波数ベースのケプスト
ラム係数(MFCC)として知られているケプストラム
ベクトルの組の形で出力する。
【0094】本発明の方法および装置はどの信号事前処
理方法および装置にも容易に組合せることができるとい
う利点を有する。
【0095】本発明の方法および装置を用いて得られる
結果は非常に満足のいくものである。特に、ASRにお
いて、特定の条件下ではエラーレートを30%も下げる
ことができる。
【図面の簡単な説明】
【図1】本発明の装置の等化フィルタ文字に含まれる、
特定の実施例における音声信号のケプストラムを演算す
るためのモジュールを示す図である。
【符号の説明】
1 ケプストラム演算のためのモジュール 12 高速フーリエ変換モジュール 14 フィルタバンク 16 モジュール 18 モジュール
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジャン・モネ フランス国、22700 ペロ−ギレ、リュ・ サン・ギレ、109

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 連続する入力音声フレームの観測された
    シーケンスによって構成される音声信号を等化するため
    の方法であって、前記音声信号は外乱によって影響を受
    けやすく、前記方法は隠れマルコフモデルによって前記
    音声信号をモデル化する予備的ステップを含み、各瞬間
    tにおいて、 (a) 複数個の前の音声フレームに基づいて、かつ前
    記マルコフモデルの複数個のパラメータに基づいて、瞬
    間tにおいてマルコフ概念の経路に関連する複数個の等
    化フィルタを形成するステップと、 (b) 前記フレームに対して少なくとも前記複数個の
    等化フィルタを与えて、瞬間tにおいて、複数個のフィ
    ルタ処理された音声フレームシーケンスおよび前記与え
    られた等化フィルタにそれぞれ関連する各経路の発声確
    率を得るステップと、 (c) 対応する与えられた等化フィルタによってフィ
    ルタ処理された音声フレームのシーケンスに対して最も
    高い発声確率を有する経路である、マルコフ概念におい
    て最も可能性のある経路に対応する前記等化フィルタの
    うちの1つを選択するステップと、 (d) 前記選択された等化フィルタによって与えられ
    るフィルタ処理されたフレームを等化されたフレームと
    して選択するステップとを含む、方法。
  2. 【請求項2】 各音声フレームはベクトル t によって
    表わされ、 マルコフ概念において長さtを有する経路は、t個の状
    態または遷移のシーケンスs={q1 、…、qt }であ
    り、 経路sに関連する前記等化フィルタは、θ(s)が経路
    sに関連する等化フィルタのパラメータを含むベクトル
    である、以下の関数によって定義され、 【数1】 ステップ(a)では、経路sに関連する等化フィルタは
    以下の関数によって定義され、 【数2】 この関数のパラメータは各経路sに対して以下の式 【数3】 請求項1に記載の方法。
  3. 【請求項3】 前記隠れマルコフモデルはλであり、ス
    テップ(b)の際に、音声フレーム t+1 (事前フィル
    タ処理)または音声フレーム t (事後フィルタ処理)
    に影響する外乱をフィルタ処理するために、以下の等化
    関数を有するフィルタのみを与えるステップを含み、 【数4】 請求項1に記載の方法。
  4. 【請求項4】 ロバスト音声認識に与えられ、最も可能
    性のある経路は以下を満足させ、 【数5】 請求項3に記載の方法。
  5. 【請求項5】 前記最も可能性のある経路は以下の近似
    式を満たす前記経路として選択され、 【数6】 請求項3に記載の方法。
  6. 【請求項6】 前記最も可能性のある経路は以下の近似
    式を満たす前記経路として選択され、 【数7】 請求項4に記載の方法。
  7. 【請求項7】 前記等化フィルタは各経路に対して以下
    の関数を有し、 【数8】 請求項1に記載の方法。
  8. 【請求項8】 前記外乱は線形多重回帰を用いてフィル
    タ処理され、このフィルタ処理は各経路に対して、以下
    の純化関数を有する等化フィルタによって行なわれ、 【数9】 ここでθ=()、ここでは正方行列であり、
    は列ベクトルである、請求項1に記載の方法。
  9. 【請求項9】 連続する入力音声フレームの観測された
    シーケンスによって構成される音声信号を等化するため
    の装置であって、音声信号は外乱によって影響を受けや
    すく、前記装置は隠れマルコフモデルによって音声信号
    をモデル化するための手段と、 複数個の前の音声フレームに基づいて、かつ前記マルコ
    フモデルの複数個のパラメータに基づいて、瞬間tにお
    いてマルコフ概念の経路に関連する複数個の等化フィル
    タを形成するための手段と、 前記フレームに少なくとも前記複数個の等化フィルタを
    与えて、瞬間tにおいて、複数個のフィルタ処理された
    音声フレームシーケンスおよび前記与えられた等化フィ
    ルタにそれぞれ関連する各経路に対する発声確率を得る
    ための手段と、 対応する与えられた等化フィルタによってフィルタ処理
    された音声フレームのシーケンスの最も高い発声確率を
    有する経路である、マルコフ概念において最も可能性の
    ある経路に対応する前記等化フィルタのうちの1つを選
    択するための手段と、 前記選択された等化フィルタによって与えられるフィル
    タ処理されたフレームを等化されたフレームとして選択
    するための手段とを含み、 前記装置は外乱によって影響を受けた音声信号を入力で
    受取り、減じられた外乱を有する音声信号を出力から送
    る、装置。
JP11544297A 1996-05-06 1997-05-06 連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置 Expired - Fee Related JP3919287B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9605629 1996-05-06
FR9605629A FR2748342B1 (fr) 1996-05-06 1996-05-06 Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal

Publications (2)

Publication Number Publication Date
JPH1074099A true JPH1074099A (ja) 1998-03-17
JP3919287B2 JP3919287B2 (ja) 2007-05-23

Family

ID=9491861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11544297A Expired - Fee Related JP3919287B2 (ja) 1996-05-06 1997-05-06 連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置

Country Status (5)

Country Link
US (1) US5864806A (ja)
EP (1) EP0806760B1 (ja)
JP (1) JP3919287B2 (ja)
DE (1) DE69705891T2 (ja)
FR (1) FR2748342B1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202222A (ja) * 2004-01-16 2005-07-28 Toshiba Corp ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置
US6954608B2 (en) 2001-10-15 2005-10-11 Canon Kabushiki Kaisha Heating device and image forming apparatus
JP2006287490A (ja) * 2005-03-31 2006-10-19 Sumitomo Electric Ind Ltd シングルキャリアブロック伝送用受信機
JP2007221445A (ja) * 2006-02-16 2007-08-30 Sharp Corp サラウンドシステム

Families Citing this family (172)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
SE514875C2 (sv) * 1999-09-07 2001-05-07 Ericsson Telefon Ab L M Förfarande och anordning för konstruktion av digitala filter
US6652489B2 (en) * 2000-02-07 2003-11-25 Medrad, Inc. Front-loading medical injector and syringes, syringe interfaces, syringe adapters and syringe plungers for use therewith
US6477488B1 (en) * 2000-03-10 2002-11-05 Apple Computer, Inc. Method for dynamic context scope selection in hybrid n-gram+LSA language modeling
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20020065649A1 (en) * 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
TW473704B (en) * 2000-08-30 2002-01-21 Ind Tech Res Inst Adaptive voice recognition method with noise compensation
DE10050331C2 (de) * 2000-10-11 2002-11-28 Deutsch Zentr Luft & Raumfahrt Verfahren zur Anhebung des Signal/Rausch-Verhältnisses bei der Verarbeitung mehrkanaliger digitaler Datensätze
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7103541B2 (en) * 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
JP2004356894A (ja) * 2003-05-28 2004-12-16 Mitsubishi Electric Corp 音質調整装置
US20050027530A1 (en) * 2003-07-31 2005-02-03 Tieyan Fu Audio-visual speaker identification using coupled hidden markov models
KR100827097B1 (ko) * 2004-04-22 2008-05-02 삼성전자주식회사 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US7852912B2 (en) * 2005-03-25 2010-12-14 Agilent Technologies, Inc. Direct determination equalizer system
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
JP4396646B2 (ja) * 2006-02-07 2010-01-13 ヤマハ株式会社 応答波形合成方法、応答波形合成装置、音響設計支援装置および音響設計支援プログラム
US8251924B2 (en) * 2006-07-07 2012-08-28 Ambient Corporation Neural translator
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) * 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) * 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) * 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102256201A (zh) * 2010-05-19 2011-11-23 上海聪维声学技术有限公司 用于助听器的自动环境识别方法
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
CN104221079B (zh) 2012-02-21 2017-03-01 塔塔顾问服务有限公司 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
CN105144133B (zh) 2013-03-15 2020-11-20 苹果公司 对中断进行上下文相关处理
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2681715B1 (fr) * 1991-09-25 1994-02-11 Matra Communication Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire .
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5778336A (en) * 1996-10-01 1998-07-07 Lucent Technologies Inc. Speech coding and joint data/channel bias estimation using finite state vector quantizer derived from sequential constraints

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6954608B2 (en) 2001-10-15 2005-10-11 Canon Kabushiki Kaisha Heating device and image forming apparatus
US7027764B2 (en) 2001-10-15 2006-04-11 Canon Kabushiki Kaisha Heating device and image forming apparatus
JP2005202222A (ja) * 2004-01-16 2005-07-28 Toshiba Corp ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置
JP4542790B2 (ja) * 2004-01-16 2010-09-15 株式会社東芝 ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置
JP2006287490A (ja) * 2005-03-31 2006-10-19 Sumitomo Electric Ind Ltd シングルキャリアブロック伝送用受信機
JP2007221445A (ja) * 2006-02-16 2007-08-30 Sharp Corp サラウンドシステム

Also Published As

Publication number Publication date
US5864806A (en) 1999-01-26
EP0806760A1 (fr) 1997-11-12
EP0806760B1 (fr) 2001-08-01
JP3919287B2 (ja) 2007-05-23
DE69705891T2 (de) 2002-04-11
FR2748342B1 (fr) 1998-07-17
FR2748342A1 (fr) 1997-11-07
DE69705891D1 (de) 2001-09-06

Similar Documents

Publication Publication Date Title
JP3919287B2 (ja) 連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置
KR100549133B1 (ko) 노이즈 감소 방법 및 장치
Nakatani et al. A unified convolutional beamformer for simultaneous denoising and dereverberation
Kinoshita et al. Neural Network-Based Spectrum Estimation for Online WPE Dereverberation.
EP0886263B1 (en) Environmentally compensated speech processing
US5781883A (en) Method for real-time reduction of voice telecommunications noise not measurable at its source
EP0807305B1 (en) Spectral subtraction noise suppression method
US5590242A (en) Signal bias removal for robust telephone speech recognition
EP0689194B1 (en) Method of and apparatus for signal recognition that compensates for mismatching
US7065486B1 (en) Linear prediction based noise suppression
US8296135B2 (en) Noise cancellation system and method
EP0720149A1 (en) Speech recognition bias equalisation method and apparatus
Fang et al. Integrating statistical uncertainty into neural network-based speech enhancement
Kim et al. On the applications of the interacting multiple model algorithm for enhancing noisy speech
Kosaka et al. Instantaneous environment adaptation techniques based on fast PMC and MAP-CMS methods
Hirsch Automatic speech recognition in adverse acoustic conditions
Acero et al. Towards environment-independent spoken language systems
Nakatani et al. Real-time speech enhancement in noisy reverberant multi-talker environments based on a location-independent room acoustics model
Tsujikawa et al. Low-Complexity and Accurate Noise Suppression Based on an a Priori SNR Model for Robust Speech Recognition on Embedded Systems and Its Evaluation in a Car Environment
Yoshioka et al. Enhancement of noisy reverberant speech by linear filtering followed by nonlinear noise suppression
EP1521243A1 (en) Speech coding method applying noise reduction by modifying the codebook gain
Techini et al. Robust front-end based on MVA processing for Arabic speech recognition
TLUčÁK et al. Neural Network Based Speech Enhancement
Sehr et al. A simplified decoding method for a robust distant-talking ASR concept based on feature-domain dereverberation
EP1521242A1 (en) Speech coding method applying noise reduction by modifying the codebook gain

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees