JPH09258772A - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置

Info

Publication number
JPH09258772A
JPH09258772A JP8068046A JP6804696A JPH09258772A JP H09258772 A JPH09258772 A JP H09258772A JP 8068046 A JP8068046 A JP 8068046A JP 6804696 A JP6804696 A JP 6804696A JP H09258772 A JPH09258772 A JP H09258772A
Authority
JP
Japan
Prior art keywords
voice
speech
cepstrum
long
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8068046A
Other languages
English (en)
Other versions
JP3397568B2 (ja
Inventor
Tetsuo Kosaka
哲夫 小坂
Yasunori Ohora
恭則 大洞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP06804696A priority Critical patent/JP3397568B2/ja
Priority to US08/821,719 priority patent/US5924067A/en
Priority to DE69715281T priority patent/DE69715281T2/de
Priority to EP97301980A priority patent/EP0798695B1/en
Publication of JPH09258772A publication Critical patent/JPH09258772A/ja
Application granted granted Critical
Publication of JP3397568B2 publication Critical patent/JP3397568B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

(57)【要約】 【課題】 音声認識する際に、CMS法とPMS法とを
単に組み合わせた場合には、回線特性の推定がうまくい
かない。 【解決手段】 音声部と非音声部とを含む音声を入力
し、音声入力の音声部から音声部のケプストラム長時間
平均を求め(CM学習部)、前記入力音声の非音声部か
ら非音声部のケプストラム長時間平均を求め(雑音HM
M学習部)、各ケプストラム長時間平均をケプストラム
領域から線形領域に変換した後線形スペクトル次元上で
差し引き、このデータに基いて音声認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、隠れマルコフモデ
ル(HMM)を用いて音声認識をおこなう、音声認識方
法及び装置に関するものである。
【0002】
【従来の技術】実環境において音声認識を行う場合、特
に問題となるのはマイクや電話回線特性などの影響によ
る回線特性の歪みと、内部雑音などの加算性雑音であ
る。これらに対処する方法として、これまでCepst
rum Mean Subtraction(CMS)
法やParallel Model Combinat
ion(PMC)法が提案されている。CMS法は「R
ahim,et al.:Signal Bias R
emoval for Robust Telepho
ne Based Speech Recogniti
on in Adverse Environment
s,Proc.of ICASSP ’94,(199
4).」などに詳しく、PMC法については「M.J.
Gales,S.Young:An Improved
Approach to theHidden Ma
rkov Model Decomposition
ofSpeech and Noise,Proc.o
f ICASSP’92,I−233−236,(19
92).」に詳しく述べられている。
【0003】CMS法は回線特性の歪みを補償するため
の一手法である。これに対しPMC法は加算性雑音に対
処するための方法である。いずれも入力音声から雑音部
と音声部を検出し、その情報をもとに回線歪みや雑音の
ない環境で作成されたHidden Markov M
odel(HMM)を修正し、入力環境に適応させる。
これによって回線特性や雑音が変動した場合でも、柔軟
に対処できる。
【0004】CMS法はインパルス応答の畳み込みで作
用する乗算性雑音(回線歪み)を補償する方法である。
入力音声の長時間スペクトルを入力音声から差し引き、
またモデル作用に用いた音声の長時間スペクトルをモデ
ルから差し引くことにより回線特性の差を正規化する。
正規化処理は対数スペクトル領域やケプストラム領域で
行うのが一般的である。乗算性雑音はこの二者の領域で
は加法性歪みとしてあらわれるので、引き算により雑音
補償が可能となる。このうちケプストラム領域で行う方
法がCMSと呼ばれている。
【0005】PMC法は無雑音環境で収録した音声で学
習したHMM(音声HMM)と雑音で学習したHMM
(雑音HMM)と加算合成して、モデルをより雑音重畳
環境に近づける方法である。PMCにおける雑音処理で
は、線形スペクトル領域で雑音と音声の加算性が成立す
ることを仮定している。一方、HMMは音声の特徴量と
して、ケプストラムなど対数スペクトル系のパラメータ
を用いることが多い。PMC法では、これらのパラメー
タを線形スペクトル領域に変換し、音声HMMおよび雑
音HMMから得られる特徴量の線形スペクトル領域での
加算合成を行っている。音声と雑音との合成後、逆変換
を行って線形スペクトル領域からケプストラム領域に戻
すことによって、雑音重畳音声HMMを得ている。
【0006】
【発明が解決しようとする課題】以上述べたようにCM
S法を用いることにより、マイクや電話回線特性などの
影響による回線特性の歪みに対処することができる。ま
たPMC法を用いることにより、内部雑音などの加算性
雑音に対処することができる。よってCMSとPMCを
組み合わせることにより、回線歪みと加算性雑音の影響
がある場合でも同時に適応できる。しかし、単に両者を
組み合わせた場合、SNR(信号対量子化雑音比)が低
い場合回線特性の推定がうまく行かない恐れがある。
【0007】これは回線特性推定の際に加算性雑音が悪
影響を及ぼし、回線特性の推定がうまく行かないことに
起因する。特に加算性雑音の特性が白色雑音でない場合
が大きい。
【0008】
【課題を解決するための手段】上記課題を解決する為
に、本発明は音声部と非音声部とを含む音声を入力し、
前記入力音声に含まれる音声部から音声部のケプストラ
ム長時間平均を求め、前記入力音声に含まれる非音声部
から非音声部のケプストラム長時間平均を求め、前記音
声部のケプストラム長時間平均から前記非音声部のケプ
ストラム長時間平均を線形スペクトル次元上で差し引く
音声認識方法及び装置を提供する。
【0009】上記課題を解決する為に、本発明は好まし
くは前記差し引いて求めたデータにより入力音声を認識
する。
【0010】上記課題を解決する為に、本発明は好まし
くは前記ケプストラム長時間平均を隠れマルコフモデル
のデータとする。
【0011】上記課題を解決する為に、本発明は好まし
くは雑音データと音声データとを線形スペクトル次元で
加算合成したデータを用いて雑音重畳モデルを作成し、
前記雑音重畳モデルを用いて前記非音声部のケプストラ
ム長時間平均を求める。
【0012】上記課題を解決する為に、本発明は好まし
くは前記各処理の制御プログラムを記憶した記憶部を利
用し、当該制御プログラムに従って各処理を実行する。
【0013】上記課題を解決する為に、本発明は好まし
くは前記音声認識は、隠れマルコフモデルによる音声認
識とする。
【0014】上記課題を解決する為に、本発明は好まし
くは前記認識結果を表示部に表示する。
【0015】上記課題を解決する為に、本発明は好まし
くは前記認識結果を印字部に印字する。
【0016】上記課題を解決する為に、本発明は好まし
くは前記各処理の制御プログラムを記憶した記憶媒体を
利用し、当該制御プログラムに従って各処理を実行す
る。
【0017】
【発明の実施の形態】図2は本発明の音声認識装置の構
成を表わすブロック図である。101はCRTや液晶表
示器等の表示部であり、本発明の音声認識の結果得られ
る文字列を表示する。102はLBPやインクジェット
プリンタ等の印字部であり、本発明の音声認識の結果得
られる文字列を印字する。103はマイクロフォン等の
音声入力部であり、公衆回線等を介して入力するもので
あっても良い。104はCPUであり、記憶部105や
CDROM等の着脱可能な記憶媒体107に記憶されて
いる制御プログラムに従って以下説明する各種処理を実
行するよう制御する。105は装置内に備える記憶部で
あって、CPU104が実行する後述の各種処理の為の
制御プログラムやその為に必要な各種パラメータ(例え
ば音声認識に用いる辞書に相当するデータ等)、認識す
る音声データ等を記憶する。106は通信I/Fであっ
て、公衆回線やLAN等の通信手段を介してデータの受
授を行うべく通信の制御を行う。この通信I/Fによ
り、他の装置で入力された音声や、他の装置が記憶して
いる制御プログラムや各種パラメータを本装置にとり込
み、記憶部105に記憶させた後、以下説明する各処理
を開始するようにしても良い。107は例えばCDRO
M、FD等の本体に着脱可能な記憶媒体であって、記憶
部105に記憶されているとして先に説明した制御プロ
グラム、各種パラメータ、音声データを記憶することの
可能な本体に着脱可能な記憶媒体であって、以下説明す
る各処理を開始する前にこの記憶媒体107から記憶部
105にデータをダウンロードしても良いし、或いはC
PU104が直接記憶媒体107にアクセスしても良
い。図3は記憶部105或いは記憶媒体107に記憶さ
れているデータのメモリマップであり、401〜403
に示すような各処理の制御プログラムが格納されてい
る。また、図3には図示していないが、この他にパラメ
ータ格納部、音声データ格納部、ワーキングエリア等も
備える。
【0018】以下、図1に従って本発明の実施の形態を
詳細に説明する。図1は本発明音声認識処理の機能的な
ブロック構成図であり、データの流れがわかるようにし
てある。図1において、1は学習用音声データベース上
のデータからCMを計算するCM計算部であり、CM導
出プログラム401−aに従ってCMを計算する。2は
その結果得て記憶部105に記憶されたCM(以後CM
(2)と称する)、3は学習用音声データベース上のデ
ータからHMMを求めるためのHMM学習部、4はその
結果得て記憶部105に記憶されたHMM(以後HMM
(4)と称する)、5は入力音声に含まれる音声部から
CMを求めるためのCM計算部であり、CM導出プログ
ラム401−aに従ってCMを求める。6はその結果得
て記憶部105に記憶されたCM(以後CM(6)と称
する)、7は入力音声に含まれる非音声部から雑音HM
Mを学習するための雑音HMM学習部、8はその結果得
て記憶部105に記憶された雑音HMM(以後HMM
(8)と称する)、9は入力音声の音声部から得られた
CM(6)をケプストラム領域から線形スペクトル領域
へ変換するための変換部であり、線形スペクトル領域変
換プログラム401−bに従って実行される。10は雑
音HMM(8)をケプストラム領域から線形スペクトル
領域へ変換するための変換部であり、線形スペクトル領
域変換プログラム401−cに従って実行される。11
は線形スペクトル領域からケプストラム領域への変換
部、12はケプストラム領域から線形ケプストラム領域
への変換部、13はPMC実行部であり、PMC法デー
タ処理プログラムに従って実行される。14はPMCで
得られたモデルの線形スペクトル領域表現をケプストラ
ム領域へ変換するための変換部、15は変換して最終的
に得られたHMM(以後HMM(15)と称する)、1
6は15のHMM(15)を用いて音声認識を行う音声
認識部である。
【0019】本認識装置は入力音声の一部を取り込み、
そのデータでモデルの適応をおこなう、環境適応型とし
て動作する。まず環境適応モードにおける動作の説明を
行う。最初に音声入力部103より入力した入力音声は
音声部と音声が入っていない非音声部に分けられる。入
力音声はケプストラムなどのパラメータに変換されてい
るものとする。まず雑音HMM学習部7により非音声部
のデータを用いて雑音用のHMMを通常のBaum−W
elchアルゴリズムで学習する。これにより雑音HM
M(8)ができる。また入力音声の音声部のケプストラ
ムの長時間平均を5で計算する。それぞれをケプストラ
ム領域から線形スペクトル領域へ変換する。変換法は前
述のM.J.Gales,et.al.の文献に詳し
い。この場合変換は音声部のCM(6)では平均値のみ
を用い、雑音HMM(8)について平均値および分散の
値を用いる。入力データの音声部から計算したCM
(6)の線形スペクトル領域CM(6)′での表現を以
下のように表わす。
【0020】
【外1】
【0021】非音声部から計算したHMM(8)の線形
スペクトル領域表現の平均値HMM(8)′を以下のよ
うに表わす。
【0022】
【外2】
【0023】ここで添字linは線形スペクトル表現を
示す。次に
【0024】
【外3】
【0025】式(1)に示す計算を行い、この結果を1
1の変換部で線形スペクトル表現からケプストラム表現
への変換を行う。これを
【0026】
【外4】 以下のように表わす。
【0027】この式(1)に示す引き算により入力音声
のCM(6)の推定誤りを低減できる。ここでK1は定
数である。また引数cepはケプストラム表現を表わ
す。
【0028】次に学習用音声データベースの一部のデー
タを用いてCM学習部1でCM(2)を計算する。
【0029】
【外5】
【0030】また同じく学習用音声データベースの一部
のデータを用いて音声認識用の音素や単語などを単位と
したHMM(4)をHMM学習部3で学習する。このH
MMのパラメータのうち平均値HMM(4)′を以下の
ように表わす。
【0031】HMM(4)′=y(t)cep
【0032】これが適応前の雑音や回線変動に対応しな
いHMMとなる。このHMM(4)′を用いても音声認
識は可能であるが、雑音や回線変動の影響を受けた場合
認識率が低下する。次に式(2)に示す計算を行う。
【0033】
【外6】
【0034】これによりHMM学習部3で求められたH
MM(4)のうち平均値が変換されてHMM(4)″が
求められたことになる。ここで出来たHMM(4)″は
雑音と回線変動のうち回線変動のみに対処したものとな
る。
【0035】次に12でこのHMM(4)″をケプスト
ラム表現から線形スペクトル表現に変換する。またPM
C13において10から得られた雑音HMM(8)′に
定数K2をかけ、この雑音HMM(8)′と回線変動の
みに対応したHMM(4)″をPMC法により混合し、
HMM(13)を求める。得られたHMM(13)を1
4でケプストラム表現に変換することにより、雑音およ
び回線変動に適応したHMM(14)が得られる。この
得られたHMM(14)を用いて音声認識部16におい
て一般的なHMMを用いた音声認識法により音声認識を
おこなう。
【0036】上述の実施の形態とは異なる実施の形態と
して、以下に適応モードと認識モードを別個に行わない
方法について説明する。図1の構成では、適応のための
音声入力と認識のための音声入力には別個に切替えてす
るようになっている。これに対し適応モードを設けない
構成も可能である。図2にこの構成を示す。認識対象語
彙が音声入力部103より入力されるとそのデータが音
声部と非音声部に分けられ18の環境適応部に渡させ
る。この環境適応部は図1で説明した構成5〜構成14
と同じものである。この環境適応部(8)により17に
記憶されている適応前のHMM(HMM(4)に相当)
が適応されて19の適応後のHMMが得られる(HMM
(14)に相当)。このHMMを用い20の音声認識部
で認識対象語彙が認識される。つまり先の例とは異な
り、1つの入力音声が適応と認識の両方で用いられるこ
とになる。
【0037】
【発明の効果】従来のCMSとPMCの組合せでは加算
性雑音が大きい場合、CMが正確に推定されず認識率が
低下するという問題があったが、本発明によれば雑音が
大きい場合でも、その雑音の影響を加味してCMが求め
られるため、回線変動の推定の精度が高まり、ひいては
認識性能の向上につながる。
【0038】また、入力音声を適応と認識の両方に用い
るようにすることにより適応と認識を同時に行うため、
ユーザーに適応のための発生を強いることなく環境適応
が行われる。
【図面の簡単な説明】
【図1】本発明の音声認識装置のブロック構成図。
【図2】他の音声認識装置のブロック構成図。
【図3】音声認識装置の構成図。
【図4】記憶部内のメモリマップ例。

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 音声部と非音声部とを含む音声を入力
    し、 前記入力音声に含まれる音声部から音声部のケプストラ
    ム長時間平均を求め、 前記入力音声に含まれる非音声部から非音声部のケプス
    トラム長時間平均を求め、 前記音声部のケプストラム長時間平均から前記非音声部
    のケプストラム長時間平均を線形スペクトル次元上で差
    し引くことを特徴とする音声認識方法。
  2. 【請求項2】 前記差し引いて求めたデータにより入力
    音声を認識することを特徴とする請求項1に記載の音声
    認識方法。
  3. 【請求項3】 前記ケプストラム長時間平均を隠れマル
    コフモデルのデータとすることを特徴とする請求項1に
    記載の音声認識方法。
  4. 【請求項4】 雑音データと音声データとを線形スペク
    トル次元で加算合成したデータを用いて雑音重畳モデル
    を作成し、 前記雑音重畳モデルを用いて前記非音声部のケプストラ
    ム長時間平均を求めることを特徴とする請求項1に記載
    の音声認識方法。
  5. 【請求項5】 前記各処理の制御プログラムを記憶した
    記憶部を利用し、当該制御プログラムに従って各処理を
    実行することを特徴とする請求項1に記載の音声認識方
    法。
  6. 【請求項6】 前記音声認識は、隠れマルコフモデルに
    よる音声認識とすることを特徴とする請求項2に記載の
    音声認識方法。
  7. 【請求項7】 前記認識結果を表示部に表示することを
    特徴とする請求項2に記載の音声認識方法。
  8. 【請求項8】 前記認識結果を印字部に印字することを
    特徴とする請求項2に記載の音声認識方法。
  9. 【請求項9】 前記各処理の制御プログラムを記憶した
    記憶媒体を利用し、当該制御プログラムに従って各処理
    を実行することを特徴とする請求項1に記載の音声認識
    方法。
  10. 【請求項10】 音声部と非音声部とを含む音声を入力
    する音声入力手段と、 前記入力音声に含まれる音声部から音声部のケプストラ
    ム長時間平均と、前記入力音声に含まれる非音声部から
    非音声部のケプストラム長時間平均を求めるケプストラ
    ム長時間平均導出手段と、 前記音声部のケプストラム長時間平均から前記非音声部
    のケプストラム長時間平均を線形スペクトル次元上で差
    し引く差し引き手段とを有することを特徴とする音声認
    識装置。
  11. 【請求項11】 前記差し引き手段により指し引いて求
    めたデータにより音声を認識する音声認識手段を有する
    ことを特徴とする請求項10に記載の音声認識装置。
  12. 【請求項12】 前記ケプストラム長時間平均を隠れマ
    ルコフモデルのデータとすることを特徴とする請求項1
    0に記載の音声認識装置。
  13. 【請求項13】 雑音データと音声データとを線形スペ
    クトル次元で加算合成したデータを用いて雑音重畳モデ
    ルを作成する雑音重畳モデル作成手段と、 前記ケプストラム長時間平均導出手段は前記雑音重畳モ
    デルを用いて前記非音声部のケプストラム長時間平均を
    求めることを特徴とする請求項10に記載の音声認識装
    置。
  14. 【請求項14】 前記各処理の制御プログラムを記憶し
    た記憶部を有し、当該制御プログラムに従って各処理を
    実行することを特徴とする請求項10に記載の音声認識
    装置。
  15. 【請求項15】 前記音声認識手段は、隠れマルコフモ
    デルによる音声認識を行うことを特徴とする請求項11
    に記載の音声認識装置。
  16. 【請求項16】 前記認識結果を表示する表示手段を有
    することを特徴とする請求項11に記載の音声認識装
    置。
  17. 【請求項17】 前記認識結果を印字する印字手段を有
    することを特徴とする請求項11に記載の音声認識装
    置。
  18. 【請求項18】 前記音声認識装置は前記各処理の制御
    プログラムを記憶した記憶媒体とすることを特徴とする
    請求項10に記載の音声認識装置。
JP06804696A 1996-03-25 1996-03-25 音声認識方法及び装置 Expired - Fee Related JP3397568B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP06804696A JP3397568B2 (ja) 1996-03-25 1996-03-25 音声認識方法及び装置
US08/821,719 US5924067A (en) 1996-03-25 1997-03-20 Speech recognition method and apparatus, a computer-readable storage medium, and a computer- readable program for obtaining the mean of the time of speech and non-speech portions of input speech in the cepstrum dimension
DE69715281T DE69715281T2 (de) 1996-03-25 1997-03-24 Verfahren und Vorrichtung zur Spracherkennung
EP97301980A EP0798695B1 (en) 1996-03-25 1997-03-24 Speech recognizing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06804696A JP3397568B2 (ja) 1996-03-25 1996-03-25 音声認識方法及び装置

Publications (2)

Publication Number Publication Date
JPH09258772A true JPH09258772A (ja) 1997-10-03
JP3397568B2 JP3397568B2 (ja) 2003-04-14

Family

ID=13362465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06804696A Expired - Fee Related JP3397568B2 (ja) 1996-03-25 1996-03-25 音声認識方法及び装置

Country Status (4)

Country Link
US (1) US5924067A (ja)
EP (1) EP0798695B1 (ja)
JP (1) JP3397568B2 (ja)
DE (1) DE69715281T2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156364A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
US7440891B1 (en) 1997-03-06 2008-10-21 Asahi Kasei Kabushiki Kaisha Speech processing method and apparatus for improving speech quality and speech recognition performance
JP2010282239A (ja) * 2010-09-29 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法、およびそのプログラム
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2022544065A (ja) * 2019-07-30 2022-10-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3902860B2 (ja) * 1998-03-09 2007-04-11 キヤノン株式会社 音声合成制御装置及びその制御方法、コンピュータ可読メモリ
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
AU2001294222A1 (en) 2000-10-11 2002-04-22 Canon Kabushiki Kaisha Information processing device, information processing method, and storage medium
JP2002268681A (ja) * 2001-03-08 2002-09-20 Canon Inc 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4899386A (en) * 1987-03-11 1990-02-06 Nec Corporation Device for deciding pole-zero parameters approximating spectrum of an input signal
JPH02239292A (ja) * 1989-03-13 1990-09-21 Canon Inc 音声合成装置
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
JPH03150599A (ja) * 1989-11-07 1991-06-26 Canon Inc 日本語音節の符号化方式
US5204906A (en) * 1990-02-13 1993-04-20 Matsushita Electric Industrial Co., Ltd. Voice signal processing device
KR950013551B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 잡음신호예측장치
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
JP3066920B2 (ja) * 1991-06-11 2000-07-17 キヤノン株式会社 音声認識方法及び装置
JPH05188994A (ja) * 1992-01-07 1993-07-30 Sony Corp 騒音抑圧装置
JPH0743598B2 (ja) * 1992-06-25 1995-05-15 株式会社エイ・ティ・アール視聴覚機構研究所 音声認識方法
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5598505A (en) * 1994-09-30 1997-01-28 Apple Computer, Inc. Cepstral correction vector quantizer for speech recognition
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7440891B1 (en) 1997-03-06 2008-10-21 Asahi Kasei Kabushiki Kaisha Speech processing method and apparatus for improving speech quality and speech recognition performance
JP2007156364A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP4728791B2 (ja) * 2005-12-08 2011-07-20 日本電信電話株式会社 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2010282239A (ja) * 2010-09-29 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法、およびそのプログラム
JP2022544065A (ja) * 2019-07-30 2022-10-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

Also Published As

Publication number Publication date
EP0798695A2 (en) 1997-10-01
EP0798695A3 (en) 1998-09-09
DE69715281D1 (de) 2002-10-17
DE69715281T2 (de) 2003-07-31
JP3397568B2 (ja) 2003-04-14
EP0798695B1 (en) 2002-09-11
US5924067A (en) 1999-07-13

Similar Documents

Publication Publication Date Title
EP0689194B1 (en) Method of and apparatus for signal recognition that compensates for mismatching
EP1262953B1 (en) Speaker adaptation for speech recognition
US7165028B2 (en) Method of speech recognition resistant to convolutive distortion and additive distortion
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
EP1195744B1 (en) Noise robust voice recognition
JP4943335B2 (ja) 話者に依存しない堅牢な音声認識システム
JPH08234788A (ja) 音声認識のバイアス等化方法および装置
EP1189205A2 (en) HMM-based noisy speech recognition
JPH08110793A (ja) 特性ベクトルの前端正規化による音声認識の改良方法及びシステム
SE505156C2 (sv) Förfarande för bullerundertryckning genom spektral subtraktion
JP3397568B2 (ja) 音声認識方法及び装置
JP5242782B2 (ja) 音声認識方法
JP2002311989A (ja) チャネル歪みおよび背景雑音の両方に対して補正した音声認識方法
JPH09160584A (ja) 音声適応化装置および音声認識装置
JPH09258771A (ja) 音声処理方法及び装置
US8423360B2 (en) Speech recognition apparatus, method and computer program product
JP3962445B2 (ja) 音声処理方法及び装置
JP3587966B2 (ja) 音声認識方法、装置そよびその記憶媒体
Hirsch HMM adaptation for applications in telecommunication
JP2000172291A (ja) 音声認識装置
Cerisara et al. α-Jacobian environmental adaptation
Chien et al. Estimation of channel bias for telephone speech recognition
JP2004309959A (ja) 音声認識装置および音声認識方法
EP1354312B1 (en) Method, device, terminal and system for the automatic recognition of distorted speech data
JP2015040931A (ja) 信号処理装置、音声処理装置、信号処理方法および音声処理方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030121

LAPS Cancellation because of no payment of annual fees