JPH1097278A - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JPH1097278A
JPH1097278A JP8250537A JP25053796A JPH1097278A JP H1097278 A JPH1097278 A JP H1097278A JP 8250537 A JP8250537 A JP 8250537A JP 25053796 A JP25053796 A JP 25053796A JP H1097278 A JPH1097278 A JP H1097278A
Authority
JP
Japan
Prior art keywords
noise
speech
model
power spectrum
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8250537A
Other languages
English (en)
Other versions
JP3250604B2 (ja
Inventor
Satoshi Takahashi
敏 高橋
Yoshikazu Yamaguchi
義和 山口
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP25053796A priority Critical patent/JP3250604B2/ja
Publication of JPH1097278A publication Critical patent/JPH1097278A/ja
Application granted granted Critical
Publication of JP3250604B2 publication Critical patent/JP3250604B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 雑音除去法とHMM合成法を併用することに
より高い認識性能で雑音重畳音声を適確かつ高速に認識
することができる音声認識方法および装置を提供する。 【解決手段】 雑音のない音声データをもとに音声単位
のHMMを作成してクリーン音声モデルとして記憶して
おき、雑音を減算した雑音重畳音声パワースペクトルか
ら音声特徴パラメータを音響パラメータ抽出部110で
抽出し、雑音パワースペクトルから平均雑音パワースペ
クトルを減算して、消し残りパワースペクトルを算出
し、雑音HMMを雑音モデル学習部114で学習し、こ
の学習した雑音HMMをクリーン音声モデルとモデル合
成部115で合成して合成モデルを作成し、この合成モ
デルを用いて音声特徴パラメータに対する各モデルの尤
度を計算し、尤度の最も大きなモデルを認識結果として
出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、確率モデルを用い
て各カテゴリの特徴量をモデル化しておき、入力特徴量
系列に対する各モデルの尤度を求めて入力データの認識
を行う音声認識方法および装置に関する。
【0002】
【従来の技術】従来の音声認識において、認識すべき音
声単位(音素、音節、単語など)を隠れマルコフモデル
(Hidden Markov Model ,以下HMMと記す)を用いて
モデル化しておく方法は、性能が高く、現在の主流にな
っている。このHMM法の詳細は例えば文献1(中川聖
一:確率モデルによる音声認識、電子情報通信学会)に
示されている。図5に従来のHMMを用いた音声認識装
置の構成例を示す。入力端子21から入力された音声
は、A/D変換部22においてディジタル信号に変換さ
れる。そのディジタル信号から音声特徴パラメータ抽出
部23において音声特徴パラメータを抽出する。予め、
認識しようとする音声単位(例えば音素、音節、単語)
ごとに作成したHMMをHMMメモリ24から読み出
し、モデル尤度計算部25において、入力音声に対する
各モデルの尤度を計算する。最も大きな尤度を示すモデ
ルが表現する音声単位を認識結果として認識結果出力部
26より出力する。
【0003】背景雑音などの加算性雑音が重畳した音声
の認識方法を2つ説明する。1つは入力音声に重畳した
雑音を除去した後に認識する方法である。雑音除去方法
はいろいろと考案されているが、ここでは、スペクトル
サブトラクション法(以下、SS法と記す)について説
明する(例えば、S.F.Boll: "Suppression of Acoustic
Noise in Speech Using Spectral Subtraction," IEEE
Transaction on Acousitcs,Speech and Signal Proces
sing,Vol.27,No.2,pp.113-120,1979)。時間領域で加算
性の2つの信号は、線形パワースペクトル上でも加算的
であることから、SS法では、雑音重畳音声から雑音成
分をパワースペクトル上で差し引き、音声成分を抽出す
る。
【0004】図6にスペクトルサブトラクションを用い
た音声認識装置の構成例を示す。A/D変換部32にお
いてディジタル信号に変換された入力信号は、雑音であ
るか雑音重畳音声であるかを雑音・音声判定部33で判
定される。雑音であるならば音声雑音スイッチ34を雑
音端子側36に接続し、雑音区間の平均パワースペクト
ルを計算する。認識対象である雑音重畳音声区間である
と判定された場合は、音声雑音スイッチ34を音声端子
側35に接続する。そして、スペクトルサブトラクショ
ン部39において、各時刻で計算された雑音重畳音声の
パワースペクトルから、平均雑音パワースペクトル計算
部37で計算された平均雑音パワースペクトルを差し引
く。時刻tのパワースペクトルの周波数帯域(チャンネ
ル)iの雑音除去後のパワースペクトルYD t,i は以下
のように計算される。
【0005】
【数1】 である。
【0006】スペクトルサブトラクション部39から出
力されるパワースペクトルから、次数の少ない音声特徴
パラメータ(例えば、16次ケプストラムなど)を音響
パラメータ抽出部310で計算する。これ以後の処理は
図5で説明した通りである。なお、パワースペクトルで
はなく振幅スペクトルを用いる場合もある。
【0007】次に、他方のHMMの合成による雑音重畳
音声の認識手法(例えば、F.Martin,他:Recognition
of Noizy Speech by Using the Composition of Hidden
Morkov Models,音響学会平成4年度秋季研究発表会講
演論文集 1-7-10,1992)について説明する。雑音重畳音
声に対しては、原理的には、認識対象音声に重畳する雑
音をすべての学習データに重畳し、HMMを作成し、こ
れを用いて認識すれば性能は向上する。しかし、一般に
HMMを作成するための学習データ量は膨大であり、モ
デル作成のための計算時間がかかる(例えば、100時
間)。そこで、雑音のない大量の音声データをもとに予
めクリーン音声HMMを作成しておく。認識時には背景
雑音を観測してHMMを作成し直し、クリーン音声HM
Mと合成する。得られた雑音重畳音声HMMは、認識時
の背景雑音を含む音声モデルの近似であり、これを用い
て認識する。雑音モデルの作成、モデルの合成にかかる
時間は例えば30秒程度である。確率モデルであるHM
Mを用いるので、音声の変動、雑音の変動を考慮するこ
とができる。
【0008】
【発明が解決しようとする課題】一般に、どのような優
れた雑音除去法を用いても、背景雑音が重畳した音声か
ら、音声のみを完全に抽出することは困難である。例え
ばSS法では、パワースペクトルの推定に統計的誤差が
必ず生じることや、雑音が時間的に変動する場合がある
ことなどから、雑音成分の引き残りが生じる。また、雑
音パワースペクトルの推定結果によっては、音声のパワ
ースペクトルを歪ませる場合もある。よって、SS法を
適用しても、十分に満足できる認識性能が得られないと
いう問題があった。
【0009】また、HMM合成では雑音成分を音声モデ
ルに重畳するため、SN比が悪くなるに従い、合成され
た雑音重畳音声モデルは雑音が過度に重畳した複雑なス
ペクトル形状を表現する必要が出てくる。このスペクト
ルを次数を打ち切ったケプストラム(例えば、16次)
で表現すると、打ち切り誤差が生じ、含まれる音素情報
も失われる。従って、SN比が悪くなるにつれ、認識性
能も徐々に悪くなるという問題があった。更に、確率モ
デルを用いて雑音を表現するため、雑音モデルの学習デ
ータ長が比較的長く(例えば、5秒程度)必要であり、
時間的に変動する雑音に瞬時に対処できないという問題
もあった。
【0010】本発明は、上記に鑑みてなされたもので、
その目的とするところは、雑音除去法とHMM合成法を
併用することにより高い認識性能で雑音重畳音声を適確
かつ高速に認識することができる音声認識方法および装
置を提供することにある。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、入力音声特徴ベクトル時
系列に対して各認識カテゴリの特徴を表現した確率モデ
ルの確率を計算し、最も高い確率を示すモデルが表現す
るカテゴリを認識結果として出力する音声認識方法にお
いて、背景雑音を観測し、観測された雑音に雑音除去法
を適用し、消し残った雑音データをもとに確率モデルを
作成し、雑音のない音声データをもとに予め作成してお
いた音声モデルと前記確率モデルとの合成を行い、雑音
が重畳した認識対象の音声に対して雑音除去法を適用
し、出力された信号を前記モデル合成で得られたモデル
を用いて認識することを要旨とする。
【0012】請求項1記載の本発明にあっては、観測さ
れた雑音に雑音除去法を適用し、消し残った雑音データ
をもとに確率モデルを作成し、雑音のない音声データを
もとに予め作成しておいた音声モデルと前記確率モデル
との合成を行い、雑音が重畳した認識対象の音声に対し
て雑音除去法を適用し、出力された信号を合成モデルを
用いて認識する。
【0013】また、請求項2記載の本発明は、請求項1
記載の発明において、前記雑音除去に際し、観測された
雑音の一部または全部を用いて平均スペクトルを計算
し、この平均スペクトルを観測された雑音または雑音重
畳音声のスペクトルから差し引くスペクトルサブトラク
ション法を用いることを要旨とする。
【0014】請求項2記載の本発明にあっては、雑音除
去に際し、雑音の平均スペクトルを計算し、この平均ス
ペクトルを雑音または雑音重畳音声のスペクトルから差
し引くスペクトルサブトラクション法を用いている。
【0015】更に、請求項3記載の本発明は、雑音のな
い音声データをもとに音声単位のHMMを作成してクリ
ーン音声モデルとして記憶するクリーン音声モデルメモ
リと、入力音声信号をディジタル信号に変換するA/D
変換手段と、該A/D変換手段で変換されたディジタル
信号が雑音である場合、雑音のパワースペクトルおよび
平均パワースペクトルを計算する雑音パワースペクトル
計算手段と、前記A/D変換手段で変換されたディジタ
ル信号が雑音重畳音声である場合、雑音重畳音声のパワ
ースペクトルを計算する雑音重畳音声パワースペクトル
計算手段と、この計算した雑音重畳音声パワースペクト
ルから前記平均雑音パワースペクトルを減算する減算手
段と、この雑音を減算された雑音重畳音声パワースペク
トルから音声特徴パラメータを計算する音声特徴パラメ
ータ抽出手段と、前記雑音パワースペクトルから前記平
均雑音パワースペクトルを減算し、消し残りパワースペ
クトルを算出し、雑音HMMを学習する雑音モデル学習
手段と、該雑音モデル学習手段で学習した雑音HMMを
前記クリーン音声モデルと合成し、合成モデルを作成す
るモデル合成手段と、該モデル合成手段で作成した合成
モデルを用いて前記音声特徴パラメータ抽出手段で抽出
された音声特徴パラメータに対する各モデルの尤度を計
算する尤度計算手段と、該尤度計算手段で計算された尤
度の最も大きなモデルを認識結果として出力する認識結
果出力手段とを有することを要旨とする。
【0016】請求項3記載の本発明にあっては、雑音の
ない音声データをもとに音声単位のHMMを作成してク
リーン音声モデルとして記憶しておき、雑音を減算した
雑音重畳音声パワースペクトルから音声特徴パラメータ
を計算するとともに、雑音パワースペクトルから平均雑
音パワースペクトルを減算して、消し残りパワースペク
トルを算出し、雑音HMMを学習し、この学習した雑音
HMMをクリーン音声モデルと合成して、合成モデルを
作成し、この合成モデルを用いて音声特徴パラメータに
対する各モデルの尤度を計算し、尤度の最も大きなモデ
ルを認識結果として出力する。
【0017】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。
【0018】図1は、本発明の一実施形態に係る音声認
識装置の構成を示すブロック図である。同図に示す音声
認識装置は、雑音除去法とHMM合成法を併用すること
を最も主要な特徴とするものであり、入力された雑音重
畳音声から雑音除去法によって雑音成分を取り除くと同
時に、観測した雑音に対しても同様に雑音除去法を適用
し、引き残り雑音を得る。そして、この引き残り雑音を
用いて雑音HMMを作成し、予め作成したクリーン音声
モデルと合成して、合成モデルを作成し、この合成モデ
ルを用いて引き残り雑音が重畳した音声を認識するもの
である。なお、雑音除去法の多くは、時間領域やスペク
トル領域で重畳した雑音を消去する。このとき雑音成分
の引き残りが生じる場合や雑音成分を引き過ぎて音声が
歪む場合がある。しかし、これらはすべて、加算性雑音
と考えることができる。従って、雑音除去法適用後に音
声に重畳している雑音成分はHMM合成で対処すること
ができる。雑音除去法適用後の雑音重畳音声は、SN比
が改善されている。従って、音響パラメータの次数が打
ち切られても、失われる音素情報は少ない。また、引き
残り雑音を確率モデルで表現するので、雑音の分散(変
動)を考慮することができる。
【0019】具体的に説明すると、図1に示すように、
本実施形態の音声認識装置は、信号入力端子11から入
力される音声信号をディジタル信号に変換するA/D変
換部12、該A/D変換部12で変換されたディジタル
信号が雑音であるか雑音重畳音声であるかを判定する雑
音音声判定部13、雑音であるか雑音重畳音声であるか
によってルートを切り替える音声雑音スイッチ14、入
力音声信号が雑音である場合、雑音区間の平均パワース
ペクトルを計算する平均雑音パワースペクトル計算部1
7、入力音声信号が雑音重畳音声である場合、雑音重畳
音声のパワースペクトルを計算する雑音重畳音声パワー
スペクトル計算部18、この計算した雑音重畳音声パワ
ースペクトルから前記平均雑音パワースペクトル計算部
17で計算した平均雑音パワースペクトルを減算するス
ペクトルサブトラクション部19、該スペクトルサブト
ラクション部19から出力されるパワースペクトルから
音声特徴パラメータを計算する音響パラメータ抽出部1
10、雑音区間の全部または一部の区間のフレームの雑
音パワースペクトルを計算し、この雑音パワースペクト
ルから前記平均雑音パワースペクトル計算部17で計算
した平均雑音パワースペクトルを減算するスペクトルサ
ブトラクション部113、消し残ったパワースペクトル
を特徴分析し、複数フレームの特徴パラメータを用いて
雑音HMMを学習する雑音モデル学習部114、雑音の
ない音声データを基に認識する音声単位のHMMを作成
し、クリーン音声HMMとして記憶するクリーン音声モ
デルメモリ116、雑音モデル学習部114からの雑音
HMMとクリーン音声モデルメモリ116からのクリー
ン音声HMMとを合成するモデル合成部115、該モデ
ル合成部115で合成された合成モデルを用いて、前記
音声特徴パラメータ抽出手段で抽出された音声特徴パラ
メータに対する各モデルの尤度を計算するモデル尤度計
算部111、該尤度計算部111で計算された尤度の最
も大きなモデルを認識結果として出力する認識結果出力
部112から構成されている。
【0020】以上のように構成される音声認識装置にお
いては、予め雑音のない音声データをもとに認識する音
声単位のHMMを作成し、クリーン音声モデルメモリ1
16に格納しておく。認識時には、はじめに背景雑音を
観測する。背景雑音の観測は、システムのアイドリング
時に行ってもよいし、発声直前の区間を利用してもよ
い。入力信号が背景雑音であるならば音声雑音スイッチ
14を雑音端子側16に接続し、平均雑音パワースペク
トル計算部17で雑音区間の平均パワースペクトルを計
算する。平均パワースペクトルの計算は観測した雑音の
全区間を用いても一部の区間を用いてもよい。次に、雑
音区間の全部、あるいは一部の区間のフレームの雑音パ
ワースペクトルを計算し、平均雑音パワースペクトルを
スペクトルサブトラクション部113で差し引く。この
ときの計算は、例えば式(1)に従う。消し残った雑音
をもとに雑音HMMを雑音モデル学習部114で作成
し、メモリ116からのクリーン音声HMMとモデル合
成部115で合成する。
【0021】一方、認識対象である雑音重畳音声が入力
された場合は、音声雑音スイッチ14を音声端子側15
に接続する。そして、スペクトルサブトラクション部1
9において、各時刻で計算された雑音重畳音声のパワー
スペクトルから、平均雑音パワースペクトル計算部17
で計算された平均雑音パワースペクトルを差し引く。消
し残り雑音の重畳した音声をモデル合成部115で得ら
れたモデルを用いて認識し、結果を認識結果出力部11
2から出力する。
【0022】次に、図2に示すフローチャートを参照し
て、図1に示す音声認識装置の作用を説明する。
【0023】本音声認識装置においては、音声モデルは
学習に時間がかかるので、上述したように、予め雑音の
ない大量の音声データをもとに認識する音声単位のHM
Mを作成し、クリーン音声モデルとして前記クリーン音
声モデルメモリ116に記憶しておく。
【0024】このような状態において、図2の処理で
は、雑音重畳音声のパワースペクトルを計算する(ステ
ップS11)。また、音声区間が開始したか否かを雑音
音声判定部13で判定する(ステップS12)。本実施
形態では、まず背景雑音を観測するので、雑音音声判定
部13を雑音端子側16に切り替え、入力信号が背景雑
音であると判定されたフレームを複数個集めて、平均雑
音パワースペクトル計算部17において雑音パワースペ
クトルを平均し、平均雑音パワースペクトルを計算する
(ステップS13)。なお、平均パワースペクトルの計
算に用いるフレーム数は多い方が結果がよいが、処理時
間の都合上、観測した雑音の一部の区間を用いてもよ
い。雑音の種類にもよるが、最低300ms程度の時間
長の雑音から平均を求めてもよい。
【0025】次に、入力信号が雑音重畳音声であると雑
音音声判定部13で判定された各フレーム区間について
はそのパワースペクトルから前記平均雑音パワースペク
トルを減算する(ステップS14)。この時、パワース
ペクトルの各周波数帯域(チャンネル)について、例え
ば式(1)で示した演算を行う。この式は各周波数帯域
で入力スペクトルに応じたフロアリング値を設けること
を意味している。
【0026】上述したように、雑音を引かれた雑音重畳
音声パワースペクトルは、音響パラメータ抽出部110
で特徴量を分析されて音響パラメータが抽出され(ステ
ップS16−S19)、認識モデルの入力としてモデル
尤度計算部111に入力される。
【0027】一方、背景雑音であると判別された各フレ
ームについて上述したようにステップS15において平
均雑音パワースペクトルを減算されて得られた消し残り
雑音パワースペクトルは特徴分析され、複数個のフレー
ムの特徴パラメータを用いて雑音モデル学習部114で
雑音HMMを学習する(ステップS20)。この学習し
た雑音HMMは上述したように予め作成されクリーン音
声モデルメモリ116に記憶されているクリーン音声モ
デルとモデル合成部115でモデル合成される(ステッ
プS21)。このモデル合成によって変更すべきパラメ
ータは、従来のモデル合成法(例えば、F.Martin,他:
Recognition of Noisy Speech by Usingthe Compositio
n of Hidden Morkov Models,音響学会平成4年度秋季
研究発表会講演論文集 1-7-10,1992)で行われているよ
うに、HMMの各状態に存在する正規分布の平均値ベク
トルまたは共分散行列またはその両方である。HMMの
共分散行列は対角分散行列にした方が計算量的にも性能
的にもよいという結果がこれまでに得られている。
【0028】次に、モデル尤度計算部111では、上述
したステップS21において合成したモデルを認識モデ
ルとして使用し、モデルの尤度を計算する(ステップS
22)。この計算した尤度が最も大きなモデルを認識結
果として認識結果出力部112から出力する(ステップ
S23)。
【0029】次に、本実施形態に基づく雑音下音声認識
実験例について述べ、本実施形態の効果を明らかにす
る。音響モデルは、HMnet型412状態4混合分布
モデルを用いた。学習には5240単語セットと216
単語セットの男女性20名分、および連続音声データベ
ース9,600文章を使用した。特徴パラメータは16
次LPCケプストラム、Δケプストラム、Δパワーであ
る。サンプリング周波数は12kHz、SLP分析によ
り100Hzから6kHzに帯域制限した。評価音声デ
ータは男女各2名が発声した100都市名単語である。
これに、電子協雑音データベースから“自動車走行雑
音”、“人混み雑音”、“展示ホール雑音”を計算機上
で重畳した。認識語彙数は100都市名に300地名を
加え400単語とした。HMM合成のための雑音モデル
は、各認識対象単語の発声直前の区間から雑音を切り出
して作成した。雑音HMMの構成は1状態1分布であ
る。SSのための平均雑音スペクトルは160msec
の雑音区間から計算した。平均雑音スペクトルを引く場
合、認識対象の雑音重畳音声に対してはα=2.5,β
=0.3とし、学習用雑音に対してはα=1.5,β=
0.1とした。
【0030】図3に雑音の種類とSN比を変えたとき
の、各手法の認識率を示す。雑音重畳音声をクリーン音
声HMMで認識した場合、HMM合成モデルで認識した
場合、SSを適用した雑音重畳音声をクリーン音声HM
Mで認識した場合と本発明による手法で認識した場合に
ついて調べた。「SS法+HMM合成法」と示した結果
が本発明による方法の結果である。本発明による手法の
性能が最もよいことが確認された。
【0031】また、雑音モデルを学習するための雑音デ
ータ長を変えたときの認識率も調べた。展示ホール雑音
の10dBについて、雑音学習データ長を200msか
ら5secまで変えて調べた。結果を図4に示す。「S
S法+HMM合成法」と示した結果が本発明による方法
の結果である。従来法であるHMM合成法は学習雑音デ
ータ長を1secよりも短くすると急激に性能が劣化す
るのに対し、本発明による手法では200msでも劣化
が少ないことがわかる。効果としては、雑音学習データ
長が短くてすむので、時々刻々と変化する雑音に追従す
ることが可能となる。本実施形態ではSS法を用いるこ
とで、雑音スペクトルの分散を小さくできることがこの
効果をもたらしたと考えられる。
【0032】上記実施形態ではパワースペクトルを用い
たが振幅スペクトルでもよい。
【0033】なお、上記実施形態は雑音除去法にスペク
トルサブトラクション法を用いた例について述べたが、
本発明はこれに限定されるものではなく、MMSE法、
HMMを用いた雑音除去法、VQを用いた雑音除去法な
ど広範囲の雑音除去法とともに利用できる。すなわち、
音声に重畳した雑音を完全に消し去ることができない場
合のすべてにおいて、適応可能である。
【0034】
【発明の効果】以上説明したように、本発明によれば、
雑音除去法とHMM合成法を併用するので、認識対象の
雑音重畳音声のSN比を改善することができ、更に、消
し残った雑音をHMMで表現し、クリーン音声HMMと
モデル合成することで、消し残り雑音や音声の分散を考
慮した確率理論に基づくパターンマッチングが可能とな
る。よって、従来法に比べ、高い認識性能が得られる。
また、雑音除去法により、音声に重畳する雑音成分の分
散が小さくなるので、雑音HMMの学習に必要なデータ
量を少なくすることができ、よって、変動する雑音に追
従できる高速なモデル適応が可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声認識装置の構成
を示すブロック図である。
【図2】図1に示す音声認識装置の作用を示すフローチ
ャートである。
【図3】図1に示す音声認識装置の効果を示すグラフで
ある。
【図4】図1に示す音声認識装置の効果を示すグラフで
ある。
【図5】従来のHMMを用いた音声認識装置の構成を示
すブロック図である。
【図6】スペクトルサブトラクションを用いた従来の音
声認識装置の構成を示すブロック図である。
【符号の説明】
12 A/D変換部 13 雑音音声判定部 14 音声雑音スイッチ 17 平均雑音パワースペクトル計算部 18 雑音重畳音声パワースペクトル計算部 19,113 スペクトルサブトラクション部 110 音響パラメータ抽出部 111 モデル尤度計算部 112 認識結果出力部 114 雑音モデル学習部 115 モデル合成部 116 クリーン音声モデルメモリ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力音声特徴ベクトル時系列に対して各
    認識カテゴリの特徴を表現した確率モデルの確率を計算
    し、最も高い確率を示すモデルが表現するカテゴリを認
    識結果として出力する音声認識方法において、 背景雑音を観測し、観測された雑音に雑音除去法を適用
    し、消し残った雑音データをもとに確率モデルを作成
    し、雑音のない音声データをもとに予め作成しておいた
    音声モデルと前記確率モデルとの合成を行い、雑音が重
    畳した認識対象の音声に対して雑音除去法を適用し、出
    力された信号を前記モデル合成で得られたモデルを用い
    て認識することを特徴とする音声認識方法。
  2. 【請求項2】 前記雑音除去に際し、観測された雑音の
    一部または全部を用いて平均スペクトルを計算し、この
    平均スペクトルを観測された雑音または雑音重畳音声の
    スペクトルから差し引くスペクトルサブトラクション法
    を用いることを特徴とする請求項1記載の音声認識方
    法。
  3. 【請求項3】 雑音のない音声データをもとに音声単位
    のHMMを作成してクリーン音声モデルとして記憶する
    クリーン音声モデルメモリと、 入力音声信号をディジタル信号に変換するA/D変換手
    段と、 該A/D変換手段で変換されたディジタル信号が雑音で
    ある場合、雑音のパワースペクトルおよび平均パワース
    ペクトルを計算する雑音パワースペクトル計算手段と、 前記A/D変換手段で変換されたディジタル信号が雑音
    重畳音声である場合、雑音重畳音声のパワースペクトル
    を計算する雑音重畳音声パワースペクトル計算手段と、 この計算した雑音重畳音声パワースペクトルから前記平
    均雑音パワースペクトルを減算する減算手段と、 この雑音を減算された雑音重畳音声パワースペクトルか
    ら音声特徴パラメータを計算する音声特徴パラメータ抽
    出手段と、 前記雑音パワースペクトルから前記平均雑音パワースペ
    クトルを減算し、消し残りパワースペクトルを算出し、
    雑音HMMを学習する雑音モデル学習手段と、 該雑音モデル学習手段で学習した雑音HMMを前記クリ
    ーン音声モデルと合成し、合成モデルを作成するモデル
    合成手段と、 該モデル合成手段で作成した合成モデルを用いて前記音
    声特徴パラメータ抽出手段で抽出された音声特徴パラメ
    ータに対する各モデルの尤度を計算する尤度計算手段
    と、 該尤度計算手段で計算された尤度の最も大きなモデルを
    認識結果として出力する認識結果出力手段とを有するこ
    とを特徴とする音声認識装置。
JP25053796A 1996-09-20 1996-09-20 音声認識方法および装置 Expired - Lifetime JP3250604B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25053796A JP3250604B2 (ja) 1996-09-20 1996-09-20 音声認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25053796A JP3250604B2 (ja) 1996-09-20 1996-09-20 音声認識方法および装置

Publications (2)

Publication Number Publication Date
JPH1097278A true JPH1097278A (ja) 1998-04-14
JP3250604B2 JP3250604B2 (ja) 2002-01-28

Family

ID=17209386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25053796A Expired - Lifetime JP3250604B2 (ja) 1996-09-20 1996-09-20 音声認識方法および装置

Country Status (1)

Country Link
JP (1) JP3250604B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003504653A (ja) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズのある音声モデルからのロバスト音声処理
WO2006082636A1 (ja) * 2005-02-02 2006-08-10 Fujitsu Limited 信号処理方法および信号処理装置
JP2009145499A (ja) * 2007-12-12 2009-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
CN110797033A (zh) * 2019-09-19 2020-02-14 平安科技(深圳)有限公司 基于人工智能的声音识别方法、及其相关设备
JPWO2021074973A1 (ja) * 2019-10-15 2021-04-22

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003504653A (ja) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズのある音声モデルからのロバスト音声処理
JP4818556B2 (ja) * 1999-07-01 2011-11-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 確率論的ロバスト音声処理
WO2006082636A1 (ja) * 2005-02-02 2006-08-10 Fujitsu Limited 信号処理方法および信号処理装置
JP2009145499A (ja) * 2007-12-12 2009-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
CN110797033A (zh) * 2019-09-19 2020-02-14 平安科技(深圳)有限公司 基于人工智能的声音识别方法、及其相关设备
JPWO2021074973A1 (ja) * 2019-10-15 2021-04-22
WO2021074973A1 (ja) * 2019-10-15 2021-04-22 日本電気株式会社 モデル生成方法、モデル生成装置、プログラム

Also Published As

Publication number Publication date
JP3250604B2 (ja) 2002-01-28

Similar Documents

Publication Publication Date Title
US8438026B2 (en) Method and system for generating training data for an automatic speech recognizer
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
Kumar et al. Spoken language identification using hybrid feature extraction methods
US20070192100A1 (en) Method and system for the quick conversion of a voice signal
JPH075892A (ja) 音声認識方法
JPH0612089A (ja) 音声認識方法
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
JP2020160319A (ja) 音声合成装置、方法及びプログラム
JP3250604B2 (ja) 音声認識方法および装置
JP3587966B2 (ja) 音声認識方法、装置そよびその記憶媒体
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP3999731B2 (ja) 信号ソースを分離するための方法及び装置
Miguel et al. Augmented state space acoustic decoding for modeling local variability in speech.
JPH10133688A (ja) 音声認識装置
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
Maged et al. Improving speaker identification system using discrete wavelet transform and AWGN
Koc Acoustic feature analysis for robust speech recognition
JP2000075888A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP4173978B2 (ja) 雑音除去装置、及び、音声認識装置、並びに音声通信装置
Zaw et al. Speaker identification using power spectral subtraction method
Sasou et al. Glottal excitation modeling using HMM with application to robust analysis of speech signal.
JP2001083978A (ja) 音声認識装置
Orphanidou et al. Voice morphing using the generative topographic mapping

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071116

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131116

Year of fee payment: 12

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term