JP3250604B2 - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JP3250604B2
JP3250604B2 JP25053796A JP25053796A JP3250604B2 JP 3250604 B2 JP3250604 B2 JP 3250604B2 JP 25053796 A JP25053796 A JP 25053796A JP 25053796 A JP25053796 A JP 25053796A JP 3250604 B2 JP3250604 B2 JP 3250604B2
Authority
JP
Japan
Prior art keywords
noise
model
power spectrum
speech
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP25053796A
Other languages
English (en)
Other versions
JPH1097278A (ja
Inventor
敏 高橋
義和 山口
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP25053796A priority Critical patent/JP3250604B2/ja
Publication of JPH1097278A publication Critical patent/JPH1097278A/ja
Application granted granted Critical
Publication of JP3250604B2 publication Critical patent/JP3250604B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、確率モデルを用い
て各カテゴリの特徴量をモデル化しておき、入力特徴量
系列に対する各モデルの尤度を求めて入力データの認識
を行う音声認識方法および装置に関する。
【0002】
【従来の技術】従来の音声認識において、認識すべき音
声単位(音素、音節、単語など)を隠れマルコフモデル
(Hidden Markov Model ,以下HMMと記す)を用いて
モデル化しておく方法は、性能が高く、現在の主流にな
っている。このHMM法の詳細は例えば文献1(中川聖
一:確率モデルによる音声認識、電子情報通信学会)に
示されている。図5に従来のHMMを用いた音声認識装
置の構成例を示す。入力端子21から入力された音声
は、A/D変換部22においてディジタル信号に変換さ
れる。そのディジタル信号から音声特徴パラメータ抽出
部23において音声特徴パラメータを抽出する。予め、
認識しようとする音声単位(例えば音素、音節、単語)
ごとに作成したHMMをHMMメモリ24から読み出
し、モデル尤度計算部25において、入力音声に対する
各モデルの尤度を計算する。最も大きな尤度を示すモデ
ルが表現する音声単位を認識結果として認識結果出力部
26より出力する。
【0003】背景雑音などの加算性雑音が重畳した音声
の認識方法を2つ説明する。1つは入力音声に重畳した
雑音を除去した後に認識する方法である。雑音除去方法
はいろいろと考案されているが、ここでは、スペクトル
サブトラクション法(以下、SS法と記す)について説
明する(例えば、S.F.Boll: "Suppression of Acoustic
Noise in Speech Using Spectral Subtraction," IEEE
Transaction on Acousitcs,Speech and Signal Proces
sing,Vol.27,No.2,pp.113-120,1979)。時間領域で加算
性の2つの信号は、線形パワースペクトル上でも加算的
であることから、SS法では、雑音重畳音声から雑音成
分をパワースペクトル上で差し引き、音声成分を抽出す
る。
【0004】図6にスペクトルサブトラクションを用い
た音声認識装置の構成例を示す。A/D変換部32にお
いてディジタル信号に変換された入力信号は、雑音であ
るか雑音重畳音声であるかを雑音・音声判定部33で判
定される。雑音であるならば音声雑音スイッチ34を雑
音端子側36に接続し、雑音区間の平均パワースペクト
ルを計算する。認識対象である雑音重畳音声区間である
と判定された場合は、音声雑音スイッチ34を音声端子
側35に接続する。そして、スペクトルサブトラクショ
ン部39において、各時刻で計算された雑音重畳音声の
パワースペクトルから、平均雑音パワースペクトル計算
部37で計算された平均雑音パワースペクトルを差し引
く。時刻tのパワースペクトルの周波数帯域(チャンネ
ル)iの雑音除去後のパワースペクトルYD t,i は以下
のように計算される。
【0005】
【数1】 である。
【0006】スペクトルサブトラクション部39から出
力されるパワースペクトルから、次数の少ない音声特徴
パラメータ(例えば、16次ケプストラムなど)を音響
パラメータ抽出部310で計算する。これ以後の処理は
図5で説明した通りである。なお、パワースペクトルで
はなく振幅スペクトルを用いる場合もある。
【0007】次に、他方のHMMの合成による雑音重畳
音声の認識手法(例えば、F.Martin,他:Recognition
of Noizy Speech by Using the Composition of Hidden
Morkov Models,音響学会平成4年度秋季研究発表会講
演論文集 1-7-10,1992)について説明する。雑音重畳音
声に対しては、原理的には、認識対象音声に重畳する雑
音をすべての学習データに重畳し、HMMを作成し、こ
れを用いて認識すれば性能は向上する。しかし、一般に
HMMを作成するための学習データ量は膨大であり、モ
デル作成のための計算時間がかかる(例えば、100時
間)。そこで、雑音のない大量の音声データをもとに予
めクリーン音声HMMを作成しておく。認識時には背景
雑音を観測してHMMを作成し直し、クリーン音声HM
Mと合成する。得られた雑音重畳音声HMMは、認識時
の背景雑音を含む音声モデルの近似であり、これを用い
て認識する。雑音モデルの作成、モデルの合成にかかる
時間は例えば30秒程度である。確率モデルであるHM
Mを用いるので、音声の変動、雑音の変動を考慮するこ
とができる。
【0008】
【発明が解決しようとする課題】一般に、どのような優
れた雑音除去法を用いても、背景雑音が重畳した音声か
ら、音声のみを完全に抽出することは困難である。例え
ばSS法では、パワースペクトルの推定に統計的誤差が
必ず生じることや、雑音が時間的に変動する場合がある
ことなどから、雑音成分の引き残りが生じる。また、雑
音パワースペクトルの推定結果によっては、音声のパワ
ースペクトルを歪ませる場合もある。よって、SS法を
適用しても、十分に満足できる認識性能が得られないと
いう問題があった。
【0009】また、HMM合成では雑音成分を音声モデ
ルに重畳するため、SN比が悪くなるに従い、合成され
た雑音重畳音声モデルは雑音が過度に重畳した複雑なス
ペクトル形状を表現する必要が出てくる。このスペクト
ルを次数を打ち切ったケプストラム(例えば、16次)
で表現すると、打ち切り誤差が生じ、含まれる音素情報
も失われる。従って、SN比が悪くなるにつれ、認識性
能も徐々に悪くなるという問題があった。更に、確率モ
デルを用いて雑音を表現するため、雑音モデルの学習デ
ータ長が比較的長く(例えば、5秒程度)必要であり、
時間的に変動する雑音に瞬時に対処できないという問題
もあった。
【0010】本発明は、上記に鑑みてなされたもので、
その目的とするところは、雑音除去法とHMM合成法を
併用することにより高い認識性能で雑音重畳音声を適確
かつ高速に認識することができる音声認識方法および装
置を提供することにある。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、入力音声特徴ベクトル時
系列に対して各認識カテゴリの特徴を表現した確率モデ
ルの確率を計算し、最も高い確率を示すモデルが表現す
るカテゴリを認識結果として出力する音声認識方法にお
いて、入力された信号に対して、雑音であるか雑音重畳
音声であるかを判定し、判定結果が雑音である場合、こ
の雑音に対して雑音パワースペクトルを計算した後、雑
音区間の平均雑音パワースペクトルを計算し、さらに雑
音パワースペクトルから前記平均雑音パワースペクトル
を差し引き、消し残ったパワースペクトルから得られた
特徴パラメータを用いて雑音モデルを作成し、雑音のな
い音声データをもとに予め作成しておいた音声モデルと
前記雑音モデルとの合成を行って合成モデルを作成し、
入力された信号の判定結果が雑音重畳音声である場合、
この雑音重畳音声のパワースペクトルから前記平均雑音
パワースペクトルを差し引き、得られたパワースペクト
ルから特徴パラメータを計算し、前記合成モデルを用い
て認識することを要旨とする。
【0012】請求項1記載の本発明にあっては、入力さ
れた信号に対して、雑音であるか雑音重畳音声であるか
を判定し、雑音である場合に、この雑音に対して雑音区
間の平均雑音パワースペクトルを計算し、該雑音から前
記平均雑音パワースペクトルを差し引き、消し残ったパ
ワースペクトルから雑音モデルを作成し、この雑音モデ
ルと予め作成しておいた音声モデルとの合成を行って合
成モデルを作成する一方、前記判定結果が雑音重畳音声
である場合に、この雑音重畳音声のパワースペクトルか
ら前記平均雑音パワースペクトルを差し引き、得られた
パワースペクトルから特徴パラメータを計算し、前記合
成モデルをいわば辞書として用いて認識する。
【0013】
【0014】
【0015】更に、請求項2記載の本発明は、入力音声
特徴ベクトル時系列に対して各認識カテゴリの特徴を表
現した確率モデルの確率を計算し、最も高い確率を示す
モデルが表現するカテゴリを認識結果として出力する音
声認識装置において、入力された信号に対して、雑音で
あるか雑音重畳音声であるかを判定する雑音音声判定手
段と、この雑音音声判定手段による判定結果が雑音であ
る場合、この雑音に対して雑音パワースペクトルを計算
した後、雑音区間の平均雑音パワースペクトルを計算す
る平均雑音パワースペクトル計算手段と、雑音パワース
ペクトルから前記平均雑音パワースペクトルを差し引
き、消し残ったパワースペクトルから得られた特徴パラ
メータを用いて雑音モデルを作成する雑音モデル作成手
段と、雑音のない音声データをもとに予め作成しておい
た音声モデルと前記雑音モデルとの合成を行うモデル合
成手段と、前記雑音音声判定手段による判定結果が雑音
重畳音声である場合、雑音重畳音声のパワースペクトル
から前記平均雑音パワースペクトルを差し引き、得られ
たパワースペクトルから特徴パラメータを計算する特徴
パラメータ計算手段と、この特徴パラメータ計算手段に
よって得られた特徴パラメータと、前記合成モデルを用
いて認識する認識手段とを有することを要旨とする。
【0016】請求項2記載の本発明にあっては、雑音音
声判定手段により雑音であると判定された場合には、平
均雑音パワースペクトル計算手段において、この雑音に
対し雑音区間の平均雑音パワースペクトルが計算され
る。また雑音音声判定手段により雑音重畳音声であると
判定された場合には、雑音重畳音声パワースペクトル計
算手段において、雑音重畳音声のパワースペクトルが計
算される。次にこれら雑音重畳音声パワースペクトルか
ら平均雑音パワースペクトルを差し引き、消し残ったパ
ワースペクトルから得られた雑音の特徴パラメータを用
いて雑音モデルを作成する。モデル合成手段では、雑音
のない音声データをもとに予め作成しておいた音声モデ
ルと前記雑音モデルとから合成モデルを合成し、認識す
る。具体的には、雑音のない音声データをもとに音声単
位のHMMを作成してクリーン音声モデルとして記憶し
ておき、判定手段により入力音声信号が雑音であるか雑
音重畳音声であるかを判定し、入力音声信号が雑音であ
る場合、雑音のパワースペクトルおよび平均パワースペ
クトルを計算し、雑音重畳音声である場合、雑音重畳音
声のパワースペクトルを計算し、雑音を減算した雑音重
畳音声パワースペクトルから音声特徴パラメータを計算
するとともに、雑音パワースペクトルから平均雑音パワ
ースペクトルを減算して、消し残りパワースペクトルを
算出し、雑音HMMを学習し、この学習した雑音HMM
をクリーン音声モデルと合成して、合成モデルを作成
し、この合成モデルを用いて音声特徴パラメータに対す
る各モデルの尤度を計算し、尤度の最も大きなモデルを
認識結果として出力する。
【0017】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。
【0018】図1は、本発明の一実施形態に係る音声認
識装置の構成を示すブロック図である。同図に示す音声
認識装置は、雑音除去法とHMM合成法を併用すること
を最も主要な特徴とするものであり、入力された雑音重
畳音声から雑音除去法によって雑音成分を取り除くと同
時に、観測した雑音に対しても同様に雑音除去法を適用
し、引き残り雑音を得る。そして、この引き残り雑音を
用いて雑音HMMを作成し、予め作成したクリーン音声
モデルと合成して、合成モデルを作成し、この合成モデ
ルを用いて引き残り雑音が重畳した音声を認識するもの
である。なお、雑音除去法の多くは、時間領域やスペク
トル領域で重畳した雑音を消去する。このとき雑音成分
の引き残りが生じる場合や雑音成分を引き過ぎて音声が
歪む場合がある。しかし、これらはすべて、加算性雑音
と考えることができる。従って、雑音除去法適用後に音
声に重畳している雑音成分はHMM合成で対処すること
ができる。雑音除去法適用後の雑音重畳音声は、SN比
が改善されている。従って、音響パラメータの次数が打
ち切られても、失われる音素情報は少ない。また、引き
残り雑音を確率モデルで表現するので、雑音の分散(変
動)を考慮することができる。
【0019】具体的に説明すると、図1に示すように、
本実施形態の音声認識装置は、信号入力端子11から入
力される音声信号をディジタル信号に変換するA/D変
換部12、該A/D変換部12で変換されたディジタル
信号が雑音であるか雑音重畳音声であるかを判定する雑
音音声判定部13、雑音であるか雑音重畳音声であるか
によってルートを切り替える音声雑音スイッチ14、入
力音声信号が雑音である場合、雑音区間の平均パワース
ペクトルを計算する平均雑音パワースペクトル計算部1
7、入力音声信号が雑音重畳音声である場合、雑音重畳
音声のパワースペクトルを計算する雑音重畳音声パワー
スペクトル計算部18、この計算した雑音重畳音声パワ
ースペクトルから前記平均雑音パワースペクトル計算部
17で計算した平均雑音パワースペクトルを減算するス
ペクトルサブトラクション部19、該スペクトルサブト
ラクション部19から出力されるパワースペクトルから
音声特徴パラメータを計算する音響パラメータ抽出部1
10、雑音区間の全部または一部の区間のフレームの雑
音パワースペクトルを計算し、この雑音パワースペクト
ルから前記平均雑音パワースペクトル計算部17で計算
した平均雑音パワースペクトルを減算するスペクトルサ
ブトラクション部113、消し残ったパワースペクトル
を特徴分析し、複数フレームの特徴パラメータを用いて
雑音HMMを学習する雑音モデル学習部114、雑音の
ない音声データを基に認識する音声単位のHMMを作成
し、クリーン音声HMMとして記憶するクリーン音声モ
デルメモリ116、雑音モデル学習部114からの雑音
HMMとクリーン音声モデルメモリ116からのクリー
ン音声HMMとを合成するモデル合成部115、該モデ
ル合成部115で合成された合成モデルを用いて、前記
音声特徴パラメータ抽出手段で抽出された音声特徴パラ
メータに対する各モデルの尤度を計算するモデル尤度計
算部111、該尤度計算部111で計算された尤度の最
も大きなモデルを認識結果として出力する認識結果出力
部112から構成されている。
【0020】以上のように構成される音声認識装置にお
いては、予め雑音のない音声データをもとに認識する音
声単位のHMMを作成し、クリーン音声モデルメモリ1
16に格納しておく。認識時には、はじめに背景雑音を
観測する。背景雑音の観測は、システムのアイドリング
時に行ってもよいし、発声直前の区間を利用してもよ
い。入力信号が背景雑音であるならば音声雑音スイッチ
14を雑音端子側16に接続し、平均雑音パワースペク
トル計算部17で雑音区間の平均パワースペクトルを計
算する。平均パワースペクトルの計算は観測した雑音の
全区間を用いても一部の区間を用いてもよい。次に、雑
音区間の全部、あるいは一部の区間のフレームの雑音パ
ワースペクトルを計算し、平均雑音パワースペクトルを
スペクトルサブトラクション部113で差し引く。この
ときの計算は、例えば式(1)に従う。消し残った雑音
をもとに雑音HMMを雑音モデル学習部114で作成
し、メモリ116からのクリーン音声HMMとモデル合
成部115で合成する。
【0021】一方、認識対象である雑音重畳音声が入力
された場合は、音声雑音スイッチ14を音声端子側15
に接続する。そして、スペクトルサブトラクション部1
9において、各時刻で計算された雑音重畳音声のパワー
スペクトルから、平均雑音パワースペクトル計算部17
で計算された平均雑音パワースペクトルを差し引く。消
し残り雑音の重畳した音声をモデル合成部115で得ら
れたモデルを用いて認識し、結果を認識結果出力部11
2から出力する。
【0022】次に、図2に示すフローチャートを参照し
て、図1に示す音声認識装置の作用を説明する。
【0023】本音声認識装置においては、音声モデルは
学習に時間がかかるので、上述したように、予め雑音の
ない大量の音声データをもとに認識する音声単位のHM
Mを作成し、クリーン音声モデルとして前記クリーン音
声モデルメモリ116に記憶しておく。
【0024】このような状態において、図2の処理で
は、雑音重畳音声のパワースペクトルを計算する(ステ
ップS11)。また、音声区間が開始したか否かを雑音
音声判定部13で判定する(ステップS12)。本実施
形態では、まず背景雑音を観測するので、雑音音声判定
部13を雑音端子側16に切り替え、入力信号が背景雑
音であると判定されたフレームを複数個集めて、平均雑
音パワースペクトル計算部17において雑音パワースペ
クトルを平均し、平均雑音パワースペクトルを計算する
(ステップS13)。なお、平均パワースペクトルの計
算に用いるフレーム数は多い方が結果がよいが、処理時
間の都合上、観測した雑音の一部の区間を用いてもよ
い。雑音の種類にもよるが、最低300ms程度の時間
長の雑音から平均を求めてもよい。
【0025】次に、入力信号が雑音重畳音声であると雑
音音声判定部13で判定された各フレーム区間について
はそのパワースペクトルから前記平均雑音パワースペク
トルを減算する(ステップS14)。この時、パワース
ペクトルの各周波数帯域(チャンネル)について、例え
ば式(1)で示した演算を行う。この式は各周波数帯域
で入力スペクトルに応じたフロアリング値を設けること
を意味している。
【0026】上述したように、雑音を引かれた雑音重畳
音声パワースペクトルは、音響パラメータ抽出部110
で特徴量を分析されて音響パラメータが抽出され(ステ
ップS16−S19)、認識モデルの入力としてモデル
尤度計算部111に入力される。
【0027】一方、背景雑音であると判別された各フレ
ームについて上述したようにステップS15において平
均雑音パワースペクトルを減算されて得られた消し残り
雑音パワースペクトルは特徴分析され、複数個のフレー
ムの特徴パラメータを用いて雑音モデル学習部114で
雑音HMMを学習する(ステップS20)。この学習し
た雑音HMMは上述したように予め作成されクリーン音
声モデルメモリ116に記憶されているクリーン音声モ
デルとモデル合成部115でモデル合成される(ステッ
プS21)。このモデル合成によって変更すべきパラメ
ータは、従来のモデル合成法(例えば、F.Martin,他:
Recognition of Noisy Speech by Usingthe Compositio
n of Hidden Morkov Models,音響学会平成4年度秋季
研究発表会講演論文集 1-7-10,1992)で行われているよ
うに、HMMの各状態に存在する正規分布の平均値ベク
トルまたは共分散行列またはその両方である。HMMの
共分散行列は対角分散行列にした方が計算量的にも性能
的にもよいという結果がこれまでに得られている。
【0028】次に、モデル尤度計算部111では、上述
したステップS21において合成したモデルを認識モデ
ルとして使用し、モデルの尤度を計算する(ステップS
22)。この計算した尤度が最も大きなモデルを認識結
果として認識結果出力部112から出力する(ステップ
S23)。
【0029】次に、本実施形態に基づく雑音下音声認識
実験例について述べ、本実施形態の効果を明らかにす
る。音響モデルは、HMnet型412状態4混合分布
モデルを用いた。学習には5240単語セットと216
単語セットの男女性20名分、および連続音声データベ
ース9,600文章を使用した。特徴パラメータは16
次LPCケプストラム、Δケプストラム、Δパワーであ
る。サンプリング周波数は12kHz、SLP分析によ
り100Hzから6kHzに帯域制限した。評価音声デ
ータは男女各2名が発声した100都市名単語である。
これに、電子協雑音データベースから“自動車走行雑
音”、“人混み雑音”、“展示ホール雑音”を計算機上
で重畳した。認識語彙数は100都市名に300地名を
加え400単語とした。HMM合成のための雑音モデル
は、各認識対象単語の発声直前の区間から雑音を切り出
して作成した。雑音HMMの構成は1状態1分布であ
る。SSのための平均雑音スペクトルは160msec
の雑音区間から計算した。平均雑音スペクトルを引く場
合、認識対象の雑音重畳音声に対してはα=2.5,β
=0.3とし、学習用雑音に対してはα=1.5,β=
0.1とした。
【0030】図3に雑音の種類とSN比を変えたとき
の、各手法の認識率を示す。雑音重畳音声をクリーン音
声HMMで認識した場合、HMM合成モデルで認識した
場合、SSを適用した雑音重畳音声をクリーン音声HM
Mで認識した場合と本発明による手法で認識した場合に
ついて調べた。「SS法+HMM合成法」と示した結果
が本発明による方法の結果である。本発明による手法の
性能が最もよいことが確認された。
【0031】また、雑音モデルを学習するための雑音デ
ータ長を変えたときの認識率も調べた。展示ホール雑音
の10dBについて、雑音学習データ長を200msか
ら5secまで変えて調べた。結果を図4に示す。「S
S法+HMM合成法」と示した結果が本発明による方法
の結果である。従来法であるHMM合成法は学習雑音デ
ータ長を1secよりも短くすると急激に性能が劣化す
るのに対し、本発明による手法では200msでも劣化
が少ないことがわかる。効果としては、雑音学習データ
長が短くてすむので、時々刻々と変化する雑音に追従す
ることが可能となる。本実施形態ではSS法を用いるこ
とで、雑音スペクトルの分散を小さくできることがこの
効果をもたらしたと考えられる。
【0032】上記実施形態ではパワースペクトルを用い
たが振幅スペクトルでもよい。
【0033】なお、上記実施形態は雑音除去法にスペク
トルサブトラクション法を用いた例について述べたが、
本発明はこれに限定されるものではなく、MMSE法、
HMMを用いた雑音除去法、VQを用いた雑音除去法な
ど広範囲の雑音除去法とともに利用できる。すなわち、
音声に重畳した雑音を完全に消し去ることができない場
合のすべてにおいて、適応可能である。
【0034】
【発明の効果】以上説明したように、本発明によれば、
雑音除去法とHMM合成法を併用するので、認識対象の
雑音重畳音声のSN比を改善することができ、更に、消
し残った雑音をHMMで表現し、クリーン音声HMMと
モデル合成することで、消し残り雑音や音声の分散を考
慮した確率理論に基づくパターンマッチングが可能とな
る。よって、従来法に比べ、高い認識性能が得られる。
また、雑音除去法により、音声に重畳する雑音成分の分
散が小さくなるので、雑音HMMの学習に必要なデータ
量を少なくすることができ、よって、変動する雑音に追
従できる高速なモデル適応が可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声認識装置の構成
を示すブロック図である。
【図2】図1に示す音声認識装置の作用を示すフローチ
ャートである。
【図3】図1に示す音声認識装置の効果を示すグラフで
ある。
【図4】図1に示す音声認識装置の効果を示すグラフで
ある。
【図5】従来のHMMを用いた音声認識装置の構成を示
すブロック図である。
【図6】スペクトルサブトラクションを用いた従来の音
声認識装置の構成を示すブロック図である。
【符号の説明】
12 A/D変換部 13 雑音音声判定部 14 音声雑音スイッチ 17 平均雑音パワースペクトル計算部 18 雑音重畳音声パワースペクトル計算部 19,113 スペクトルサブトラクション部 110 音響パラメータ抽出部 111 モデル尤度計算部 112 認識結果出力部 114 雑音モデル学習部 115 モデル合成部 116 クリーン音声モデルメモリ

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声特徴ベクトル時系列に対して各
    認識カテゴリの特徴を表現した確率モデルの確率を計算
    し、最も高い確率を示すモデルが表現するカテゴリを認
    識結果として出力する音声認識方法において、入力された信号に対して、雑音であるか雑音重畳音声で
    あるかを判定し、判定結果が雑音である場合、この雑音
    に対して雑音パワースペクトルを計算した後、雑音区間
    の平均雑音パワースペクトルを計算し、さらに雑音パワ
    ースペクトルから前記平均雑音パワースペクトルを差し
    引き、消し残ったパワースペクトルから得られた特徴パ
    ラメータを用いて雑音モデルを作成し、雑音のない音声
    データをもとに予め作成しておいた音声モデルと前記雑
    音モデルとの合成を行って合成モデルを作成し、入力さ
    れた信号の判定結果が雑音重畳音声である場合、この雑
    音重畳音声のパワースペクトルから前記平均雑音パワー
    スペクトルを差し引き、得られたパワースペクトルから
    特徴パラメータを 計算し、前記合成モデルを用いて認識
    することを特徴とする音声認識方法。
  2. 【請求項2】 入力音声特徴ベクトル時系列に対して各
    認識カテゴリの特徴を表現した確率モデルの確率を計算
    し、最も高い確率を示すモデルが表現するカテゴリを認
    識結果として出力する音声認識装置において、 入力された信号に対して、雑音であるか雑音重畳音声で
    あるかを判定する雑音音声判定手段と、 この雑音音声判定手段による判定結果が雑音である場
    合、この雑音に対して雑音パワースペクトルを計算した
    後、雑音区間の平均雑音パワースペクトルを計算する平
    均雑音パワースペクトル計算手段と、 雑音パワースペクトルから前記平均雑音パワースペクト
    ルを差し引き、消し残ったパワースペクトルから得られ
    た特徴パラメータを用いて雑音モデルを作成する雑音モ
    デル作成手段と、 雑音のない音声データをもとに予め作成しておいた音声
    モデルと前記雑音モデルとの合成を行うモデル合成手段
    と、 前記雑音音声判定手段による判定結果が雑音重畳音声で
    ある場合、雑音重畳音声のパワースペクトルから前記平
    均雑音パワースペクトルを差し引き、得られたパワース
    ペクトルから特徴パラメータを計算する特徴パラメータ
    計算手段と、 この特徴パラメータ計算手段によって得られた特徴パラ
    メータと、前記合成モデルを用いて認識する認識手段と
    を有することを特徴とする音声認識装置。
JP25053796A 1996-09-20 1996-09-20 音声認識方法および装置 Expired - Lifetime JP3250604B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25053796A JP3250604B2 (ja) 1996-09-20 1996-09-20 音声認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25053796A JP3250604B2 (ja) 1996-09-20 1996-09-20 音声認識方法および装置

Publications (2)

Publication Number Publication Date
JPH1097278A JPH1097278A (ja) 1998-04-14
JP3250604B2 true JP3250604B2 (ja) 2002-01-28

Family

ID=17209386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25053796A Expired - Lifetime JP3250604B2 (ja) 1996-09-20 1996-09-20 音声認識方法および装置

Country Status (1)

Country Link
JP (1) JP3250604B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1116219B1 (en) * 1999-07-01 2005-03-16 Koninklijke Philips Electronics N.V. Robust speech processing from noisy speech models
EP1845520A4 (en) * 2005-02-02 2011-08-10 Fujitsu Ltd SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING DEVICE
JP4960845B2 (ja) * 2007-12-12 2012-06-27 日本電信電話株式会社 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
JP5609182B2 (ja) * 2010-03-16 2014-10-22 日本電気株式会社 音声認識装置、音声認識方法および音声認識プログラム
CN110797033A (zh) * 2019-09-19 2020-02-14 平安科技(深圳)有限公司 基于人工智能的声音识别方法、及其相关设备
JP7420144B2 (ja) * 2019-10-15 2024-01-23 日本電気株式会社 モデル生成方法、モデル生成装置、プログラム

Also Published As

Publication number Publication date
JPH1097278A (ja) 1998-04-14

Similar Documents

Publication Publication Date Title
US8438026B2 (en) Method and system for generating training data for an automatic speech recognizer
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
Kumar et al. Spoken language identification using hybrid feature extraction methods
JPH0612089A (ja) 音声認識方法
JPH075892A (ja) 音声認識方法
JP4061094B2 (ja) 音声認識装置、その音声認識方法及びプログラム
JPH08123484A (ja) 信号合成方法および信号合成装置
Erzin Improving throat microphone speech recognition by joint analysis of throat and acoustic microphone recordings
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
JP3250604B2 (ja) 音声認識方法および装置
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP3999731B2 (ja) 信号ソースを分離するための方法及び装置
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
Maged et al. Improving speaker identification system using discrete wavelet transform and AWGN
Koc Acoustic feature analysis for robust speech recognition
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP4173978B2 (ja) 雑音除去装置、及び、音声認識装置、並びに音声通信装置
JP2000075888A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JP2001083978A (ja) 音声認識装置
Orphanidou et al. Voice morphing using the generative topographic mapping
JP2000075890A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JP2658426B2 (ja) 音声認識方法
Pan et al. Comprehensive voice conversion analysis based on DGMM and feature combination

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071116

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131116

Year of fee payment: 12

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term