JP2768274B2

JP2768274B2 - 音声認識装置

Info

Publication number: JP2768274B2
Application number: JP6214836A
Authority: JP
Inventors: 浩明服部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1994-09-08
Filing date: 1994-09-08
Publication date: 1998-06-25
Anticipated expiration: 2013-06-25
Also published as: JPH0876785A; US5778340A; EP0701245A3; EP0701245B1; DE69524321D1; EP0701245A2; DE69524321T2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用野】本発明は適応化機能を有する音声認
識装置に関する。

【０００２】

【従来の技術】従来から様々な環境における不特定話者
音声を高精度で認識するために話者および環境への適応
化方式が提案されている。例えば、Ｋ．Ｓｈｉｋａｎ
ｏ，Ｋ．Ｆ．Ｌｅｅ，ａｎｄＲ．Ｒｅｄｄｙによる
“ＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎＴｈｒｏｕ
ｇｈＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎ”，Ｐ
ｒｏｃ．ＩＣＡＳＳＰ８６，ｐｐ．２６４３−２６４６
（１９８６）（以下、方法１）ではベクトル量子化され
た入力パターンと標準パターンの時間軸対応付けの結果
から入力話者と標準話者のコードブック間のヒストグラ
ムを求め、話者の適応化を行なう方法が提案されてい
る。また、ＡｌｅｊａｎｄｒｏＡｃｅｒｏの“Ａｃｏ
ｕｓｔｉｃａｌａｎｄＥｎｖｉｒｏｎｍｅｎｔａｌ
ＲｏｂｕｓｔｎｅｓｓｉｎＡｕｔｏｍａｔｉｃ
ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”，Ｋｌｕｗｅ
ｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒｓ，ＩＳＢ
Ｎ０−７９２３−９２８４−１（１９９３）（以下、
方法２）ではスペクトル領域での伝送歪みと加法性雑音
に関する適応パラメータを最尤推定により求め、異なる
入力環境の適応化を行なう方法が示されている。

【０００３】これらの方式では新しい話者あるいは環境
で認識を行なう前に、適応用音声データとしてある程度
の量の音声を発声して適応化を行なうことが必要とな
る。

【０００４】一般に同じ話者であってもその声は体調や
精神的状況により影響を受ける。また、電話音声の認識
においては回線特性や背景雑音のレベルは発呼毎に異な
る。したがって、話者および環境の適応化において認識
対象である音声そのものを用いることが望ましい。しか
し、方式１、方式２ではある程度の適応用音声データを
必要とすることと適応化処理に時間がかかることからこ
のような認識対象そのものを用いた適応化は困難であ
る。

【０００５】これに対処するための方式として、高木
他、“スペクトル写像による環境適応機能を有する音声
認識”、音響学会講演論文集、ｐｐ．１７３−１７４、
（１９９４．３）では認識対象単語そのものを用いて適
応化する方式（以下、方式３）を提案している。方式３
においては環境の異なりを音声区間の平均スペクトルと
雑音区間の平均スペクトルの差として抽出、適応化を行
なうため、発話内容情報のない１単語でも安定した適応
化が可能となっている。

【０００６】従来の適応化および認識動作を図８を用い
て説明する。

【０００７】入力端子８１０に入力された音声波形は分
析部８２０により特徴ベクトル系列に変換される。

【０００８】得られた特徴ベクトルは信号線８２１によ
り入力パターン記憶部８３０へ送られ入力パターンとし
て保持される。

【０００９】適応時にスイッチ８４０は信号線８３１を
信号線８４２へ接続する。

【００１０】標準パターン適応部８７０は信号線８４２
から入力パターンを、信号線８５１から標準パターンを
読み出し、適応化を行い、適応化された標準パターンを
標準パターン記憶部８５０に記憶させる。

【００１１】認識時にスイッチ８４０は信号線８３１を
信号線８４１へ接続する。

【００１２】認識部８８０は信号線８４１から入力パタ
ーンを、信号線８５２から標準パターンを読み出し、マ
ッチングを行ない類似度を求め、認識結果を出力端子８
９０へ出力する。

【００１３】

【発明が解決しようとする課題】しかし方式３で述べら
れる方式を用いた場合であっても、入力発声終了後に適
応化処理時間と認識処理時間が必要であるため、認識結
果を得るまでに時間がかかり、応答性を損ねてしまうと
いう問題がある。

【００１４】本発明の目的は、認識対象音声そのものを
用いた適応方式を搭載した音声認識装置において、シス
テムの応答性を損なわずに環境や話者が学習された標準
パターンと異なる場合においても、高い認識精度を得る
ことを目的とする。

【００１５】

【課題を解決するための手段】第１の発明の音声認識装
置は、音声波形を特徴ベクトルに変換する分析部と、前
記特徴ベクトルを入力パターンとして記憶する入力パタ
ーン記憶部と、認識対象語彙の標準パターンを記憶する
標準パターン記憶部と、前記入力パターンと前記標準パ
ターンの類似度を求め、少なくとも１つの正解候補を出
力する予備認識部と、前記標準パターンと前記入力パタ
ーンと前記正解候補から、前記標準パターンの適応化を
行ない、適応化した標準パターンを前記標準パターンと
して新たに前記標準パターン記憶部に記憶させる標準パ
ターン適応部と、前記標準パターンと前記入力パターン
を用いて前記正解候補の音声認識を行なう本認識部とを
備えることを特徴とする。

【００１６】第２の発明の音声認識装置は、音声波形を
特徴ベクトルに変換する分析部と、前記特徴ベクトルを
入力パターンとして記憶する入力パターン記憶部と、認
識対象語彙の標準パターンを記憶する標準パターン記憶
部と、前記入力パターンと前記標準パターンの類似度を
求め、少なくとも１つの正解候補を出力する予備認識部
と、前記標準パターンと前記入力パターンと前記正解候
補から前記入力パターンの適応化を行なう入力パターン
適応部と、前記標準パターンと適応化した入力パターン
を用いて前記正解候補の音声認識を行なう本認識部とを
備えることを特徴とする。

【００１７】第３の発明の音声認識装置は、音声波形を
特徴ベクトルに変換する分析部と、前記特徴ベクトルを
入力パターンとして記憶する入力パターン記憶部と、認
識対象語彙の標準パターンを記憶する標準パターン記憶
部と、前記入力パターンと前記標準パターンの類似度を
求め、少なくとも１つの正解候補を出力する予備認識部
と、前記標準パターンと前記入力パターンと前記正解候
補から、前記標準パターンの適応化を行ない、適応化し
た標準パターンを前記標準パターンとして新たに前記標
準パターン記憶部に記憶させる標準パターン適応部と、
前記標準パターンと前記入力パターンと前記正解候補か
ら、前記入力パターンの適応化を行なう入力パターン適
応部と、前記標準パターンと前記適応化した入力パター
ンを用いて前記正解候補の音声認識を行なう本認識部と
を備えることを特徴とする。

【００１８】第４の発明の音声認識装置は、第１の発
明において、前記予備認識部の正解候補と前記本認識部
の認識結果を前記標準パターン適応部に入力するスイッ
チを有し、前記標準パターン記憶部の標準パターンと、
前記入力パターン記憶部の入力パターンと、前記正解候
補又は前記認識結果を用いて標準パターンの適応化を行
なうことを特徴とする。

【００１９】第５の発明の音声認識装置は、第３の発明
において、前記入力パターン記憶部の入力パターンと前
記標準パターン記憶部の標準パターンと前記本認識部の
認識結果を用いて標準パターンの適応化を行なうことを
特徴とする。

【００２０】第６の発明の音声認識装置は、第３の発
明において、前記予備認識部の正解候補と、前記本認識
部の認識結果を前記標準パターン適応部に入力するスイ
ッチを有し、前記標準パターン記憶部の標準パターン
と、前記入力パターン記憶部の入力パターンと前記正解
候補か前記認識結果を用いて標準パターンの適応化を行
なうことを特徴とする。

【００２１】第７の発明の音声認識装置は、第４、第
５又は第６の発明において、前記本認識部の認識結果に
対する使用者の確認、訂正結果を入力する入力部と、前
記訂正結果を認識する確認部を有し、前記標準パターン
適応部は前記予備認識部の正解候補か前記確認部による
認識結果と前記入力パターン記憶部の入力パターンと前
記標準パターン記憶部の標準パターンから標準パターン
の適応化を行なうことを特徴とする。

【００２２】

【作用】本発明は認識対象音声を用いて適応化すること
で高い認識精度を得つつ応答性を確保するために、それ
以前の入力音声を用いて適応化を行なった結果を用い
て、認識対象音声の予備認識を行ない語彙の予備選択を
行なうとともに該対象音声を用いて適応化を行ない、予
備選択された単語について本認識を行ない認識結果を得
るものである。

【００２３】本発明の動作を以下に示す。１．初期標準パターンをセット。２．入力音声の分析を行ない入力パターンとする。３．入力パターンを全認識対象語（語彙数Ｍ）の標準パ
ターンを用いて予備認識し、上位Ｎ個の正解候補を得
る。４．入力パターンを用いて標準パターンの適応化を行な
う。５．適応化された標準パターンを用いて予備認識結果の
上位Ｎ個の正解候補を認識対象語彙としてもう一度入力
パターンの認識を行ない、その結果を認識結果として出
力する。６．ステップ２以降を繰り返す。

【００２４】通常、ステップ３までは入力に同期して分
析認識処理が可能であり、音声認識システムの応答性に
影響を与えるのはステップ４の適応化処理とステップ５
の再認識である。

【００２５】ステップ４の処理量は用いる適応化方式に
おいて異なるが、例えば方式３を用いた場合には処理量
はごくわずかですむ。

【００２６】本方式ではステップ５での認識対象語彙を
予備選択されたＮ個とするため、全認識対象語彙数をＭ
とすれば処理量はＮ／Ｍとなる。このとき、処理量の削
減率は予備選択の精度に依存する。本方式では、１発話
前までの入力音声を用いて適応化されたパターンを用い
て予備選択を行なうため、背景雑音や回線特性が学習時
とは異なる環境であっても、高い予備選択精度が期待で
きる。

【００２７】本方式では、例えば認識語彙数１０００の
実時間音声認識システムで予備選択数を１０とすればス
テップ５の処理量はステップ３の１／１００となり、ス
テップ３が実時間で動作可能な音声認識システムであれ
ば、２秒の入力音声を再認識するためには２０ｍｓでよ
く、実用上差し支えない処理時間となる。

【００２８】本方式において、利用できる適応化として
は方法３の標準パターンを入力環境に適応する方式に限
らず、さまざまな適応化が考えられる。例えば、入力パ
ターンを標準パターンを学習した環境に適応化する手
法、標準パターンと入力パターンの両者を適応化する方
法のいずれの方法も用いることができる。また、適応化
における予備選択結果の利用についても、方法３では第
１位候補を用いているが、複数個の候補を用いること
も、あるいは、予備選択結果を利用しないことも可能で
ある。また、より精度の高い本認識結果を利用してもう
一度適応化を行なうことも可能である。

【００２９】

【実施例】第１の発明の一実施例を図１に示す。

【００３０】入力端子１１０に入力された音声波形｛ｘ
₁，…，ｘ_N｝は分析部１２０により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるＦＦＴ分析、線形予測分析等により得られるケプス
トラム、ＬＰＣ係数、これらの時間変化量等が利用可能
である。

【００３１】得られた特徴ベクトルは信号線１２１によ
り入力パターン記憶部１３０へ送られ入力パターンとし
て保持されると同時に、信号線１２２により予備認識部
１６０へ送られる。

【００３２】予備認識部１６０は信号線１２２により送
られた特徴ベクトルと標準パターン記憶部１５０に蓄え
られた全標準パターンを信号線１５３から読み出し予備
認識を行ない、類似度の高い順にＮ個の正解候補を求め
る。

【００３３】標準パターン適応部１７０は信号線１３２
から入力パターンを、信号線１６１から予備認識結果の
Ｎ個の正解候補を、信号線１５１から標準パターンを読
み出し、適応化を行ない、適応化された標準パターンを
標準パターン記憶部１５０に記憶させる。

【００３４】例えば方式３を用いる場合には、第１位の
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Ｓ_v、入力パターンの雑音区間の平均スペクトルＮ_v、
標準パターンの音声区間の平均スペクトルＳ_w、標準パ
ターンの雑音区間の平均スペクトルＮ_wを求める。これ
らを用いて全標準パターンのスペクトルＳを

【００３５】

【数１】

【００３６】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【００３７】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルＳ_v、入力パターン
の雑音区間の平均特徴ベクトルＮ_v、標準パターンの音
声区間の平均特徴ベクトルＳ_w、標準パターンの雑音区
間の平均特徴ベクトルＮ_wを求める。これらを用いて全
標準パターンの特徴ベクトルＳを

【００３８】

【数２】

【００３９】として適応化する。

【００４０】ここでは適応化方式として２例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。

【００４１】本認識部１８０は信号線１３１から入力
パターンを、信号線１６２から予備認識結果のＮ個の正
解候補を、信号線１５２から適応化された正解候補の標
準パターンを読み出し、マッチングを行ない類似度を求
め、認識結果を出力端子１９０へ出力する。

【００４２】第２の発明の一実施例を図２に示す。

【００４３】入力端子２１０に入力された音声波形｛ｘ
₁，…，ｘ_N｝は分析部２２０により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるＦＦＴ分析、線形予測分析等により得られるケプス
トラム、ＬＰＣ係数、これらの時間変化量等が利用可能
である。

【００４４】得られた特徴ベクトルは信号線２２１によ
り入力パターン記憶部２３０へ送られ入力パターンとし
て保持されると同時に、信号線２２２により予備認識部
２６０へ送られる。

【００４５】予備認識部２６０は信号線２２２により送
られた特徴ベクトルと標準パターン記憶部２５０に蓄え
られた全標準パターンを信号線２５３から読み出し予備
認識を行ない、類似度の高い順にＮ個の正解候補を求め
る。

【００４６】入力パターン適応部２９５は信号線２３１
から入力パターンを、信号線２６３から予備認識結果の
Ｎ個の正解候補を、信号線２５１から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線２９６
へ適応化された入力パターンを出力する。

【００４７】例えば方式３を入力パターンの適応化に用
いる場合に、第１位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルＳ_v、入力パターンの雑音区間の
平均スペクトルＮ_v、標準パターンの音声区間の平均ス
ペクトルＳ_w、標準パターンの雑音区間の平均スペクト
ルＮ_wを求める。これらを用いて入力パターンのスペク
トルＳを

【００４８】

【数３】

【００４９】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【００５０】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルＳ_v、標準パターンの平均特徴
ベクトルＳ_wを求める。これらを用いて入力パターンの
特徴ベクトルＳを

【００５１】

【数４】

【００５２】として適応化する。

【００５３】ここでは適応化方式として２例をあげた
が、ここで利用可能な適応化方式はこれに限らず、入力
パターンを適応化するさまざまな適応化方式が可能であ
る。

【００５４】本認識部２８０は信号線２９６から適応
化された入力パターンを、信号線２６４から予備認識結
果のＮ個の正解候補を、信号線２５２から正解候補の標
準パターンを読み出し、マッチングを行なって認識結果
を出力端子２９０へ出力する。

【００５５】第３の発明の一実施例を図３に示す。

【００５６】入力端子３１０に入力された音声波形｛ｘ
₁，…，ｘ_N｝は分析部３２０により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるＦＦＴ分析、線形予測分析等により得られるケプス
トラム、ＬＰＣ係数、これらの時間変化量等が利用可能
である。

【００５７】得られた特徴ベクトルは信号線３２１によ
り入力パターン記憶部３３０へ送られ入力パターンとし
て保持されると同時に、信号線３２２により予備認識部
３６０へ送られる。

【００５８】予備認識部３６０は信号線３２２により送
られた特徴ベクトルと標準パターン記憶部３５０に蓄え
られた全標準パターンを信号線３５３から読み出し予備
認識を行ない、類似度の高い順にＮ個の正解候補を求め
る。

【００５９】入力パターン適応部３９５は信号線３３
１から入力パターンを、信号線３６３から予備認識結果
のＮ個の正解候補を、信号線３５４から標準パターンを
読み出し、入力パターンの適応化を行ない、信号線３９
６へ適応化された入力パターンを出力する。

【００６０】例えば方式３を入力パターンの適応化に用
いる場合には、第１位の正解候補の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルＳ_v、入力パターンの雑音区間
の平均スペクトルＮ_v、標準パターンの音声区間の平均
スペクトルＳ_w、標準パターンの雑音区間の平均スペク
トルＮ_wを求める。これらを用いて入力パターンのスペ
クトルＳを

【００６１】

【数５】

【００６２】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【００６３】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルＳ_v、標準パターンの平均特徴
ベクトルＳ_wを求める。これらを用いて入力パターンの
特徴ベクトルＳを

【００６４】

【数６】

【００６５】として適応化する。

【００６６】標準パターン適応部３７０は信号線３２２
から入力パターンを、信号線３６１から予備認識結果の
Ｎ個の正解候補を、信号線３５１から標準パターンを読
み出し、適応化を行ない、適応化された標準パターンを
標準パターン記憶部３５０に記憶させる。

【００６７】例えば方式３を用いる場合には、第１位の
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Ｓ_v 、入力パターンの雑音区間の平均スペクトルＮ_v、
標準パターンの音声区間の平均スペクトルＳ_w、標準パ
ターンの雑音区間の平均スペクトルＮ_wを求める。これ
らを用いて全標準パターンのスペクトルＳを

【００６８】

【数７】

【００６９】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【００７０】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルＳ_v、入力パターン
の雑音区間の平均特徴ベクトルＮ_v、標準パターンの音
声区間の平均特徴ベクトルＳ_w、標準パターンの雑音区
間の平均特徴ベクトルＮ_wを求める。これらを用いて全
標準パターンの特徴ベクトルＳを

【００７１】

【数８】

【００７２】として適応化する。

【００７３】ここでは適応化方式として２例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。

【００７４】本認識部３８０は信号線２９６から適応化
された入力パターンを、信号線３６２から予備認識結果
のＮ個の正解候補を、信号線３５２から適応化された正
解候補の標準パターンを読み出し、マッチングを行なっ
て認識結果を出力端子３９０へ出力する。

【００７５】第４の発明の一実施例を図４に示す。

【００７６】入力端子４１０に入力された音声波形｛ｘ
₁，…，ｘ_N｝は分析部４２０により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるＦＦＴ分析、線形予測分析等により得られるケプス
トラム、ＬＰＣ係数、これらの時間変化量等が利用可能
である。

【００７７】得られた特徴ベクトルは信号線４２１によ
り入力パターン記憶部４３０へ送られ入力パターンとし
て保持されると同時に、信号線４２２により予備認識部
４６０へ送られる。

【００７８】予備認識部４６０は信号線４２２により送
られた特徴ベクトルと標準パターン記憶部４５０に蓄え
られた全標準パターンを信号線４５３から読み出し予備
認識を行ない、類似度の高い順にＮ個の正解候補を求め
る。

【００７９】標準パターン適応部４７０はスイッチ４７
９を信号線４６１へ接続し、信号線４６１から予備認識
結果のＮ個の正解候補を、信号線４３３から入力パター
ンを、信号線４５１から標準パターンを読み出し、適応
化を行ない、適応化された標準パターンを標準パターン
記憶部４５０に記憶させる。

【００８０】例えば方式３を用いる場合には、第１位の
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Ｓ_v、入力パターンの雑音区間の平均スペクトルＮ_v、
標準パターンの音声区間の平均スペクトルＳ_w、標準パ
ターンの雑音区間の平均スペクトルＮ_wを求める。これ
らを用いて全標準パターンのスペクトルＳを

【００８１】

【数９】

【００８２】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【００８３】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルＳ_v、入力パターン
の雑音区間の平均特徴ベクトルＮ_v、標準パターンの音
声区間の平均特徴ベクトルＳ_w、標準パターンの雑音区
間の平均特徴ベクトルＮ_wを求める。これらを用いて全
標準パターンの特徴ベクトルＳを

【００８４】

【数１０】

【００８５】として適応化する。

【００８６】本認識部４８０は信号線４３１から入力パ
ターンを、信号線４６２から予備認識結果のＮ個の正解
候補を、信号線４５２から正解候補の標準パターンを読
み出し、マッチングを行ない類似度を求め、認識結果を
出力端子４９０へ出力する。

【００８７】次に、標準パターン適応部４７０はスイッ
チ４７９を信号線４８２へ接続し、信号線４８２から本
認識部の認識結果を、信号線４３３から入力パターン
を、信号線４５１から標準パターンを読み出し、上記適
応化を再度行ない、適応化された標準パターンを標準パ
ターン記憶部４５０に記憶させ、次の入力に備える。

【００８８】ここでは適応化方式として２例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。

【００８９】また、本認識部の結果を利用するかわり
に、本認識部の結果に対する使用者の確認、修正結果を
利用することも可能である。

【００９０】第５の発明の一実施例を図５に示す。

【００９１】入力端子５１０に入力された音声波形｛ｘ
₁，…，ｘ_N｝は分析部５２０により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるＦＦＴ分析、線形予測分析等により得られるケプス
トラム、ＬＰＣ係数、これらの時間変化量が利用可能で
ある。

【００９２】得られた特徴ベクトルは信号線５２１によ
り入力パターン記憶部５３０へ送られ入力パターンとし
て保持されると同時に、信号線５２２により予備認識部
５６０へ送られる。

【００９３】予備認識部５６０は信号線５２２により送
られた特徴ベクトルと標準パターン記憶部５５０に蓄え
られた全標準パターンを信号線５５３から読み出し予備
認識を行ない、類似度の高い順にＮ個の正解候補を求め
る。

【００９４】入力パターン適応部５９５は信号線５３１
から入力パターンを、信号線５６３から予備認識結果の
Ｎ個の正解候補を、信号線５５１から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線５９６
へ適応化された入力パターンを出力する。

【００９５】例えば方式３を入力パターンの適応化に用
いる場合には、第１位の正解候補の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルＳ_v、入力パターンの雑音区間
の平均スペクトルＮ_v、標準パターンの音声区間の平均
スペクトルＳ_w、標準パターンの雑音区間の平均スペク
トルＮ_wを求める。これらを用いて入力パターンのスペ
クトルＳを

【００９６】

【数１１】

【００９７】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【００９８】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルＳ_v、標準パターンの平均特徴
ベクトルＳ_wを求める。これらを用いて入力パターンの
特徴ベクトルＳを

【００９９】

【数１２】

【０１００】として適応化する。

【０１０１】ここでは適応化方式として２例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、入
力パターンを適応化するさまざまな適応化方式が可能で
ある。

【０１０２】本認識部５８０は信号線５９６から適応化
された入力パターンを、信号線５６２から予備認識結果
のＮ個の正解候補を、信号線５５２から正解候補の標準
パターンを読み出し、マッチングを行なって認識結果を
出力端子５９０へ出力する。

【０１０３】次に、標準パターン適応部５７０は信号線
５８２から本認識部の認識結果を、信号線５３３から入
力パターンを、信号線５５４から標準パターンを読み出
し、適応化を行ない、適応化された標準パターンを標準
パターン記憶部５５０に記憶させ、次の入力に備える。

【０１０４】適応化の手法としては例えば方式３を用い
る場合には、第１位の認識結果の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルＳ_v、入力パターンの雑音区間の
平均スペクトルＮ_v、標準パターンの音声区間の平均ス
ペクトルＳ_w、標準パターンの雑音区間の平均スペクト
ルＮ_Wを求める。これらを用いて全標準パターンのスペ
クトルＳを

【０１０５】

【数１３】

【０１０６】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【０１０７】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルＳ_v、入力パターン
の雑音区間の平均特徴ベクトルＮ_v、標準パターンの音
声区間の平均特徴ベクトルＳ_w、標準パターンの雑音区
間の平均特徴ベクトルＮ_wを求める。これらを用いて全
標準パターンの特徴ベクトルＳを

【０１０８】

【数１４】

【０１０９】として適応化する。

【０１１０】ここでは適応化方式として２例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。

【０１１１】また、本認識部の結果を利用するかわり
に、本認識部の結果に対する使用者の確認、修正結果を
利用することも可能である。

【０１１２】第６の発明の一実施例を図６に示す。

【０１１３】入力端子６１０に入力された音声波形｛ｘ
₁，…，ｘ_N｝は分析部６２０により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるＦＦＴ分析、線形予測分析等により得られるケプス
トラム、ＬＰＣ係数、これらの時間変化量等が利用可能
である。

【０１１４】得られた特徴ベクトルは信号線６２１によ
り入力パターン記憶部６３０へ送られ入力パターンとし
て保持されると同時に、信号線６２２により予備認識部
６６０へ送られる。

【０１１５】予備認識部６６０は信号線６２２により送
られた特徴ベクトルと標準パターン記憶部６５０に蓄え
られた全標準パターンを用いて予備認識を行ない、類似
度の高い順にＮ個の正解候補を求める。

【０１１６】入力パターン適応部６９５は信号線６３１
から入力パターンを、信号線６６３から予備認識結果の
Ｎ個の正解候補を、信号線６５１から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線６９６
へ適応化された入力パターンを出力する。

【０１１７】例えば方式３を入力パターンの適応化に用
いる場合に、第１位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルＳ_v、入力パターンの雑音区間の
平均スペクトルＮ_v、標準パターンの音声区間の平均ス
ペクトルＳ_w、標準パターンの雑音区間の平均スペクト
ルＮ_wを求める。これらを用いて入力パターンのスペク
トルＳを

【０１１８】

【数１５】

【０１１９】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【０１２０】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルＳ_v、標準パターンの平均特徴
ベクトルＳ_wを求める。これらを用いて入力パターンの
特徴ベクトルＳを

【０１２１】

【数１６】

【０１２２】として適応化する。

【０１２３】標準パターン適応部６７０はスイッチ６７
９を信号線６６１に接続し、信号線６３２から入力パタ
ーンを、信号線６６１から予備認識結果のＮ個の正解候
補を、信号線６５１から標準パターンを読み出し、適応
化を行ない、適応化された標準パターンを標準パターン
記憶部６５０に記憶させる。

【０１２４】適応化の手法としては例えば方式３を用い
る場合には、第１位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルＳ_v、入力パターンの雑音区間の
平均スペクトルＮ_v、標準パターンの音声区間の平均ス
ペクトルＳ_w、標準パターンの雑音区間の平均スペクト
ルＮ_wを求める。これらを用いて全標準パターンのスペ
クトルＳを

【０１２５】

【数１７】

【０１２６】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【０１２７】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルＳ_v、入力パターン
の雑音区間の平均特徴ベクトルＮ_v、標準パターンの音
声区間の平均特徴ベクトルＳ_w、標準パターンの雑音区
間の平均特徴ベクトルＮ_wを求める。これらを用いて全
標準パターンの特徴ベクトルＳを

【０１２８】

【数１８】

【０１２９】として適応化する。

【０１３０】ここでは適応化方式として２例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。

【０１３１】本認識部６８０は信号線６９６から適応化
された入力パターンを、信号線６６２から予備認識結果
のＮ個の正解候補を、信号線６５２から適応化された正
解候補の標準パターンを読み出し、マッチングを行なっ
て認識結果を出力端子６９０へ出力する。

【０１３２】次に、標準パターン適応部はスイッチ６７
９を信号線６８２に接続し、信号線６８２から本認識部
の認識結果を、信号線６３２から入力パターンを、信号
線６５１から標準パターンを読み出し、適応化を行な
い、適応化された標準パターンを標準パターン記憶部６
５０に記憶させて、次の入力に備える。

【０１３３】適応化の手法としては、例えば方式３を用
いる場合には、第１位の認識結果の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルＳ_v、入力パターンの雑音区間
の平均スペクトルＮ_v、標準パターンの音声区間の平均
スペクトルＳ_w、標準パターンの雑音区間の平均スペク
トルＮ_wを求める。これらを用いて全標準パターンのス
ペクトルＳを

【０１３４】

【数１９】

【０１３５】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【０１３６】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルＳ_v、入力パターン
の雑音区間の平均特徴ベクトルＮ_v、標準パターンの音
声区間の平均特徴ベクトルＳ_w、標準パターンの雑音区
間の平均特徴ベクトルＮ_wを求める。これらを用いて全
標準パターンの特徴ベクトルＳを

【０１３７】

【数２０】

【０１３８】として適応化する。

【０１３９】ここでは適応化方式として２例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。

【０１４０】また、本認識部の結果を利用するかわり
に、本認識部の結果に対する使用者の確認、修正結果を
利用することも可能である。

【０１４１】第７の発明の一実施例を図７に示す。

【０１４２】入力端子７１０に入力された音声波形｛ｘ
₁，…，ｘ_N｝は分析部７２０により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるＦＦＴ分析、線形予測分析等により得られるケプス
トラム、ＬＰＣ係数、これらの時間変化量等が利用可能
である。

【０１４３】得られた特徴ベクトルは信号線７２１によ
り入力パターン記憶部７３０へ送られ入力パターンとし
て保持されると同時に、信号線７２２により予備認識部
７６０へ送られる。

【０１４４】予備認識部７６０は信号線７２２により送
られた入力パターンと標準パターン記憶部７５０に蓄え
られた全標準パターンを用いて予備認識を行ない、類似
度の高い順にＮ個の正解候補を求める。

【０１４５】入力パターン適応部７９５は信号線７３１
から入力パターンを、信号線７６３から予備認識結果の
Ｎ個の正解候補を、信号線７５１から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線７９６
へ適応化された入力パターンを出力する。

【０１４６】例えば方式３を用いる場合には、第１位の
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Ｓ_v 、入力パターンの雑音区間の平均スペクトルＮ_v、
標準パターンの音声区間の平均スペクトルＳ_w、標準パ
ターンの雑音区間の平均スペクトルＮ_wを求める。これ
らを用いて入力パターンのスペクトルＳを

【０１４７】

【数２１】

【０１４８】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【０１４９】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルＳ_v、標準パターンの平均特徴
ベクトルＳ_wを求める。これらを用いて入力パターンの
特徴ベクトルＳを

【０１５０】

【数２２】

【０１５１】として適応化する。

【０１５２】標準パターン適応部７７０はスイッチ７７
９を信号線７６１に接続し、信号線７３２から入力パタ
ーンを、信号線７６４から予備認識結果のＮ個の正解候
補を、信号線７５１から標準パターンを読み出し、適応
化を行ない、適応化された標準パターンを標準パターン
記憶部７５０に記憶させる。

【０１５３】適応化の手法としては例えば方式３を用い
る場合には、第１位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルＳ_v、入力パターンの雑音区間の
平均スペクトルＮ_v、標準パターンの音声区間の平均ス
ペクトルＳ_w、標準パターンの雑音区間の平均スペクト
ルＮ_wを求める。これらを用いて全標準パターンのスペ
クトルＳを

【０１５４】

【数２３】

【０１５５】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【０１５６】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルＳ_v、入力パターン
の雑音区間の平均特徴ベクトルＮ_v、標準パターンの音
声区間の平均特徴ベクトルＳ_w、標準パターンの雑音区
間の平均特徴ベクトルＮ_wを求める。これらを用いて全
標準パターンの特徴ベクトルＳを

【０１５７】

【数２４】

【０１５８】として適応化する。

【０１５９】ここでは適応化方式として２例をあげた
が、ここで利用可能な適応化方式はこれに限らず、標準
パターンを適応化するさまざまな適応化方式が可能であ
る。

【０１６０】本認識部７８０は信号線７９６から適応化
された入力パターンを、信号線７６２から予備認識結果
のＮ個の正解候補を、信号線７５２から適応化された正
解候補の標準パターンを読み出し、マッチングを行なっ
て認識結果を出力端子７９０へ出力する。

【０１６１】次に、確認部７４０は信号線７８２から本
認識部の結果を、端子７４５から本認識部の認識結果に
対する確認結果を受け取り、本認識部の結果が誤ってい
た場合には修正し、正しい認識結果を信号線７４１へ出
力する。

【０１６２】次に、標準パターン適応部はスイッチ７７
９を信号線７４１に接続し、信号線７４１から正しい認
識結果を、信号線７３２から入力パターンを、信号線７
５４から標準パターンを読み出し、適応化を行ない、適
応化された標準パターンを標準パターン記憶部７５０に
記憶させ、次の入力に備える。

【０１６３】適応化の手法としては、例えば方式３を
用いる場合には、正しい認識結果の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルＳ_v 、入力パターンの雑音区
間の平均スペクトルＮ_v 、標準パターンの音声区間の
平均スペクトルＳ_w 、標準パターンの雑音区間の平均
スペクトルＮ_w を求める。これらを用いて全標準パタ
ーンのスペクトルＳを

【０１６４】

【数２５】

【０１６５】として適応化する。ここで、Ｓ_kはスペク
トルＳのｋ番目の周波数成分を表す。

【０１６６】あるいは、第１位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルＳ_v、入力パターン
の雑音区間の平均特徴ベクトルＮ_v、標準パターンの音
声区間の平均特徴ベクトルＳ_w、標準パターンの雑音区
間の平均特徴ベクトルＮ_wを求める。これらを用いて全
標準パターンの特徴ベクトルＳを

【０１６７】

【数２６】

【０１６８】として適応化する。

【０１６９】ここでは適応化方式として２例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。

【０１７０】この場合常に正しい認識結果を用いて適応
化を行なうため、より精度の高い適応化が可能であり、
認識率の向上が期待される。

【０１７１】

【発明の効果】本発明によれば、ある時刻までの入力音
声を用いて適応化を行なった結果を用いて、次時刻の認
識対象音声の予備認識を行ない語彙の予備選択を行なう
とともに該対象音声を用いて適応化を行ない、予備選択
された単語について本認識を行なうことができるので、
環境は話者が学習された標準パターンと異なる場合にお
いてもシステムの応答性を損なわずに、高い認識精度が
得られる。

【図面の簡単な説明】

【図１】第１の発明の一実施例を示すブロック図。

【図２】第２の発明の一実施例を示すブロック図。

【図３】第３の発明の一実施例を示すブロック図。

【図４】第４の発明の一実施例を示すブロック図。

【図５】第５の発明の一実施例を示すブロック図。

【図６】第６の発明の一実施例を示すブロック図。

【図７】第７の発明の一実施例を示すブロック図。

【図８】従来技術の一例を示すブロック図。

【符号の説明】

１２０，２２０，３２０，４２０，５２０，６２０，７
２０，８２０分析部１３０，２３０，３３０，４３０，５３０，６３０，７
３０，８３０入力パターン記憶部１５０，２５０，３５０，４５０，５５０，６５０，７
５０，８５０標準パターン記憶部１６０，２６０，３６０，４６０，５６０，６６０，７
６０予備認識部１７０，３７０，４７０，５７０，６７０，７７０，８
７０標準パターン適応部１８０，２８０，３８０，４８０，５８０，６８０，７
８０，８８０本認識部２９５，３９５，５９５，６９５，７９５入力パター
ン適応部４７９，６７９，７７９，８４０スイッチ

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 521 G10L 3/02 301 G10L 5/06 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声波形を特徴ベクトルに変換する分析部
と、前記特徴ベクトルを入力パターンとして記憶する入
力パターン記憶部と、認識対象語彙の標準パターンを記
憶する標準パターン記憶部と、前記入力パターンと前記
標準パターンの類似度を求め、少なくとも１つの正解候
補を出力する予備認識部と、前記標準パターンと前記入
力パターンと前記正解候補から、前記標準パターンの適
応化を行ない、適応化した標準パターンを前記標準パタ
ーンとして新たに前記標準パターン記憶部に記憶させる
標準パターン適応部と、前記標準パターンと前記入力パ
ターンを用いて前記正解候補の音声認識を行なう本認識
部とを備えることを特徴とする音声認識装置。
【請求項２】音声波形を特徴ベクトルに変換する分析部
と、前記特徴ベクトルを入力パターンとして記憶する入
力パターン記憶部と、認識対象語彙の標準パターンを記
憶する標準パターン記憶部と、前記入力パターンと前記
標準パターンの類似度を求め、少なくとも１つの正解候
補を出力する予備認識部と、前記標準パターンと前記入
力パターンと前記正解候補から前記入力パターンの適応
化を行なう入力パターン適応部と、前記標準パターンと
適応化した入力パターンを用いて前記正解候補の音声認
識を行なう本認識部とを備えることを特徴とする音声認
識装置。
【請求項３】音声波形を特徴ベクトルに変換する分析部
と、前記特徴ベクトルを入力パターンとして記憶する入
力パターン記憶部と、認識対象語彙の標準パターンを記
憶する標準パターン記憶部と、前記入力パターンと前記
標準パターンの類似度を求め、少なくとも１つの正解候
補を出力する予備認識部と、前記標準パターンと前記入
力パターンと前記正解候補から、前記標準パターンの適
応化を行ない、適応化した標準パターンを前記標準パタ
ーンとして新たに前記標準パターン記憶部に記憶させる
標準パターン適応部と、前記標準パターンと前記入力パ
ターンと前記正解候補から、前記入力パターンの適応化
を行なう入力パターン適応部と、前記標準パターンと前
記適応化した入力パターンを用いて前記正解候補の音声
認識を行なう本認識部とを備えることを特徴とする音声
認識装置。
【請求項４】前記予備認識部の正解候補と前記本認識
部の認識結果を前記標準パターン適応部に入力するスイ
ッチを有し、前記標準パターン記憶部の標準パターン
と、前記入力パターン記憶部の入力パターンと、前記正
解候補又は前記認識結果を用いて標準パターンの適応化
を行なうことを特徴とする請求項１記載の音声認識装
置。
【請求項５】前記入力パターン記憶部の入力パターンと
前記標準パターン記憶部の標準パターンと前記本認識部
の認識結果を用いて標準パターンの適応化を行なうこと
を特徴とする請求項３記載の音声認識装置。
【請求項６】前記予備認識部の正解候補と、前記本認
識部の認識結果を前記標準パターン適応部に入力するス
イッチを有し、前記標準パターン記憶部の標準パターン
と、前記入力パターン記憶部の入力パターンと前記正解
候補か前記認識結果を用いて標準パターンの適応化を行
なうことを特徴とする請求項３記載の音声認識装置。
【請求項７】前記本認識部の認識結果に対する使用者
の確認、訂正結果を入力する入力部と、前記訂正結果を
認識する確認部を有し、前記標準パターン適応部は前記
予備認識部の正解候補か前記確認部による認識結果と前
記入力パターン記憶部の入力パターンと前記標準パター
ン記憶部の標準パターンから標準パターンの適応化を行
なうことを特徴とする請求項４、５又は６記載の音声認
識装置。