JPH0876785A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0876785A JPH0876785A JP6214836A JP21483694A JPH0876785A JP H0876785 A JPH0876785 A JP H0876785A JP 6214836 A JP6214836 A JP 6214836A JP 21483694 A JP21483694 A JP 21483694A JP H0876785 A JPH0876785 A JP H0876785A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- standard
- recognition
- input
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 100
- 230000006978 adaptation Effects 0.000 claims description 114
- 238000012790 confirmation Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 6
- 238000003909 pattern recognition Methods 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract description 5
- 238000001228 spectrum Methods 0.000 description 81
- 238000000034 method Methods 0.000 description 74
- 238000012545 processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000004043 responsiveness Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
(57)【要約】
【目的】 認識対象音声そのものを用いた適応方式を搭
載した音声認識装置において、システムの応答性を損な
わずに、環境や話者が学習された標準パターンと異なる
場合においても、高い認識精度を得ることを目的とす
る。 【構成】 110に入力された音声は120により特徴
ベクトル系列に変換される。得られた特徴ベクトルは1
30へ送られ入力パターンとして保持されると同時に1
60へ送られる。160は入力パターンと150に蓄え
られた全標準パターンを用いて予備認識を行ない、類似
度の高い順にN個の正解候補を求める。170は入力パ
ターンと、予備認識結果のN個の正解候補と、対応する
標準パターンを用いて、標準パターンの適応化を行な
い、150に記憶させる。180は予備認識結果のN個
の正解候補に対する適応化された標準パターンを用いて
入力パターンの再認識を行ない、結果を190へ出力す
る。
載した音声認識装置において、システムの応答性を損な
わずに、環境や話者が学習された標準パターンと異なる
場合においても、高い認識精度を得ることを目的とす
る。 【構成】 110に入力された音声は120により特徴
ベクトル系列に変換される。得られた特徴ベクトルは1
30へ送られ入力パターンとして保持されると同時に1
60へ送られる。160は入力パターンと150に蓄え
られた全標準パターンを用いて予備認識を行ない、類似
度の高い順にN個の正解候補を求める。170は入力パ
ターンと、予備認識結果のN個の正解候補と、対応する
標準パターンを用いて、標準パターンの適応化を行な
い、150に記憶させる。180は予備認識結果のN個
の正解候補に対する適応化された標準パターンを用いて
入力パターンの再認識を行ない、結果を190へ出力す
る。
Description
【0001】
【産業上の利用野】本発明は適応化機能を有する音声認
識装置に関する。
識装置に関する。
【0002】
【従来の技術】従来から様々な環境における不特定話者
音声を高精度で認識するために話者および環境への適応
化方式が提案されている。例えば、K.Shikan
o,K.F.Lee, and R.Reddyによる
“Speaker Adaptation Throu
gh Vector Quantization”,P
roc.ICASSP86,pp.2643−2646
(1986)(以下、方法1)ではベクトル量子化され
た入力パターンと標準パターンの時間軸対応付けの結果
から入力話者と標準話者のコードブック間のヒストグラ
ムを求め、話者の適応化を行なう方法が提案されてい
る。また、Alejandro Aceroの“Aco
ustical and Environmental
Robustness in Automatic
Speech Recognition”,Kluwe
r Academic Publishers,ISB
N 0−7923−9284−1(1993)(以下、
方法2)ではスペクトル領域での伝送歪みと加法性雑音
に関する適応パラメータを最尤推定により求め、異なる
入力環境の適応化を行なう方法が示されている。
音声を高精度で認識するために話者および環境への適応
化方式が提案されている。例えば、K.Shikan
o,K.F.Lee, and R.Reddyによる
“Speaker Adaptation Throu
gh Vector Quantization”,P
roc.ICASSP86,pp.2643−2646
(1986)(以下、方法1)ではベクトル量子化され
た入力パターンと標準パターンの時間軸対応付けの結果
から入力話者と標準話者のコードブック間のヒストグラ
ムを求め、話者の適応化を行なう方法が提案されてい
る。また、Alejandro Aceroの“Aco
ustical and Environmental
Robustness in Automatic
Speech Recognition”,Kluwe
r Academic Publishers,ISB
N 0−7923−9284−1(1993)(以下、
方法2)ではスペクトル領域での伝送歪みと加法性雑音
に関する適応パラメータを最尤推定により求め、異なる
入力環境の適応化を行なう方法が示されている。
【0003】これらの方式では新しい話者あるいは環境
で認識を行なう前に、適応用音声データとしてある程度
の量の音声を発声して適応化を行なうことが必要とな
る。
で認識を行なう前に、適応用音声データとしてある程度
の量の音声を発声して適応化を行なうことが必要とな
る。
【0004】一般に同じ話者であってもその声は体調や
精神的状況により影響を受ける。また、電話音声の認識
においては回線特性や背景雑音のレベルは発呼毎に異な
る。したがって、話者および環境の適応化において認識
対象である音声そのものを用いることが望ましい。しか
し、方式1、方式2ではある程度の適応用音声データを
必要とすることと適応化処理に時間がかかることからこ
のような認識対象そのものを用いた適応化は困難であ
る。
精神的状況により影響を受ける。また、電話音声の認識
においては回線特性や背景雑音のレベルは発呼毎に異な
る。したがって、話者および環境の適応化において認識
対象である音声そのものを用いることが望ましい。しか
し、方式1、方式2ではある程度の適応用音声データを
必要とすることと適応化処理に時間がかかることからこ
のような認識対象そのものを用いた適応化は困難であ
る。
【0005】これに対処するための方式として、高木
他、“スペクトル写像による環境適応機能を有する音声
認識”、音響学会講演論文集、pp.173−174、
(1994.3)では認識対象単語そのものを用いて適
応化する方式(以下、方式3)を提案している。方式3
においては環境の異なりを音声区間の平均スペクトルと
雑音区間の平均スペクトルの差として抽出、適応化を行
なうため、発話内容情報のない1単語でも安定した適応
化が可能となっている。
他、“スペクトル写像による環境適応機能を有する音声
認識”、音響学会講演論文集、pp.173−174、
(1994.3)では認識対象単語そのものを用いて適
応化する方式(以下、方式3)を提案している。方式3
においては環境の異なりを音声区間の平均スペクトルと
雑音区間の平均スペクトルの差として抽出、適応化を行
なうため、発話内容情報のない1単語でも安定した適応
化が可能となっている。
【0006】従来の適応化および認識動作を図8を用い
て説明する。
て説明する。
【0007】入力端子810に入力された音声波形は分
析部820により特徴ベクトル系列に変換される。
析部820により特徴ベクトル系列に変換される。
【0008】得られた特徴ベクトルは信号線821によ
り入力パターン記憶部830へ送られ入力パターンとし
て保持される。
り入力パターン記憶部830へ送られ入力パターンとし
て保持される。
【0009】適応時にスイッチ840は信号線831を
信号線842へ接続する。
信号線842へ接続する。
【0010】標準パターン適応部870は信号線842
から入力パターンを、信号線851から標準パターンを
読み出し、適応化を行い、適応化された標準パターンを
標準パターン記憶部850に記憶させる。
から入力パターンを、信号線851から標準パターンを
読み出し、適応化を行い、適応化された標準パターンを
標準パターン記憶部850に記憶させる。
【0011】認識時にスイッチ840は信号線831を
信号線841へ接続する。
信号線841へ接続する。
【0012】認識部880は信号線841から入力パタ
ーンを、信号線852から標準パターンを読み出し、マ
ッチングを行ない類似度を求め、認識結果を出力端子8
90へ出力する。
ーンを、信号線852から標準パターンを読み出し、マ
ッチングを行ない類似度を求め、認識結果を出力端子8
90へ出力する。
【0013】
【発明が解決しようとする課題】しかし方式3で述べら
れる方式を用いた場合であっても、入力発声終了後に適
応化処理時間と認識処理時間が必要であるため、認識結
果を得るまでに時間がかかり、応答性を損ねてしまうと
いう問題がある。
れる方式を用いた場合であっても、入力発声終了後に適
応化処理時間と認識処理時間が必要であるため、認識結
果を得るまでに時間がかかり、応答性を損ねてしまうと
いう問題がある。
【0014】本発明の目的は、認識対象音声そのものを
用いた適応方式を搭載した音声認識装置において、シス
テムの応答性を損なわずに環境や話者が学習された標準
パターンと異なる場合においても、高い認識精度を得る
ことを目的とする。
用いた適応方式を搭載した音声認識装置において、シス
テムの応答性を損なわずに環境や話者が学習された標準
パターンと異なる場合においても、高い認識精度を得る
ことを目的とする。
【0015】
【課題を解決するための手段】第1の発明の音声認識装
置は、音声波形を特徴ベクトルに変換する分析部と、前
記特徴ベクトルを入力パターンとして記憶する入力パタ
ーン記憶部と、認識対象語彙の標準パターンを記憶する
標準パターン記憶部と、前記入力パターンと前記標準パ
ターンの類似度を求め、少なくとも1つの正解候補を出
力する予備認識部と、前記標準パターンと前記入力パタ
ーンと前記正解候補から、前記標準パターンの適応化を
行ない、適応化した標準パターンを前記標準パターンと
して新たに前記標準パターン記憶部に記憶させる標準パ
ターン適応部と、前記標準パターンと前記入力パターン
を用いて前記正解候補の音声認識を行なう本認識部とを
備えることを特徴とする。
置は、音声波形を特徴ベクトルに変換する分析部と、前
記特徴ベクトルを入力パターンとして記憶する入力パタ
ーン記憶部と、認識対象語彙の標準パターンを記憶する
標準パターン記憶部と、前記入力パターンと前記標準パ
ターンの類似度を求め、少なくとも1つの正解候補を出
力する予備認識部と、前記標準パターンと前記入力パタ
ーンと前記正解候補から、前記標準パターンの適応化を
行ない、適応化した標準パターンを前記標準パターンと
して新たに前記標準パターン記憶部に記憶させる標準パ
ターン適応部と、前記標準パターンと前記入力パターン
を用いて前記正解候補の音声認識を行なう本認識部とを
備えることを特徴とする。
【0016】第2の発明の音声認識装置は、音声波形を
特徴ベクトルに変換する分析部と、前記特徴ベクトルを
入力パターンとして記憶する入力パターン記憶部と、認
識対象語彙の標準パターンを記憶する標準パターン記憶
部と、前記入力パターンと前記標準パターンの類似度を
求め、少なくとも1つの正解候補を出力する予備認識部
と、前記標準パターンと前記入力パターンと前記正解候
補から前記入力パターンの適応化を行なう入力パターン
適応部と、前記標準パターンと適応化した入力パターン
を用いて前記正解候補の音声認識を行なう本認識部とを
備えることを特徴とする。
特徴ベクトルに変換する分析部と、前記特徴ベクトルを
入力パターンとして記憶する入力パターン記憶部と、認
識対象語彙の標準パターンを記憶する標準パターン記憶
部と、前記入力パターンと前記標準パターンの類似度を
求め、少なくとも1つの正解候補を出力する予備認識部
と、前記標準パターンと前記入力パターンと前記正解候
補から前記入力パターンの適応化を行なう入力パターン
適応部と、前記標準パターンと適応化した入力パターン
を用いて前記正解候補の音声認識を行なう本認識部とを
備えることを特徴とする。
【0017】第3の発明の音声認識装置は、音声波形を
特徴ベクトルに変換する分析部と、前記特徴ベクトルを
入力パターンとして記憶する入力パターン記憶部と、認
識対象語彙の標準パターンを記憶する標準パターン記憶
部と、前記入力パターンと前記標準パターンの類似度を
求め、少なくとも1つの正解候補を出力する予備認識部
と、前記標準パターンと前記入力パターンと前記正解候
補から、前記標準パターンの適応化を行ない、適応化し
た標準パターンを前記標準パターンとして新たに前記標
準パターン記憶部に記憶させる標準パターン適応部と、
前記標準パターンと前記入力パターンと前記正解候補か
ら、前記入力パターンの適応化を行なう入力パターン適
応部と、前記標準パターンと前記適応化した入力パター
ンを用いて前記正解候補の音声認識を行なう本認識部と
を備えることを特徴とする。
特徴ベクトルに変換する分析部と、前記特徴ベクトルを
入力パターンとして記憶する入力パターン記憶部と、認
識対象語彙の標準パターンを記憶する標準パターン記憶
部と、前記入力パターンと前記標準パターンの類似度を
求め、少なくとも1つの正解候補を出力する予備認識部
と、前記標準パターンと前記入力パターンと前記正解候
補から、前記標準パターンの適応化を行ない、適応化し
た標準パターンを前記標準パターンとして新たに前記標
準パターン記憶部に記憶させる標準パターン適応部と、
前記標準パターンと前記入力パターンと前記正解候補か
ら、前記入力パターンの適応化を行なう入力パターン適
応部と、前記標準パターンと前記適応化した入力パター
ンを用いて前記正解候補の音声認識を行なう本認識部と
を備えることを特徴とする。
【0018】第4の発明の音声認識装置は、第1の発明
において、前記予備認識部の正解候補と前記本認識部の
認識結果を前記標準パターン適応部に入力するスイッチ
を有し、前記入力パターン記憶部の入力パターンと、前
記正解候補又は前記認識結果を用いて標準パターンの適
応化を行なうことを特徴とする。
において、前記予備認識部の正解候補と前記本認識部の
認識結果を前記標準パターン適応部に入力するスイッチ
を有し、前記入力パターン記憶部の入力パターンと、前
記正解候補又は前記認識結果を用いて標準パターンの適
応化を行なうことを特徴とする。
【0019】第5の発明の音声認識装置は、第3の発明
において、前記入力パターン記憶部の入力パターンと前
記標準パターン記憶部の標準パターンと前記本認識部の
認識結果を用いて標準パターンの適応化を行なうことを
特徴とする。
において、前記入力パターン記憶部の入力パターンと前
記標準パターン記憶部の標準パターンと前記本認識部の
認識結果を用いて標準パターンの適応化を行なうことを
特徴とする。
【0020】第6の発明の音声認識装置は、第3の発明
において、前記予備認識部の正解候補と、前記本認識部
の認識結果を前記標準パターン適応部に入力するスイッ
チを有し、前記入力パターン記憶部の入力パターンと前
記正解候補か前記認識結果を用いて標準パターンの適応
化を行なうことを特徴とする。
において、前記予備認識部の正解候補と、前記本認識部
の認識結果を前記標準パターン適応部に入力するスイッ
チを有し、前記入力パターン記憶部の入力パターンと前
記正解候補か前記認識結果を用いて標準パターンの適応
化を行なうことを特徴とする。
【0021】第7の発明の音声認識装置は、第4、第5
又は第6の発明において、前記本認識部の認識結果に対
する使用者の確認、訂正結果を入力する入力部と、前記
訂正結果を認識する認識部を有し、前記標準パターン適
応部は前記予備認識部の正解候補か前記確認部による認
識結果と前記入力パターン記憶部の入力パターンと前記
標準パターン記憶部の標準パターンから標準パターンの
適応化を行なうことを特徴とする。
又は第6の発明において、前記本認識部の認識結果に対
する使用者の確認、訂正結果を入力する入力部と、前記
訂正結果を認識する認識部を有し、前記標準パターン適
応部は前記予備認識部の正解候補か前記確認部による認
識結果と前記入力パターン記憶部の入力パターンと前記
標準パターン記憶部の標準パターンから標準パターンの
適応化を行なうことを特徴とする。
【0022】
【作用】本発明は認識対象音声を用いて適応化すること
で高い認識精度を得つつ応答性を確保するために、それ
以前の入力音声を用いて適応化を行なった結果を用い
て、認識対象音声の予備認識を行ない語彙の予備選択を
行なうとともに該対象音声を用いて適応化を行ない、予
備選択された単語について本認識を行ない認識結果を得
るものである。
で高い認識精度を得つつ応答性を確保するために、それ
以前の入力音声を用いて適応化を行なった結果を用い
て、認識対象音声の予備認識を行ない語彙の予備選択を
行なうとともに該対象音声を用いて適応化を行ない、予
備選択された単語について本認識を行ない認識結果を得
るものである。
【0023】本発明の動作を以下に示す。 1.初期標準パターンをセット。 2.入力音声の分析を行ない入力パターンとする。 3.入力パターンを全認識対象語(語彙数M)の標準パ
ターンを用いて予備認識し、上位N個の正解候補を得
る。 4.入力パターンを用いて標準パターンの適応化を行な
う。 5.適応化された標準パターンを用いて予備認識結果の
上位N個の正解候補を認識対象語彙としてもう一度入力
パターンの認識を行ない、その結果を認識結果として出
力する。 6.ステップ2以降を繰り返す。
ターンを用いて予備認識し、上位N個の正解候補を得
る。 4.入力パターンを用いて標準パターンの適応化を行な
う。 5.適応化された標準パターンを用いて予備認識結果の
上位N個の正解候補を認識対象語彙としてもう一度入力
パターンの認識を行ない、その結果を認識結果として出
力する。 6.ステップ2以降を繰り返す。
【0024】通常、ステップ3までは入力に同期して分
析認識処理が可能であり、音声認識システムの応答性に
影響を与えるのはステップ4の適応化処理とステップ5
の再認識である。
析認識処理が可能であり、音声認識システムの応答性に
影響を与えるのはステップ4の適応化処理とステップ5
の再認識である。
【0025】ステップ4の処理量は用いる適応化方式に
おいて異なるが、例えば方式3を用いた場合には処理量
はごくわずかですむ。
おいて異なるが、例えば方式3を用いた場合には処理量
はごくわずかですむ。
【0026】本方式ではステップ5での認識対象語彙を
予備選択されたN個とするため、全認識対象語彙数をM
とすれば処理量はN/Mとなる。このとき、処理量の削
減率は予備選択の精度に依存する。本方式では、1発話
前までの入力音声を用いて適応化されたパターンを用い
て予備選択を行なうため、背景雑音や回線特性が学習時
とは異なる環境であっても、高い予備選択精度が期待で
きる。
予備選択されたN個とするため、全認識対象語彙数をM
とすれば処理量はN/Mとなる。このとき、処理量の削
減率は予備選択の精度に依存する。本方式では、1発話
前までの入力音声を用いて適応化されたパターンを用い
て予備選択を行なうため、背景雑音や回線特性が学習時
とは異なる環境であっても、高い予備選択精度が期待で
きる。
【0027】本方式では、例えば認識語彙数1000の
実時間音声認識システムで予備選択数を10とすればス
テップ5の処理量はステップ3の1/100となり、ス
テップ3が実時間で動作可能な音声認識システムであれ
ば、2秒の入力音声を再認識するためには20msでよ
く、実用上差し支えない処理時間となる。
実時間音声認識システムで予備選択数を10とすればス
テップ5の処理量はステップ3の1/100となり、ス
テップ3が実時間で動作可能な音声認識システムであれ
ば、2秒の入力音声を再認識するためには20msでよ
く、実用上差し支えない処理時間となる。
【0028】本方式において、利用できる適応化として
は方法3の標準パターンを入力環境に適応する方式に限
らず、さまざまな適応化が考えられる。例えば、入力パ
ターンを標準パターンを学習した環境に適応化する手
法、標準パターンと入力パターンの両者を適応化する方
法のいずれの方法も用いることができる。また、適応化
における予備選択結果の利用についても、方法3では第
1位候補を用いているが、複数個の候補を用いること
も、あるいは、予備選択結果を利用しないことも可能で
ある。また、より精度の高い本認識結果を利用してもう
一度適応化を行なうことも可能である。
は方法3の標準パターンを入力環境に適応する方式に限
らず、さまざまな適応化が考えられる。例えば、入力パ
ターンを標準パターンを学習した環境に適応化する手
法、標準パターンと入力パターンの両者を適応化する方
法のいずれの方法も用いることができる。また、適応化
における予備選択結果の利用についても、方法3では第
1位候補を用いているが、複数個の候補を用いること
も、あるいは、予備選択結果を利用しないことも可能で
ある。また、より精度の高い本認識結果を利用してもう
一度適応化を行なうことも可能である。
【0029】
【実施例】第1の発明の一実施例を図1に示す。
【0030】入力端子110に入力された音声波形{x
1 ,…,xN }は分析部120により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
1 ,…,xN }は分析部120により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
【0031】得られた特徴ベクトルは信号線121によ
り入力パターン記憶部130へ送られ入力パターンとし
て保持されると同時に、信号線122により予備認識部
160へ送られる。
り入力パターン記憶部130へ送られ入力パターンとし
て保持されると同時に、信号線122により予備認識部
160へ送られる。
【0032】予備認識部160は信号線122により送
られた特徴ベクトルと標準パターン記憶部150に蓄え
られた全標準パターンを信号線153から読み出し予備
認識を行ない、類似度の高い順にN個の正解候補を求め
る。
られた特徴ベクトルと標準パターン記憶部150に蓄え
られた全標準パターンを信号線153から読み出し予備
認識を行ない、類似度の高い順にN個の正解候補を求め
る。
【0033】標準パターン適応部170は信号線132
から入力パターンを、信号線161から予備認識結果の
N個の正解候補を、信号線151から標準パターンを読
み出し、適応化を行ない、適応化された標準パターンを
標準パターン記憶部150に記憶させる。
から入力パターンを、信号線161から予備認識結果の
N個の正解候補を、信号線151から標準パターンを読
み出し、適応化を行ない、適応化された標準パターンを
標準パターン記憶部150に記憶させる。
【0034】例えば方式3を用いる場合には、第1位の
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Sv、入力パターンの雑音区間の平均スペクトルNv 、
標準パターンの音声区間の平均スペクトルSw 、標準パ
ターンの雑音区間の平均スペクトルNw を求める。これ
らを用いて全標準パターンのスペクトルSを
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Sv、入力パターンの雑音区間の平均スペクトルNv 、
標準パターンの音声区間の平均スペクトルSw 、標準パ
ターンの雑音区間の平均スペクトルNw を求める。これ
らを用いて全標準パターンのスペクトルSを
【0035】
【数1】
【0036】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0037】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
【0038】
【数2】
【0039】として適応化する。
【0040】ここでは適応化方式として2例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。
【0041】本認識部180は信号線131から入力パ
ターンを、信号線162から予備認識結果のN個の正解
候補を、信号線152から正解候補の標準パターンを読
み出し、マッチングを行ない類似度を求め、認識結果を
出力端子190へ出力する。
ターンを、信号線162から予備認識結果のN個の正解
候補を、信号線152から正解候補の標準パターンを読
み出し、マッチングを行ない類似度を求め、認識結果を
出力端子190へ出力する。
【0042】第2の発明の一実施例を図2に示す。
【0043】入力端子210に入力された音声波形{x
1 ,…,xN }は分析部220により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
1 ,…,xN }は分析部220により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
【0044】得られた特徴ベクトルは信号線221によ
り入力パターン記憶部230へ送られ入力パターンとし
て保持されると同時に、信号線222により予備認識部
260へ送られる。
り入力パターン記憶部230へ送られ入力パターンとし
て保持されると同時に、信号線222により予備認識部
260へ送られる。
【0045】予備認識部260は信号線222により送
られた特徴ベクトルと標準パターン記憶部250に蓄え
られた全標準パターンを信号線253から読み出し予備
認識を行ない、類似度の高い順にN個の正解候補を求め
る。
られた特徴ベクトルと標準パターン記憶部250に蓄え
られた全標準パターンを信号線253から読み出し予備
認識を行ない、類似度の高い順にN個の正解候補を求め
る。
【0046】入力パターン適応部295は信号線231
から入力パターンを、信号線263から予備認識結果の
N個の正解候補を、信号線251から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線296
へ適応化された入力パターンを出力する。
から入力パターンを、信号線263から予備認識結果の
N個の正解候補を、信号線251から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線296
へ適応化された入力パターンを出力する。
【0047】例えば方式3を入力パターンの適応化に用
いる場合に、第1位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルSv 、入力パターンの雑音区間の
平均スペクトルNv 、標準パターンの音声区間の平均ス
ペクトルSw 、標準パターンの雑音区間の平均スペクト
ルNw を求める。これらを用いて入力パターンのスペク
トルSを
いる場合に、第1位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルSv 、入力パターンの雑音区間の
平均スペクトルNv 、標準パターンの音声区間の平均ス
ペクトルSw 、標準パターンの雑音区間の平均スペクト
ルNw を求める。これらを用いて入力パターンのスペク
トルSを
【0048】
【数3】
【0049】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0050】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルSv 、標準パターンの平均特徴
ベクトルSw を求める。これらを用いて入力パターンの
特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルSv 、標準パターンの平均特徴
ベクトルSw を求める。これらを用いて入力パターンの
特徴ベクトルSを
【0051】
【数4】
【0052】として適応化する。
【0053】ここでは適応化方式として2例をあげた
が、ここで利用可能な適応化方式はこれに限らず、入力
パターンを適応化するさまざまな適応化方式が可能であ
る。
が、ここで利用可能な適応化方式はこれに限らず、入力
パターンを適応化するさまざまな適応化方式が可能であ
る。
【0054】本認識部280は信号線296から適応化
された入力パターンを、信号線262から予備認識結果
のN個の正解候補を、信号線252から正解候補の標準
パターンを読み出し、マッチングを行なって認識結果を
出力端子290へ出力する。
された入力パターンを、信号線262から予備認識結果
のN個の正解候補を、信号線252から正解候補の標準
パターンを読み出し、マッチングを行なって認識結果を
出力端子290へ出力する。
【0055】第3の発明の一実施例を図3に示す。
【0056】入力端子310に入力された音声波形{x
1 ,…,xN }は分析部320により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
1 ,…,xN }は分析部320により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
【0057】得られた特徴ベクトルは信号線321によ
り入力パターン記憶部330へ送られ入力パターンとし
て保持されると同時に、信号線322により予備認識部
360へ送られる。
り入力パターン記憶部330へ送られ入力パターンとし
て保持されると同時に、信号線322により予備認識部
360へ送られる。
【0058】予備認識部360は信号線322により送
られた特徴ベクトルと標準パターン記憶部350に蓄え
られた全標準パターンを信号線353から読み出し予備
認識を行ない、類似度の高い順にN個の正解候補を求め
る。
られた特徴ベクトルと標準パターン記憶部350に蓄え
られた全標準パターンを信号線353から読み出し予備
認識を行ない、類似度の高い順にN個の正解候補を求め
る。
【0059】入力パターン適応部395は信号線331
から入力パターンを、信号線363から予備認識結果の
N個の正解候補を、信号線351から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線396
へ適応化された入力パターンを出力する。
から入力パターンを、信号線363から予備認識結果の
N個の正解候補を、信号線351から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線396
へ適応化された入力パターンを出力する。
【0060】例えば方式3を入力パターンの適応化に用
いる場合には、第1位の正解候補の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルSv 、入力パターンの雑音区間
の平均スペクトルNv 、標準パターンの音声区間の平均
スペクトルSw 、標準パターンの雑音区間の平均スペク
トルNw を求める。これらを用いて入力パターンのスペ
クトルSを
いる場合には、第1位の正解候補の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルSv 、入力パターンの雑音区間
の平均スペクトルNv 、標準パターンの音声区間の平均
スペクトルSw 、標準パターンの雑音区間の平均スペク
トルNw を求める。これらを用いて入力パターンのスペ
クトルSを
【0061】
【数5】
【0062】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0063】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルSv 、標準パターンの平均特徴
ベクトルSw を求める。これらを用いて入力パターンの
特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルSv 、標準パターンの平均特徴
ベクトルSw を求める。これらを用いて入力パターンの
特徴ベクトルSを
【0064】
【数6】
【0065】として適応化する。
【0066】標準パターン適応部370は信号線322
から入力パターンを、信号線361から予備認識結果の
N個の正解候補を、信号線351から標準パターンを読
み出し、適応化を行ない、適応化された標準パターンを
標準パターン記憶部350に記憶させる。
から入力パターンを、信号線361から予備認識結果の
N個の正解候補を、信号線351から標準パターンを読
み出し、適応化を行ない、適応化された標準パターンを
標準パターン記憶部350に記憶させる。
【0067】例えば方式3を用いる場合には、第1位の
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Sv 、入力パターンの雑音区間の平均スペクトルNv 、
標準パターンの音声区間の平均スペクトルSw 、標準パ
ターンの雑音区間の平均スペクトルNw を求める。これ
らを用いて全標準パターンのスペクトルSを
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Sv 、入力パターンの雑音区間の平均スペクトルNv 、
標準パターンの音声区間の平均スペクトルSw 、標準パ
ターンの雑音区間の平均スペクトルNw を求める。これ
らを用いて全標準パターンのスペクトルSを
【0068】
【数7】
【0069】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0070】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
【0071】
【数8】
【0072】として適応化する。
【0073】ここでは適応化方式として2例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。
【0074】本認識部380は信号線296から適応化
された入力パターンを、信号線362から予備認識結果
のN個の正解候補を、信号線352から適応化された正
解候補の標準パターンを読み出し、マッチングを行なっ
て認識結果を出力端子390へ出力する。
された入力パターンを、信号線362から予備認識結果
のN個の正解候補を、信号線352から適応化された正
解候補の標準パターンを読み出し、マッチングを行なっ
て認識結果を出力端子390へ出力する。
【0075】第4の発明の一実施例を図4に示す。
【0076】入力端子410に入力された音声波形{x
1 ,…,xN }は分析部420により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
1 ,…,xN }は分析部420により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
【0077】得られた特徴ベクトルは信号線421によ
り入力パターン記憶部430へ送られ入力パターンとし
て保持されると同時に、信号線422により予備認識部
460へ送られる。
り入力パターン記憶部430へ送られ入力パターンとし
て保持されると同時に、信号線422により予備認識部
460へ送られる。
【0078】予備認識部460は信号線422により送
られた特徴ベクトルと標準パターン記憶部450に蓄え
られた全標準パターンを信号線453から読み出し予備
認識を行ない、類似度の高い順にN個の正解候補を求め
る。
られた特徴ベクトルと標準パターン記憶部450に蓄え
られた全標準パターンを信号線453から読み出し予備
認識を行ない、類似度の高い順にN個の正解候補を求め
る。
【0079】標準パターン適応部470はスイッチ47
9を信号線461へ接続し、信号線461から予備認識
結果のN個の正解候補を、信号線433から入力パター
ンを、信号線451から標準パターンを読み出し、適応
化を行ない、適応化された標準パターンを標準パターン
記憶部450に記憶させる。
9を信号線461へ接続し、信号線461から予備認識
結果のN個の正解候補を、信号線433から入力パター
ンを、信号線451から標準パターンを読み出し、適応
化を行ない、適応化された標準パターンを標準パターン
記憶部450に記憶させる。
【0080】例えば方式3を用いる場合には、第1位の
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Sv、入力パターンの雑音区間の平均スペクトルNv 、
標準パターンの音声区間の平均スペクトルSw 、標準パ
ターンの雑音区間の平均スペクトルNw を求める。これ
らを用いて全標準パターンのスペクトルSを
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Sv、入力パターンの雑音区間の平均スペクトルNv 、
標準パターンの音声区間の平均スペクトルSw 、標準パ
ターンの雑音区間の平均スペクトルNw を求める。これ
らを用いて全標準パターンのスペクトルSを
【0081】
【数9】
【0082】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0083】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
【0084】
【数10】
【0085】として適応化する。
【0086】本認識部480は信号線431から入力パ
ターンを、信号線462から予備認識結果のN個の正解
候補を、信号線452から正解候補の標準パターンを読
み出し、マッチングを行ない類似度を求め、認識結果を
出力端子490へ出力する。
ターンを、信号線462から予備認識結果のN個の正解
候補を、信号線452から正解候補の標準パターンを読
み出し、マッチングを行ない類似度を求め、認識結果を
出力端子490へ出力する。
【0087】次に、標準パターン適応部470はスイッ
チ479を信号線482へ接続し、信号線482から本
認識部の認識結果を、信号線433から入力パターン
を、信号線451から標準パターンを読み出し、上記適
応化を再度行ない、適応化された標準パターンを標準パ
ターン記憶部450に記憶させ、次の入力に備える。
チ479を信号線482へ接続し、信号線482から本
認識部の認識結果を、信号線433から入力パターン
を、信号線451から標準パターンを読み出し、上記適
応化を再度行ない、適応化された標準パターンを標準パ
ターン記憶部450に記憶させ、次の入力に備える。
【0088】ここでは適応化方式として2例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。
【0089】また、本認識部の結果を利用するかわり
に、本認識部の結果に対する使用者の確認、修正結果を
利用することも可能である。
に、本認識部の結果に対する使用者の確認、修正結果を
利用することも可能である。
【0090】第5の発明の一実施例を図5に示す。
【0091】入力端子510に入力された音声波形{x
1 ,…,xN }は分析部520により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量が利用可能で
ある。
1 ,…,xN }は分析部520により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量が利用可能で
ある。
【0092】得られた特徴ベクトルは信号線521によ
り入力パターン記憶部530へ送られ入力パターンとし
て保持されると同時に、信号線522により予備認識部
560へ送られる。
り入力パターン記憶部530へ送られ入力パターンとし
て保持されると同時に、信号線522により予備認識部
560へ送られる。
【0093】予備認識部560は信号線522により送
られた特徴ベクトルと標準パターン記憶部550に蓄え
られた全標準パターンを信号線553から読み出し予備
認識を行ない、類似度の高い順にN個の正解候補を求め
る。
られた特徴ベクトルと標準パターン記憶部550に蓄え
られた全標準パターンを信号線553から読み出し予備
認識を行ない、類似度の高い順にN個の正解候補を求め
る。
【0094】入力パターン適応部595は信号線531
から入力パターンを、信号線563から予備認識結果の
N個の正解候補を、信号線551から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線596
へ適応化された入力パターンを出力する。
から入力パターンを、信号線563から予備認識結果の
N個の正解候補を、信号線551から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線596
へ適応化された入力パターンを出力する。
【0095】例えば方式3を入力パターンの適応化に用
いる場合には、第1位の正解候補の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルSv 、入力パターンの雑音区間
の平均スペクトルNv 、標準パターンの音声区間の平均
スペクトルSw 、標準パターンの雑音区間の平均スペク
トルNw を求める。これらを用いて入力パターンのスペ
クトルSを
いる場合には、第1位の正解候補の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルSv 、入力パターンの雑音区間
の平均スペクトルNv 、標準パターンの音声区間の平均
スペクトルSw 、標準パターンの雑音区間の平均スペク
トルNw を求める。これらを用いて入力パターンのスペ
クトルSを
【0096】
【数11】
【0097】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0098】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルSv 、標準パターンの平均特徴
ベクトルSw を求める。これらを用いて入力パターンの
特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルSv 、標準パターンの平均特徴
ベクトルSw を求める。これらを用いて入力パターンの
特徴ベクトルSを
【0099】
【数12】
【0100】として適応化する。
【0101】ここでは適応化方式として2例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、入
力パターンを適応化するさまざまな適応化方式が可能で
ある。
が、ここで利用可能な適応化方式はこれらに限らず、入
力パターンを適応化するさまざまな適応化方式が可能で
ある。
【0102】本認識部580は信号線596から適応化
された入力パターンを、信号線562から予備認識結果
のN個の正解候補を、信号線552から正解候補の標準
パターンを読み出し、マッチングを行なって認識結果を
出力端子590へ出力する。
された入力パターンを、信号線562から予備認識結果
のN個の正解候補を、信号線552から正解候補の標準
パターンを読み出し、マッチングを行なって認識結果を
出力端子590へ出力する。
【0103】次に、標準パターン適応部570は信号線
582から本認識部の認識結果を、信号線533から入
力パターンを、信号線554から標準パターンを読み出
し、適応化を行ない、適応化された標準パターンを標準
パターン記憶部550に記憶させ、次の入力に備える。
582から本認識部の認識結果を、信号線533から入
力パターンを、信号線554から標準パターンを読み出
し、適応化を行ない、適応化された標準パターンを標準
パターン記憶部550に記憶させ、次の入力に備える。
【0104】適応化の手法としては例えば方式3を用い
る場合には、第1位の認識結果の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルSv 、入力パターンの雑音区間の
平均スペクトルNv 、標準パターンの音声区間の平均ス
ペクトルSw 、標準パターンの雑音区間の平均スペクト
ルNW を求める。これらを用いて全標準パターンのスペ
クトルSを
る場合には、第1位の認識結果の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルSv 、入力パターンの雑音区間の
平均スペクトルNv 、標準パターンの音声区間の平均ス
ペクトルSw 、標準パターンの雑音区間の平均スペクト
ルNW を求める。これらを用いて全標準パターンのスペ
クトルSを
【0105】
【数13】
【0106】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0107】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
【0108】
【数14】
【0109】として適応化する。
【0110】ここでは適応化方式として2例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。
【0111】また、本認識部の結果を利用するかわり
に、本認識部の結果に対する使用者の確認、修正結果を
利用することも可能である。
に、本認識部の結果に対する使用者の確認、修正結果を
利用することも可能である。
【0112】第6の発明の一実施例を図6に示す。
【0113】入力端子610に入力された音声波形{x
1 ,…,xN }は分析部620により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
1 ,…,xN }は分析部620により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
【0114】得られた特徴ベクトルは信号線621によ
り入力パターン記憶部630へ送られ入力パターンとし
て保持されると同時に、信号線622により予備認識部
660へ送られる。
り入力パターン記憶部630へ送られ入力パターンとし
て保持されると同時に、信号線622により予備認識部
660へ送られる。
【0115】予備認識部660は信号線622により送
られた特徴ベクトルと標準パターン記憶部650に蓄え
られた全標準パターンを用いて予備認識を行ない、類似
度の高い順にN個の正解候補を求める。
られた特徴ベクトルと標準パターン記憶部650に蓄え
られた全標準パターンを用いて予備認識を行ない、類似
度の高い順にN個の正解候補を求める。
【0116】入力パターン適応部695は信号線631
から入力パターンを、信号線663から予備認識結果の
N個の正解候補を、信号線651から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線696
へ適応化された入力パターンを出力する。
から入力パターンを、信号線663から予備認識結果の
N個の正解候補を、信号線651から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線696
へ適応化された入力パターンを出力する。
【0117】例えば方式3を入力パターンの適応化に用
いる場合に、第1位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルSv 、入力パターンの雑音区間の
平均スペクトルNv 、標準パターンの音声区間の平均ス
ペクトルSw 、標準パターンの雑音区間の平均スペクト
ルNw を求める。これらを用いて入力パターンのスペク
トルSを
いる場合に、第1位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルSv 、入力パターンの雑音区間の
平均スペクトルNv 、標準パターンの音声区間の平均ス
ペクトルSw 、標準パターンの雑音区間の平均スペクト
ルNw を求める。これらを用いて入力パターンのスペク
トルSを
【0118】
【数15】
【0119】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0120】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルSv 、標準パターンの平均特徴
ベクトルSw を求める。これらを用いて入力パターンの
特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルSv 、標準パターンの平均特徴
ベクトルSw を求める。これらを用いて入力パターンの
特徴ベクトルSを
【0121】
【数16】
【0122】として適応化する。
【0123】標準パターン適応部670はスイッチ67
9を信号線661に接続し、信号線632から入力パタ
ーンを、信号線661から予備認識結果のN個の正解候
補を、信号線651から標準パターンを読み出し、適応
化を行ない、適応化された標準パターンを標準パターン
記憶部650に記憶させる。
9を信号線661に接続し、信号線632から入力パタ
ーンを、信号線661から予備認識結果のN個の正解候
補を、信号線651から標準パターンを読み出し、適応
化を行ない、適応化された標準パターンを標準パターン
記憶部650に記憶させる。
【0124】適応化の手法としては例えば方式3を用い
る場合には、第1位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルSv 、入力パターンの雑音区間の
平均スペクトルNv 、標準パターンの音声区間の平均ス
ペクトルSw 、標準パターンの雑音区間の平均スペクト
ルNw を求める。これらを用いて全標準パターンのスペ
クトルSを
る場合には、第1位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルSv 、入力パターンの雑音区間の
平均スペクトルNv 、標準パターンの音声区間の平均ス
ペクトルSw 、標準パターンの雑音区間の平均スペクト
ルNw を求める。これらを用いて全標準パターンのスペ
クトルSを
【0125】
【数17】
【0126】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0127】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
【0128】
【数18】
【0129】として適応化する。
【0130】ここでは適応化方式として2例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。
【0131】本認識部680は信号線696から適応化
された入力パターンを、信号線662から予備認識結果
のN個の正解候補を、信号線652から適応化された正
解候補の標準パターンを読み出し、マッチングを行なっ
て認識結果を出力端子690へ出力する。
された入力パターンを、信号線662から予備認識結果
のN個の正解候補を、信号線652から適応化された正
解候補の標準パターンを読み出し、マッチングを行なっ
て認識結果を出力端子690へ出力する。
【0132】次に、標準パターン適応部はスイッチ67
9を信号線682に接続し、信号線682から本認識部
の認識結果を、信号線632から入力パターンを、信号
線651から標準パターンを読み出し、適応化を行な
い、適応化された標準パターンを標準パターン記憶部6
50に記憶させて、次の入力に備える。
9を信号線682に接続し、信号線682から本認識部
の認識結果を、信号線632から入力パターンを、信号
線651から標準パターンを読み出し、適応化を行な
い、適応化された標準パターンを標準パターン記憶部6
50に記憶させて、次の入力に備える。
【0133】適応化の手法としては、例えば方式3を用
いる場合には、第1位の認識結果の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルSv 、入力パターンの雑音区間
の平均スペクトルNv 、標準パターンの音声区間の平均
スペクトルSw 、標準パターンの雑音区間の平均スペク
トルNw を求める。これらを用いて全標準パターンのス
ペクトルSを
いる場合には、第1位の認識結果の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルSv 、入力パターンの雑音区間
の平均スペクトルNv 、標準パターンの音声区間の平均
スペクトルSw 、標準パターンの雑音区間の平均スペク
トルNw を求める。これらを用いて全標準パターンのス
ペクトルSを
【0134】
【数19】
【0135】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0136】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
【0137】
【数20】
【0138】として適応化する。
【0139】ここでは適応化方式として2例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。
【0140】また、本認識部の結果を利用するかわり
に、本認識部の結果に対する使用者の確認、修正結果を
利用することも可能である。
に、本認識部の結果に対する使用者の確認、修正結果を
利用することも可能である。
【0141】第7の発明の一実施例を図7に示す。
【0142】入力端子710に入力された音声波形{x
1 ,…,xN }は分析部720により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
1 ,…,xN }は分析部720により特徴ベクトル系列
に変換される。特徴ベクトルとしては例えば古井著、
「ディジタル音声処理」、東海大学出版会にあげられて
いるFFT分析、線形予測分析等により得られるケプス
トラム、LPC係数、これらの時間変化量等が利用可能
である。
【0143】得られた特徴ベクトルは信号線721によ
り入力パターン記憶部730へ送られ入力パターンとし
て保持されると同時に、信号線722により予備認識部
760へ送られる。
り入力パターン記憶部730へ送られ入力パターンとし
て保持されると同時に、信号線722により予備認識部
760へ送られる。
【0144】予備認識部760は信号線722により送
られた入力パターンと標準パターン記憶部750に蓄え
られた全標準パターンを用いて予備認識を行ない、類似
度の高い順にN個の正解候補を求める。
られた入力パターンと標準パターン記憶部750に蓄え
られた全標準パターンを用いて予備認識を行ない、類似
度の高い順にN個の正解候補を求める。
【0145】入力パターン適応部795は信号線731
から入力パターンを、信号線763から予備認識結果の
N個の正解候補を、信号線751から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線796
へ適応化された入力パターンを出力する。
から入力パターンを、信号線763から予備認識結果の
N個の正解候補を、信号線751から標準パターンを読
み出し、入力パターンの適応化を行ない、信号線796
へ適応化された入力パターンを出力する。
【0146】例えば方式3を用いる場合には、第1位の
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Sv 、入力パターンの雑音区間の平均スペクトルNv 、
標準パターンの音声区間の平均スペクトルSw 、標準パ
ターンの雑音区間の平均スペクトルNw を求める。これ
らを用いて入力パターンのスペクトルSを
正解候補の標準パターンと入力パターンの時間軸対応付
けを行ない、入力パターンの音声区間の平均スペクトル
Sv 、入力パターンの雑音区間の平均スペクトルNv 、
標準パターンの音声区間の平均スペクトルSw 、標準パ
ターンの雑音区間の平均スペクトルNw を求める。これ
らを用いて入力パターンのスペクトルSを
【0147】
【数21】
【0148】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0149】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルSv 、標準パターンの平均特徴
ベクトルSw を求める。これらを用いて入力パターンの
特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの平均特徴ベクトルSv 、標準パターンの平均特徴
ベクトルSw を求める。これらを用いて入力パターンの
特徴ベクトルSを
【0150】
【数22】
【0151】として適応化する。
【0152】標準パターン適応部770はスイッチ77
9を信号線761に接続し、信号線732から入力パタ
ーンを、信号線764から予備認識結果のN個の正解候
補を、信号線751から標準パターンを読み出し、適応
化を行ない、適応化された標準パターンを標準パターン
記憶部750に記憶させる。
9を信号線761に接続し、信号線732から入力パタ
ーンを、信号線764から予備認識結果のN個の正解候
補を、信号線751から標準パターンを読み出し、適応
化を行ない、適応化された標準パターンを標準パターン
記憶部750に記憶させる。
【0153】適応化の手法としては例えば方式3を用い
る場合には、第1位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルSv 、入力パターンの雑音区間の
平均スペクトルNv 、標準パターンの音声区間の平均ス
ペクトルSw 、標準パターンの雑音区間の平均スペクト
ルNw を求める。これらを用いて全標準パターンのスペ
クトルSを
る場合には、第1位の正解候補の標準パターンと入力パ
ターンの時間軸対応付けを行ない、入力パターンの音声
区間の平均スペクトルSv 、入力パターンの雑音区間の
平均スペクトルNv 、標準パターンの音声区間の平均ス
ペクトルSw 、標準パターンの雑音区間の平均スペクト
ルNw を求める。これらを用いて全標準パターンのスペ
クトルSを
【0154】
【数23】
【0155】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0156】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
【0157】
【数24】
【0158】として適応化する。
【0159】ここでは適応化方式として2例をあげた
が、ここで利用可能な適応化方式はこれに限らず、標準
パターンを適応化するさまざまな適応化方式が可能であ
る。
が、ここで利用可能な適応化方式はこれに限らず、標準
パターンを適応化するさまざまな適応化方式が可能であ
る。
【0160】本認識部780は信号線796から適応化
された入力パターンを、信号線762から予備認識結果
のN個の正解候補を、信号線752から適応化された正
解候補の標準パターンを読み出し、マッチングを行なっ
て認識結果を出力端子790へ出力する。
された入力パターンを、信号線762から予備認識結果
のN個の正解候補を、信号線752から適応化された正
解候補の標準パターンを読み出し、マッチングを行なっ
て認識結果を出力端子790へ出力する。
【0161】次に、確認部740は信号線782から本
認識部の結果を、端子745から本認識部の認識結果に
対する確認結果を受け取り、本認識部の結果が誤ってい
た場合には修正し、正しい認識結果を信号線741へ出
力する。
認識部の結果を、端子745から本認識部の認識結果に
対する確認結果を受け取り、本認識部の結果が誤ってい
た場合には修正し、正しい認識結果を信号線741へ出
力する。
【0162】次に、標準パターン適応部はスイッチ77
9を信号線741に接続し、信号線741から正しい認
識結果を、信号線732から入力パターンを、信号線7
54から標準パターンを読み出し、適応化を行ない、適
応化された標準パターンを標準パターン記憶部750に
記憶させ、次の入力に備える。
9を信号線741に接続し、信号線741から正しい認
識結果を、信号線732から入力パターンを、信号線7
54から標準パターンを読み出し、適応化を行ない、適
応化された標準パターンを標準パターン記憶部750に
記憶させ、次の入力に備える。
【0163】適応化の手法としては、例えば方式3を用
いる場合には、第1位の認識結果の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルSv 、入力パターンの雑音区間
の平均スペクトルNv 、標準パターンの音声区間の平均
スペクトルSw 、標準パターンの雑音区間の平均スペク
トルNw を求める。これらを用いて全標準パターンのス
ペクトルSを
いる場合には、第1位の認識結果の標準パターンと入力
パターンの時間軸対応付けを行ない、入力パターンの音
声区間の平均スペクトルSv 、入力パターンの雑音区間
の平均スペクトルNv 、標準パターンの音声区間の平均
スペクトルSw 、標準パターンの雑音区間の平均スペク
トルNw を求める。これらを用いて全標準パターンのス
ペクトルSを
【0164】
【数25】
【0165】として適応化する。ここで、Sk はスペク
トルSのk番目の周波数成分を表す。
トルSのk番目の周波数成分を表す。
【0166】あるいは、第1位の正解候補の標準パター
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
ンと入力パターンの時間軸対応付けを行ない、入力パタ
ーンの音声区間の平均特徴ベクトルSv 、入力パターン
の雑音区間の平均特徴ベクトルNv 、標準パターンの音
声区間の平均特徴ベクトルSw 、標準パターンの雑音区
間の平均特徴ベクトルNw を求める。これらを用いて全
標準パターンの特徴ベクトルSを
【0167】
【数26】
【0168】として適応化する。
【0169】ここでは適応化方式として2例をあげた
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。
が、ここで利用可能な適応化方式はこれらに限らず、標
準パターンを適応化するさまざまな適応化方式が可能で
ある。特に、この場合に次発話までに適応化が行なえれ
ばよいため、処理量が多い適応化方式も利用可能であ
る。
【0170】この場合常に正しい認識結果を用いて適応
化を行なうため、より精度の高い適応化が可能であり、
認識率の向上が期待される。
化を行なうため、より精度の高い適応化が可能であり、
認識率の向上が期待される。
【0171】
【発明の効果】本発明によれば、ある時刻までの入力音
声を用いて適応化を行なった結果を用いて、次時刻の認
識対象音声の予備認識を行ない語彙の予備選択を行なう
とともに該対象音声を用いて適応化を行ない、予備選択
された単語について本認識を行なうことができるので、
環境は話者が学習された標準パターンと異なる場合にお
いてもシステムの応答性を損なわずに、高い認識精度が
得られる。
声を用いて適応化を行なった結果を用いて、次時刻の認
識対象音声の予備認識を行ない語彙の予備選択を行なう
とともに該対象音声を用いて適応化を行ない、予備選択
された単語について本認識を行なうことができるので、
環境は話者が学習された標準パターンと異なる場合にお
いてもシステムの応答性を損なわずに、高い認識精度が
得られる。
【図1】第1の発明の一実施例を示すブロック図。
【図2】第2の発明の一実施例を示すブロック図。
【図3】第3の発明の一実施例を示すブロック図。
【図4】第4の発明の一実施例を示すブロック図。
【図5】第5の発明の一実施例を示すブロック図。
【図6】第6の発明の一実施例を示すブロック図。
【図7】第7の発明の一実施例を示すブロック図。
【図8】従来技術の一例を示すブロック図。
120,220,320,420,520,620,7
20,820 分析部 130,230,330,430,530,630,7
30,830 入力パターン記憶部 150,250,350,450,550,650,7
50,850 標準パターン記憶部 160,260,360,460,560,660,7
60 予備認識部 170,370,470,570,670,770,8
70 標準パターン適応部 180,280,380,480,580,680,7
80,880 本認識部 295,395,595,695,795 入力パター
ン適応部 479,679,779,840 スイッチ
20,820 分析部 130,230,330,430,530,630,7
30,830 入力パターン記憶部 150,250,350,450,550,650,7
50,850 標準パターン記憶部 160,260,360,460,560,660,7
60 予備認識部 170,370,470,570,670,770,8
70 標準パターン適応部 180,280,380,480,580,680,7
80,880 本認識部 295,395,595,695,795 入力パター
ン適応部 479,679,779,840 スイッチ
Claims (7)
- 【請求項1】音声波形を特徴ベクトルに変換する分析部
と、前記特徴ベクトルを入力パターンとして記憶する入
力パターン記憶部と、認識対象語彙の標準パターンを記
憶する標準パターン記憶部と、前記入力パターンと前記
標準パターンの類似度を求め、少なくとも1つの正解候
補を出力する予備認識部と、前記標準パターンと前記入
力パターンと前記正解候補から、前記標準パターンの適
応化を行ない、適応化した標準パターンを前記標準パタ
ーンとして新たに前記標準パターン記憶部に記憶させる
標準パターン適応部と、前記標準パターンと前記入力パ
ターンを用いて前記正解候補の音声認識を行なう本認識
部とを備えることを特徴とする音声認識装置。 - 【請求項2】音声波形を特徴ベクトルに変換する分析部
と、前記特徴ベクトルを入力パターンとして記憶する入
力パターン記憶部と、認識対象語彙の標準パターンを記
憶する標準パターン記憶部と、前記入力パターンと前記
標準パターンの類似度を求め、少なくとも1つの正解候
補を出力する予備認識部と、前記標準パターンと前記入
力パターンと前記正解候補から前記入力パターンの適応
化を行なう入力パターン適応部と、前記標準パターンと
適応化した入力パターンを用いて前記正解候補の音声認
識を行なう本認識部とを備えることを特徴とする音声認
識装置。 - 【請求項3】音声波形を特徴ベクトルに変換する分析部
と、前記特徴ベクトルを入力パターンとして記憶する入
力パターン記憶部と、認識対象語彙の標準パターンを記
憶する標準パターン記憶部と、前記入力パターンと前記
標準パターンの類似度を求め、少なくとも1つの正解候
補を出力する予備認識部と、前記標準パターンと前記入
力パターンと前記正解候補から、前記標準パターンの適
応化を行ない、適応化した標準パターンを前記標準パタ
ーンとして新たに前記標準パターン記憶部に記憶させる
標準パターン適応部と、前記標準パターンと前記入力パ
ターンと前記正解候補から、前記入力パターンの適応化
を行なう入力パターン適応部と、前記標準パターンと前
記適応化した入力パターンを用いて前記正解候補の音声
認識を行なう本認識部とを備えることを特徴とする音声
認識装置。 - 【請求項4】前記予備認識部の正解候補と前記本認識部
の認識結果を前記標準パターン適応部に入力するスイッ
チを有し、前記入力パターン記憶部の入力パターンと、
前記正解候補又は前記認識結果を用いて標準パターンの
適応化を行なうことを特徴とする請求項1記載の音声認
識装置。 - 【請求項5】前記入力パターン記憶部の入力パターンと
前記標準パターン記憶部の標準パターンと前記本認識部
の認識結果を用いて標準パターンの適応化を行なうこと
を特徴とする請求項3記載の音声認識装置。 - 【請求項6】前記予備認識部の正解候補と、前記本認識
部の認識結果を前記標準パターン適応部に入力するスイ
ッチを有し、前記入力パターン記憶部の入力パターンと
前記正解候補か前記認識結果を用いて標準パターンの適
応化を行なうことを特徴とする請求項3記載の音声認識
装置。 - 【請求項7】前記本認識部の認識結果に対する使用者の
確認、訂正結果を入力する入力部と、前記訂正結果を認
識する認識部を有し、前記標準パターン適応部は前記予
備認識部の正解候補か前記確認部による認識結果と前記
入力パターン記憶部の入力パターンと前記標準パターン
記憶部の標準パターンから標準パターンの適応化を行な
うことを特徴とする請求項4、5又は6記載の音声認識
装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6214836A JP2768274B2 (ja) | 1994-09-08 | 1994-09-08 | 音声認識装置 |
US08/524,807 US5778340A (en) | 1994-09-08 | 1995-09-07 | Adapting input speech and reference patterns for changing speaker and environment |
DE69524321T DE69524321T2 (de) | 1994-09-08 | 1995-09-08 | Spracherkenner |
EP95114127A EP0701245B1 (en) | 1994-09-08 | 1995-09-08 | Speech recognizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6214836A JP2768274B2 (ja) | 1994-09-08 | 1994-09-08 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0876785A true JPH0876785A (ja) | 1996-03-22 |
JP2768274B2 JP2768274B2 (ja) | 1998-06-25 |
Family
ID=16662349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6214836A Expired - Lifetime JP2768274B2 (ja) | 1994-09-08 | 1994-09-08 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5778340A (ja) |
EP (1) | EP0701245B1 (ja) |
JP (1) | JP2768274B2 (ja) |
DE (1) | DE69524321T2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003504675A (ja) * | 1999-07-08 | 2003-02-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 転送手段を有するスピーチ認識装置 |
KR100408524B1 (ko) * | 2001-08-22 | 2003-12-06 | 삼성전자주식회사 | 음성인식방법 및 그 장치 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2780676B2 (ja) * | 1995-06-23 | 1998-07-30 | 日本電気株式会社 | 音声認識装置及び音声認識方法 |
JPH10143191A (ja) * | 1996-11-13 | 1998-05-29 | Hitachi Ltd | 音声認識システム |
JPH10254486A (ja) * | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
US6076057A (en) * | 1997-05-21 | 2000-06-13 | At&T Corp | Unsupervised HMM adaptation based on speech-silence discrimination |
US5960397A (en) * | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
US6757652B1 (en) * | 1998-03-03 | 2004-06-29 | Koninklijke Philips Electronics N.V. | Multiple stage speech recognizer |
US6826350B1 (en) * | 1998-06-01 | 2004-11-30 | Nippon Telegraph And Telephone Corporation | High-speed signal search method device and recording medium for the same |
JP3156668B2 (ja) * | 1998-06-19 | 2001-04-16 | 日本電気株式会社 | 音声認識装置 |
US6223155B1 (en) * | 1998-08-14 | 2001-04-24 | Conexant Systems, Inc. | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system |
CN1864202A (zh) * | 2003-10-08 | 2006-11-15 | 皇家飞利浦电子股份有限公司 | 语音识别系统的环境失配的自适应 |
US20060031067A1 (en) * | 2004-08-05 | 2006-02-09 | Nissan Motor Co., Ltd. | Sound input device |
US20060242016A1 (en) * | 2005-01-14 | 2006-10-26 | Tremor Media Llc | Dynamic advertisement system and method |
WO2007056344A2 (en) * | 2005-11-07 | 2007-05-18 | Scanscout, Inc. | Techiques for model optimization for statistical pattern recognition |
CN101390156B (zh) * | 2006-02-27 | 2011-12-07 | 日本电气株式会社 | 标准模式适应装置、标准模式适应方法 |
US20080109391A1 (en) * | 2006-11-07 | 2008-05-08 | Scanscout, Inc. | Classifying content based on mood |
US8549550B2 (en) * | 2008-09-17 | 2013-10-01 | Tubemogul, Inc. | Method and apparatus for passively monitoring online video viewing and viewer behavior |
US8577996B2 (en) * | 2007-09-18 | 2013-11-05 | Tremor Video, Inc. | Method and apparatus for tracing users of online video web sites |
US20090259551A1 (en) * | 2008-04-11 | 2009-10-15 | Tremor Media, Inc. | System and method for inserting advertisements from multiple ad servers via a master component |
US9612995B2 (en) | 2008-09-17 | 2017-04-04 | Adobe Systems Incorporated | Video viewer targeting based on preference similarity |
US20110093783A1 (en) * | 2009-10-16 | 2011-04-21 | Charles Parra | Method and system for linking media components |
EP2502195A2 (en) * | 2009-11-20 | 2012-09-26 | Tadashi Yonezaki | Methods and apparatus for optimizing advertisement allocation |
DE102014210716A1 (de) * | 2014-06-05 | 2015-12-17 | Continental Automotive Gmbh | Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4941178A (en) * | 1986-04-01 | 1990-07-10 | Gte Laboratories Incorporated | Speech recognition using preclassification and spectral normalization |
US4843562A (en) * | 1987-06-24 | 1989-06-27 | Broadcast Data Systems Limited Partnership | Broadcast information classification system and method |
JP2733955B2 (ja) * | 1988-05-18 | 1998-03-30 | 日本電気株式会社 | 適応型音声認識装置 |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
US5040213A (en) * | 1989-01-27 | 1991-08-13 | Ricoh Company, Ltd. | Method of renewing reference pattern stored in dictionary |
JP2852298B2 (ja) * | 1990-07-31 | 1999-01-27 | 日本電気株式会社 | 標準パターン適応化方式 |
US5278942A (en) * | 1991-12-05 | 1994-01-11 | International Business Machines Corporation | Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data |
-
1994
- 1994-09-08 JP JP6214836A patent/JP2768274B2/ja not_active Expired - Lifetime
-
1995
- 1995-09-07 US US08/524,807 patent/US5778340A/en not_active Expired - Fee Related
- 1995-09-08 EP EP95114127A patent/EP0701245B1/en not_active Expired - Lifetime
- 1995-09-08 DE DE69524321T patent/DE69524321T2/de not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003504675A (ja) * | 1999-07-08 | 2003-02-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 転送手段を有するスピーチ認識装置 |
JP4659311B2 (ja) * | 1999-07-08 | 2011-03-30 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 転送手段を有するスピーチ認識装置 |
KR100408524B1 (ko) * | 2001-08-22 | 2003-12-06 | 삼성전자주식회사 | 음성인식방법 및 그 장치 |
Also Published As
Publication number | Publication date |
---|---|
EP0701245B1 (en) | 2001-12-05 |
DE69524321T2 (de) | 2002-07-18 |
DE69524321D1 (de) | 2002-01-17 |
EP0701245A3 (en) | 1997-11-05 |
JP2768274B2 (ja) | 1998-06-25 |
US5778340A (en) | 1998-07-07 |
EP0701245A2 (en) | 1996-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2768274B2 (ja) | 音声認識装置 | |
US6671669B1 (en) | combined engine system and method for voice recognition | |
CN1248192C (zh) | 半监控说话者自适应 | |
JP3826032B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US8543399B2 (en) | Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms | |
US6925154B2 (en) | Methods and apparatus for conversational name dialing systems | |
EP0619911B1 (en) | Children's speech training aid | |
EP0907949B1 (en) | Method and system for dynamically adjusted training for speech recognition | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
US6836758B2 (en) | System and method for hybrid voice recognition | |
JPH0422276B2 (ja) | ||
JPH08234788A (ja) | 音声認識のバイアス等化方法および装置 | |
JPH0968994A (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
EP1022725B1 (en) | Selection of acoustic models using speaker verification | |
KR20010102549A (ko) | 화자 인식 방법 및 장치 | |
EP1734509A1 (en) | Method and system for speech recognition | |
US6868381B1 (en) | Method and apparatus providing hypothesis driven speech modelling for use in speech recognition | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
KR100698811B1 (ko) | 음성 인식 거부 방식 | |
KR20040038419A (ko) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 | |
US20020069064A1 (en) | Method and apparatus for testing user interface integrity of speech-enabled devices | |
KR100622019B1 (ko) | 음성 인터페이스 시스템 및 방법 | |
Bub | Task adaptation for dialogues via telephone lines | |
JPH0997095A (ja) | 音声認識装置 | |
JP3357752B2 (ja) | パターンマッチング装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19980310 |