JP2002189487A

JP2002189487A - 音声認識装置および音声認識方法

Info

Publication number: JP2002189487A
Application number: JP2000387226A
Authority: JP
Inventors: Masahiko Ikeda; 雅彦池田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-12-20
Filing date: 2000-12-20
Publication date: 2002-07-05
Also published as: US20020111802A1; US6823304B2

Abstract

(57)【要約】【課題】ノイズによって先頭子音が検出できない場合
であっても、先頭子音の情報をマッチング処理に反映さ
せることが可能な音声認識装置を提供すること。【解決手段】先頭子音バッファ５は、有音検出器７に
よって検出された先頭有音の前にある特徴パラメータを
先頭子音の特徴パラメータとして格納する。そして、マ
ッチング処理器８は、先頭子音バッファ５に格納された
先頭子音の特徴パラメータと登録パターンの特徴パラメ
ータとのマッチング処理を行なう。したがって、マッチ
ング処理器８は、ノイズによって先頭子音が検出できな
い場合であっても、先頭子音の情報を反映したマッチン
グ処理を行なうことが可能となる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＤＰ（Dynamic Pr
ogramming）マッチング法やＨＭＭ（Hidden Markov Mod
el）法などを用いた音声認識技術に関し、特に、音声の
先頭子音を正確に検出して、認識の精度を向上させた音
声認識装置および音声認識方法に関する。

【０００２】

【従来の技術】近年、パーソナルコンピュータやワード
プロセッサ等の情報処理装置において、音声によって文
章の入力等を可能とするために音声認識装置の開発が盛
んに行われている。従来の音声認識装置においては、発
声速度の変動を非線形なパターン伸縮による整合で効率
的に吸収するＤＰマッチング法や、話者の個人差等に起
因するスペクトルそのものの変動に対しても高い認識精
度が得られるＨＭＭ法が用いられている。

【０００３】図１０は、従来の音声認識装置の概略構成
を示すブロック図である。この音声認識装置は、話者の
音声を入力するマイク１０１と、マイク１０１を介して
入力された音声を、アナログ信号からデジタル情報であ
る音データに変換するＡ／Ｄ（Analog/Digital）変換器
１０２と、Ａ／Ｄ変換器１０２から出力された音データ
を分析して特徴パラメータ１０４に変換する音響分析器
１０３と、Ａ／Ｄ変換器１０２から出力された音データ
を用いて音声の区間を検出する区間検出器１０５と、区
間検出器１０５による検出結果に基づいて特徴パラメー
タ１０４と登録データとのマッチング処理を行なうマッ
チング処理器１０６と、マッチング処理器１０６による
マッチング結果によって認識の判定を行なって認識結果
１０８を出力する認識判定器１０７とを含む。

【０００４】特徴パラメータとして、パワー、Δパワ
ー、ＬＰＣ（Linear Predictive Coding）ケプストラ
ム、ＬＰＣΔケプストラム等が用いられる。

【０００５】区間検出器１０５は、音データに対して次
式の演算を行なって音響パワーを算出し、音響パワーが
所定のしきい値を超える区間を音声の区間と判定する。
なお、ｘ_iはフレーム内のｉ番目の音の振幅値を、Ｎは
１フレームのサンプル数を示している。

【０００６】

【数１】

【０００７】

【発明が解決しようとする課題】上述した音声の区間検
出方法において、図１１（ａ）に示すように音声にノイ
ズが混入されない場合には、音データから音声の先頭子
音区間を正確に検出することが可能であるため、認識判
定器１０７は音声区間の正しい認識結果を出力すること
ができる。

【０００８】しかし、図１１（ｂ）に示すように、マイ
ク１０１等のＳ／Ｎ比が悪くて音声にノイズが混入され
る場合には、音声の先頭子音区間がノイズに埋もれてし
まい、音データから先頭子音に関する情報が欠落して、
認識判定器１０７は検出可能範囲の認識結果しか出力す
ることができなくなるという問題点があった。

【０００９】また、スペクトラルサブトラクションのよ
うに、予めノイズの周波数の情報を検出してそのアベレ
ージを算出し、音声の各フレームからそのアベレージを
減算した後に先頭子音区間を検出する方法も可能であ
る。しかし、この方法は演算量が多くなって処理の高速
化が図れないという問題点や、ノイズレベルが大きい場
合には分析する音声の波形自体に影響を与えることがあ
り、正確に音声認識が行なえなくなるという問題点があ
った。

【００１０】本発明は、上記問題点を解決するためにな
されたものであり、第１の目的は、ノイズによって先頭
子音が検出できない場合であっても、先頭子音の情報を
マッチング処理に反映させることが可能な音声認識装置
および音声認識方法を提供することである。

【００１１】第２の目的は、マッチング処理における始
端位置のずれを解消することが可能な音声認識装置およ
び音声認識方法を提供することである。

【００１２】第３の目的は、マッチング処理の回数を削
減して音声の認識速度を向上させた音声認識装置および
音声認識方法を提供することである。

【００１３】第４の目的は、正当な認識結果が得られな
い場合であっても、認識結果である可能性が高いものを
出力することが可能な音声認識装置および音声認識方法
を提供することである。

【００１４】

【課題を解決するための手段】請求項１に記載の音声認
識装置は、音データを特徴パラメータに変換する音響分
析器と、音データから先頭有音を検出する有音検出器
と、有音検出器によって検出された先頭有音の前にある
特徴パラメータを先頭子音の特徴パラメータとして格納
する先頭子音バッファと、先頭子音バッファに格納され
た先頭子音の特徴パラメータと登録パターンの特徴パラ
メータとのマッチング処理を行なうマッチング処理器
と、マッチング処理器によるマッチング結果に基づい
て、認識結果を出力する認識判定器とを含む。

【００１５】先頭子音バッファは、有音検出器によって
検出された先頭有音の前にある特徴パラメータを先頭子
音の特徴パラメータとして格納するので、ノイズによっ
て先頭子音が検出できない場合であっても、先頭子音の
情報を反映したマッチング処理を行なうことが可能とな
る。

【００１６】請求項２に記載の音声認識装置は、請求項
１記載の音声認識装置であって、先頭子音バッファは、
固定数のフレーム分の特徴パラメータを記憶する容量を
有し、マッチング処理器は、マッチングの始端位置を変
えながら、先頭子音バッファに格納された先頭子音の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なって、最良の始端位置を決定する。

【００１７】マッチング処理器は、マッチングの始端位
置を変えながら、先頭子音バッファに格納された先頭子
音の特徴パラメータと登録パターンの特徴パラメータと
のマッチング処理を行なって最良の始端位置を決定する
ので、始端のずれを解消することが可能となる。

【００１８】請求項３に記載の音声認識装置は、請求項
１記載の音声認識装置であって、先頭子音バッファは、
登録パターンの最長の先頭子音長以上のフレーム分の特
徴パラメータを記憶する容量を有し、マッチング処理器
は、マッチングの始端位置を変えながら、先頭子音バッ
ファに格納された特徴パラメータのうち登録パターンの
先頭子音長に相当する特徴パターンと登録パターンの特
徴パラメータとのマッチング処理を行なって、最良の始
端位置を決定する。

【００１９】先頭子音バッファに格納された特徴パラメ
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンのみがマッチング処理に使用されるので、始端候
補を削減することができ、音声認識の処理を高速に行な
うことが可能となる。

【００２０】請求項４に記載の音声認識装置は、請求項
１記載の音声認識装置であって、マッチング処理器は、
先頭子音バッファに格納された先頭子音の特徴パラメー
タと登録パターンの特徴パラメータとのマッチング処理
を、時系列に対して後ろ向きの方向に行なう。

【００２１】したがって、始端位置を変えながらマッチ
ング処理を行なう必要がなくなり、音声認識の処理を高
速に行なうことが可能となる。

【００２２】請求項５に記載の音声認識装置は、音デー
タを特徴パラメータに変換する音響分析器と、音データ
から先頭有音を検出する有音検出器と、有音検出器によ
って検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納する先頭子音バッフ
ァと、有音検出器によって検出された先頭有音以降の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なう第１のマッチング処理器と、第１の
マッチング処理器によるマッチング結果に基づいて、先
頭子音の候補を判定する第１の認識判定部と、先頭子音
バッファに格納された先頭子音の特徴パラメータと第１
の認識判定部によって判定された先頭子音の候補に対応
する登録パターンの特徴パラメータとのマッチング処理
を行なう第２のマッチング処理器と、第１の認識判定器
による判定結果および第２のマッチング処理器によるマ
ッチング結果に基づいて、認識結果を出力する第２の認
識判定器とを含む。

【００２３】第２のマッチング処理器は、先頭子音バッ
ファに格納された先頭子音の特徴パラメータと第１の認
識判定部によって判定された先頭子音の候補に対応する
登録パターンの特徴パラメータとのマッチング処理を行
なうので、マッチング処理を行なう先頭子音の候補数を
削減することができ、音声認識の処理を高速に行なうこ
とが可能となる。

【００２４】請求項６に記載の音声認識装置は、請求項
５記載の音声認識装置であって、第２の認識判定器は、
第１の認識判定器による判定結果と第２のマッチング処
理器によるマッチング結果とを重みを付けて加算し、加
算結果に基づいて認識結果を出力する。

【００２５】したがって、音声認識の精度を向上させる
ことが可能となる。請求項７に記載の音声認識装置は、
請求項５または６記載の音声認識装置であって、先頭子
音バッファは、登録パターンの最長の先頭子音長以上の
フレーム分の特徴パラメータを記憶する容量を有し、第
２のマッチング処理器は、マッチングの始端位置を変え
ながら、先頭子音バッファに格納された特徴パラメータ
のうち登録パターンの先頭子音長に相当する特徴パター
ンと登録パターンの特徴パラメータとのマッチング処理
を行なって、最良の始端位置を決定する。

【００２６】先頭子音バッファに格納された特徴パラメ
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンのみがマッチング処理に使用されるので、始端候
補を削減することができ、音声認識の処理を高速に行な
うことが可能となる。

【００２７】請求項８に記載の音声認識装置は、請求項
５または６記載の音声認識装置であって、第２のマッチ
ング処理器は、先頭子音バッファに格納された先頭子音
の特徴パラメータと登録パターンの特徴パラメータとの
マッチング処理を、時系列に対して後ろ向きの方向に行
なう。

【００２８】したがって、始端位置を変えながらマッチ
ング処理を行なう必要がなくなり、音声認識の処理を高
速に行なうことが可能となる。

【００２９】請求項９に記載の音声認識装置は、音デー
タを特徴パラメータに変換する音響分析器と、音データ
から先頭有音を検出する有音検出器と、有音検出器によ
って検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納する先頭子音バッフ
ァと、有音検出器によって検出された先頭有音以降の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なって先頭有音を判別し、判別された先
頭有音に対応する先頭子音を統計的に判別して、音韻の
候補を出力する音韻判別器と、先頭子音バッファに格納
された先頭子音の特徴パラメータと音韻判別器から出力
された音韻の候補に対応する登録パターンの特徴パラメ
ータとのマッチング処理を行なうマッチング処理器と、
マッチング処理器によるマッチング結果に基づいて、認
識結果を出力する認識判定器と、過去の音声の認識結果
を格納する認識結果格納装置と、認識結果格納装置に格
納された過去の認識結果を参照して、認識判定器による
認識結果の正当性を判定する正当性判定器とを含む。

【００３０】マッチング処理器は、先頭子音バッファに
格納された先頭子音の特徴パラメータと音韻判別器から
出力された音韻の候補に対応する登録パターンの特徴パ
ラメータとのマッチング処理を行なうので、マッチング
処理の回数を削減することができ、音声認識の処理速度
を向上させることが可能となる。また、正当性判定器
は、過去の認識結果を参照して、認識判定器による認識
結果の正当性を判定するので、音声認識の精度を向上さ
せることが可能となる。

【００３１】請求項１０に記載の音声認識装置は、請求
項９記載の音声認識装置であって、正当性判定器は、認
識判定器による認識結果に正当なものがないと判定した
場合には、認識結果記憶装置に記憶された過去の認識結
果から認識結果を選択して出力する。

【００３２】したがって、正当な認識結果が得られない
場合であっても、認識結果である可能性が高いものを出
力することが可能となる。

【００３３】請求項１１に記載の音声認識装置は、請求
項９または１０記載の音声認識装置であって、先頭子音
バッファは、登録パターンの最長の先頭子音長以上のフ
レーム分の特徴パラメータを記憶する容量を有し、マッ
チング処理器は、マッチングの始端位置を変えながら、
先頭子音バッファに格納された特徴パラメータのうち登
録パターンの先頭子音長に相当する特徴パターンと登録
パターンの特徴パラメータとのマッチング処理を行なっ
て、最良の始端位置を決定する。

【００３４】先頭子音バッファに格納された特徴パラメ
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンのみがマッチング処理に使用されるので、始端候
補を削減することができ、音声認識の処理を高速に行な
うことが可能となる。

【００３５】請求項１２に記載の音声認識装置は、請求
項９または１０記載の音声認識装置であって、マッチン
グ処理器は、先頭子音バッファに格納された先頭子音の
特徴パラメータと登録パターンの特徴パラメータとのマ
ッチング処理を、時系列に対して後ろ向きの方向に行な
う。

【００３６】したがって、始端位置を変えながらマッチ
ング処理を行なう必要がなくなり、音声認識の処理を高
速に行なうことが可能となる。

【００３７】請求項１３に記載の音声認識方法は、音デ
ータを特徴パラメータに変換するステップと、音データ
から先頭有音を検出するステップと、検出された先頭有
音の前にある特徴パラメータを先頭子音の特徴パラメー
タとして格納するステップと、格納された先頭子音の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なうステップと、マッチング結果に基づ
いて、認識結果を出力するステップとを含む。

【００３８】検出された先頭有音の前にある特徴パラメ
ータが先頭子音の特徴パラメータとして格納されるの
で、ノイズによって先頭子音が検出できない場合であっ
ても、先頭子音の情報を反映したマッチング処理を行な
うことが可能となる。

【００３９】請求項１４に記載の音声認識方法は、音デ
ータを特徴パラメータに変換するステップと、音データ
から先頭有音を検出するステップと、検出された先頭有
音の前にある特徴パラメータを先頭子音の特徴パラメー
タとして格納するステップと、検出された先頭有音以降
の特徴パラメータと登録パターンの特徴パラメータとの
第１のマッチング処理を行なうステップと、第１のマッ
チング処理によるマッチング結果に基づいて、先頭子音
の候補を判定するステップと、格納された先頭子音の特
徴パラメータと判定された先頭子音の候補に対応する登
録パターンの特徴パラメータとの第２のマッチング処理
を行なうステップと、判定された先頭子音の候補および
第２のマッチング処理によるマッチング結果に基づい
て、認識結果を出力するステップとを含む。

【００４０】格納された先頭子音の特徴パラメータと判
定された先頭子音の候補に対応する登録パターンの特徴
パラメータとのマッチング処理が行なわれるので、マッ
チング処理を行なう先頭子音の候補数を削減することが
でき、音声認識の処理を高速に行なうことが可能とな
る。

【００４１】請求項１５に記載の音声認識方法は、音デ
ータを特徴パラメータに変換するステップと、音データ
から先頭有音を検出するステップと、検出された先頭有
音の前にある特徴パラメータを先頭子音の特徴パラメー
タとして格納するステップと、検出された先頭有音以降
の特徴パラメータと登録パターンの特徴パラメータとの
マッチング処理を行なって先頭有音を判別し、判別され
た先頭有音に対応する先頭子音を統計的に判別して、音
韻の候補を出力するステップと、格納された先頭子音の
特徴パラメータと出力された音韻の候補に対応する登録
パターンの特徴パラメータとのマッチング処理を行なう
ステップと、マッチング結果に基づいて、認識結果を出
力するステップと、過去の音声の認識結果を格納するス
テップと、格納された過去の認識結果を参照して、認識
結果の正当性を判定するステップとを含む。

【００４２】格納された先頭子音の特徴パラメータと出
力された音韻の候補に対応する登録パターンの特徴パラ
メータとのマッチング処理が行なわれるので、マッチン
グ処理の回数を削減することができ、音声認識の処理速
度を向上させることが可能となる。また、過去の認識結
果を参照して、認識結果の正当性を判定するので、音声
認識の精度を向上させることが可能となる。

【００４３】

【発明の実施の形態】（実施の形態１）図１は、本発明
の実施の形態１における音声認識装置の概略構成を示す
ブロック図である。この音声認識装置は、話者の音声を
入力するマイク１と、マイク１を介して入力された音声
を、アナログ信号からデジタル情報である音データに変
換するＡ／Ｄ変換器２と、Ａ／Ｄ変換器２から出力され
た音データを分析して特徴パラメータ４に変換する音響
分析器３と、音声の先頭子音に相当する固定数のフレー
ム分の特徴パラメータを格納する先頭子音バッファ５
と、Ａ／Ｄ変換器２から出力された音データを用いて音
声の区間を検出する区間検出器６と、区間検出器６によ
る検出結果に基づいて先頭子音バッファ５に格納された
先頭子音の特徴パラメータおよび先頭有音以降の特徴パ
ラメータ４と登録データとのマッチング処理を行なうマ
ッチング処理器８と、マッチング処理器８によるマッチ
ング結果によって認識の判定を行なって認識結果１０を
出力する認識判定器９とを含む。

【００４４】区間検出器６は、Ａ／Ｄ変換器２から出力
された音データを用いて音声の有音を検出する有音検出
器７を含む。この有音検出器７は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。

【００４５】音響分析器３は、Ａ／Ｄ変換器２から出力
された音データを分析して、フレーム（Ｘサンプル、Ｙ
間隔）単位で特徴パラメータ４に変換する。先頭子音バ
ッファ５は、ＦＩＦＯ（First In First Out）方式のバ
ッファであり、先頭子音として確保する固定数のフレー
ム（以下、固定数をＦフレームとする。）分の特徴パラ
メータを保存できるだけの容量を有している。

【００４６】有音検出器７によって先頭有音が検出され
ると、そのとき先頭子音バッファ５に格納されているＦ
フレーム分の特徴パラメータが、先頭子音区間の特徴パ
ラメータであると見なされる。マッチング処理器８は、
先頭子音バッファ５に格納されている先頭子音区間の特
徴パラメータと登録データとのマッチング処理を行な
い、引き続いて、有音検出器７によって有音が検出され
た後の特徴パラメータ４と登録データとのマッチング処
理を行なう。そして、マッチング処理器８は、区間検出
器６によって音声区間が終了と判断されるまでマッチン
グ処理を行なう。

【００４７】認識判定器９は、マッチング処理器８から
出力されるマッチング結果に基づいて音声の認識を行な
い、その認識結果１０を出力する。

【００４８】図２は、本実施の形態における音声認識装
置の処理手順を説明するためのフローチャートである。
まず、話者がマイク１を介して音声を入力すると（Ｓ
１）、有音検出器７によって有音であるか否かが判定さ
れる（Ｓ２）。有音検出器７によって有音が検出されな
ければ（Ｓ２，Ｎｏ）、ステップＳ１に戻って音声入力
が繰返される。

【００４９】また、有音検出器７によって有音が検出さ
れると（Ｓ２，Ｙｅｓ）、その有音が先頭有音であるか
否かが判定される（Ｓ３）。その有音が先頭有音であれ
ば（Ｓ３，Ｙｅｓ）、音声の先頭をＦフレーム前、すな
わち先頭子音バッファ５に格納されているＦフレーム分
の特徴パラメータの先頭を音声の先頭とし（Ｓ４）、ス
テップＳ５へ進む。また、その有音が先頭有音でなけれ
ば（Ｓ３，Ｎｏ）、そのままステップＳ５へ進む。

【００５０】ステップＳ５において、マッチング処理器
８は、区間検出器６によって音声区間が終了と判断され
るまでマッチング処理を行なう。なお、図２に示す処理
手順は単語認識の場合を示しており、認識判定器９は認
識結果１０として単語候補を出力する。

【００５１】図３は、本実施の形態におけるマッチング
処理を説明するための図である。上述したように、先頭
有音の前にあるＦフレーム分の特徴パラメータを、先頭
子音の特徴パラメータとしているが、話者の子音の長さ
には変動があるため、フレーム毎に最良の始端候補を決
定する必要がある。先頭子音バッファ５に格納されてい
るＦフレーム分の特徴パラメータを先頭から順に１，
２，３，…，Ｆとする。また、入力された音声の特徴パ
ラメータを入力パターンとし、登録されている特徴パラ
メータを登録パターンとする。

【００５２】マッチング処理器８は、図３に示す始端可
能範囲内において、入力パターンのフレーム毎（１，
２，３，…，Ｆ）に最良の始端候補を決定する。Ｆ個の
フレームに対し、順々に処理するが、現在処理している
より前のフレームにおける最良の始端候補と比較して、
その現在のフレームまでの始端候補の中で最良の始端候
補を決定する。すなわち、図３に示す始端可能範囲内の
Ｆ²通りの始端候補からマッチング処理を行なって、そ
の始端候補の中から最良の始端候補を決定する。登録パ
ターンはＮ個であり、各登録パターンについて最良の始
端候補を決定する。そして、マッチング処理器８は、各
登録パターンについて、その決定された最良の始端候補
におけるマッチング結果を認識判定器９へ出力する。認
識判定器９は、各マッチング結果に基づきＮ個の中から
入力パターンと最もマッチした登録パターンを決定す
る。

【００５３】なお、音響分析器３、区間検出器６、有音
検出器７、マッチング処理器８および認識判定器９は、
プロセッサがコンピュータプログラムを実行することに
よって実現することも可能である。このコンピュータプ
ログラムは、記録媒体に記録されてユーザに提供され、
汎用のコンピュータが記録媒体に記録されたプログラム
を実行することによって上述した処理手順に従って音声
認識が行なわれる。

【００５４】以上説明したように、本実施の形態におけ
る音声認識装置によれば、先頭有音を検出し、先頭有音
の前にある固定数のフレームを先頭子音としてマッチン
グ処理を行なうようにしたので、ノイズによって先頭子
音を検出できない場合であっても先頭子音の情報をマッ
チング処理に反映させることができ、音声認識の精度を
向上させることが可能となった。また、始端可能範囲内
で最良の始端候補を決定するようにしたので、始端のず
れを解消することができ、さらに音声認識の精度を向上
させることが可能となった。

【００５５】（実施の形態２）図４は、本発明の実施の
形態２における音声認識装置の概略構成を示すブロック
図である。この音声認識装置は、話者の音声を入力する
マイク１と、マイク１を介して入力された音声を、アナ
ログ信号からデジタル情報である音データに変換するＡ
／Ｄ変換器２と、Ａ／Ｄ変換器２から出力された音デー
タを分析して特徴パラメータ４に変換する音響分析器３
と、Ａ／Ｄ変換器２から出力された音データを用いて音
声の区間を検出する区間検出器６と、登録パターンの最
長の先頭子音長以上のフレーム分の特徴パラメータを格
納する先頭子音バッファ１８と、区間検出器６による検
出結果に基づいて先頭有音以降の特徴パラメータ４と登
録データとのマッチング処理を行なう第１のマッチング
処理器１９と、第１のマッチング処理器１９によるマッ
チング結果によって有音以降の音データの認識の判定を
行なう第１の認識判定器２０と、先頭子音バッファ１８
に格納された先頭子音の特徴パラメータと第１の認識判
定器２０による認識結果のうち上位ｎ番目までの登録デ
ータとのマッチング処理を行なう第２のマッチング処理
器２１と、第１の認識判定器２０による判定結果と第２
のマッチング処理器２１によるマッチング結果とに重み
をつけて加算し、認識の判定を行なって認識結果２３を
出力する第２の認識判定器２２とを含む。

【００５６】区間検出器６は、Ａ／Ｄ変換器２から出力
された音データを用いて音声の有音を検出する有音検出
器７を含む。この有音検出器７は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。

【００５７】音響分析器３は、Ａ／Ｄ変換器２から出力
された音データを分析して、フレーム単位で特徴パラメ
ータ４に変換する。先頭子音バッファ１８は、ＦＩＦＯ
方式のバッファであり、登録パターンの最長の先頭子音
長以上のフレーム分の特徴パラメータを保存できるだけ
の容量を有している。

【００５８】第２のマッチング処理器２１は、先頭子音
バッファ１８に格納された先頭子音の特徴パラメータと
先頭有音以降の特徴パラメータとを入力パターンとし、
この入力パターンと第１の認識判定器２０による認識結
果のうち上位ｎ番目までの登録パターンとのマッチング
処理を行なう。なお、第２のマッチング処理器２１は、
先頭子音バッファ１８に格納された先頭子音の特徴パラ
メータと先頭子音の登録パターンとのみをマッチング処
理しても良い。

【００５９】有音検出器７によって先頭有音が検出され
ると、第１のマッチング処理器１９は、先頭有音以降の
特徴パラメータ４と登録パターンの特徴パラメータとの
みマッチング処理を行なう。第１の認識判定器２０は、
第１のマッチング処理器１９から出力された先頭有音以
降のマッチング結果に基づいて、Ｎ個の登録パターンの
うち上位ｎ番目（Ｎ＞ｎ）までの候補を判定して出力す
る。

【００６０】第２のマッチング処理器２１は、先頭子音
バッファ１８に格納されている先頭子音区間の特徴パラ
メータおよび先頭有音以降の特徴パラメータ４と、第１
の認識判定器２０から出力された上位ｎ番目までの候補
に対応する登録データとのマッチング処理を行なう。そ
して、第２の認識判定器２２は、第１の認識判定器２０
による判定結果と第２のマッチング処理器２１によるマ
ッチング結果とに重みをつけて加算し、認識の判定を行
なって認識結果２３を出力する。

【００６１】図５は、本実施の形態におけるマッチング
処理を説明するための図である。上述したように、登録
パターンの最長の先頭子音長以上のフレーム分の特徴パ
ラメータを先頭子音バッファ１８に格納しているが、第
２のマッチング処理器２１がマッチング処理を行なう際
には、上位ｎ番目までの候補に対応する登録パターンの
先頭子音長（Ｓ₁フレーム）と同じ長さのフレームだけ
を用いる。すなわち、先頭子音バッファ１８に格納され
た特徴パラメータのうち、後から格納されたＳ ₁フレー
ム分の特徴パラメータのみが使用される。

【００６２】第２のマッチング処理器２１は、図５に示
す端点自由度範囲内における始端からマッチング処理を
行ない、最良の始端候補を決定する。このように、先頭
子音バッファ１８に格納された特徴パラメータのうち、
登録パターンの先頭子音長と同じ長さの特徴パラメータ
だけを用いるので、始端候補の数を減らすことができ
る。

【００６３】なお、音響分析器３、区間検出器６、有音
検出器７、第１のマッチング処理器１９、第１の認識判
定器２０、第２のマッチング処理器２１および第２の認
識判定器２２は、プロセッサがコンピュータプログラム
を実行することによって実現することも可能である。こ
のコンピュータプログラムは、記録媒体に記録されてユ
ーザに提供され、汎用のコンピュータが記録媒体に記録
されたプログラムを実行することによって上述した処理
手順に従って音声認識が行なわれる。

【００６４】以上説明したように、本実施の形態におけ
る音声認識装置によれば、先頭有音を検出し、先頭有音
以降の特徴パラメータと登録パターンの特徴パラメータ
とのマッチング処理を行なって上位ｎ番目までの候補を
抽出するようにしたので、先頭子音のマッチング処理を
行なう登録パターンの数を減らすことができ、実施の形
態１における音声認識装置と比較して、さらに処理量を
軽減することが可能となった。

【００６５】また、第２の認識判定器２２は、第１の認
識判定器２０による判定結果と第２のマッチング処理器
２１によるマッチング結果とに重みをつけて加算し、認
識の判定を行なうようにしたので、マイク１等のＳ／Ｎ
比が悪くて先頭子音の情報がほとんど検出されない場合
であっても、認識の精度を向上させることが可能となっ
た。

【００６６】また、先頭子音バッファ１８に格納された
特徴パラメータのうち、登録パターンの先頭子音長と同
じ長さの特徴パラメータだけを用いるので、始端候補の
数を減らすことができ、実施の形態１における音声認識
装置と比較して、さらに処理量を軽減することが可能と
なった。

【００６７】（実施の形態３）図６は、本発明の実施の
形態３における音声認識装置の概略構成を示すブロック
図である。この音声認識装置は、話者の音声を入力する
マイク１と、マイク１を介して入力された音声を、アナ
ログ信号からデジタル情報である音データに変換するＡ
／Ｄ変換器２と、Ａ／Ｄ変換器２から出力された音デー
タを分析して特徴パラメータ４に変換する音響分析器３
と、Ａ／Ｄ変換器２から出力された音データを用いて音
声の区間を検出する区間検出器６と、登録パターンの最
長の先頭子音長以上のフレーム分の特徴パラメータを格
納する先頭子音バッファ１８と、区間検出器６による検
出結果に基づいて有音以降の特徴パラメータ４と登録デ
ータとのマッチング処理を行なう第１のマッチング処理
器１９と、第１のマッチング処理器１９によるマッチン
グ結果によって先頭有音以降の音データの認識の判定を
行なう第１の認識判定器２０と、先頭子音バッファ１８
に格納された先頭子音の特徴パラメータと第１の認識判
定器２０による認識結果のうち上位ｎ番目までの登録デ
ータとのマッチング処理を時間を遡る方向に行なう第３
のマッチング処理器２５と、第１の認識判定器２０によ
る判定結果と第３のマッチング処理器２５によるマッチ
ング結果とに重みをつけて加算し、認識の判定を行なっ
て認識結果２６を出力する第２の認識判定器２２とを含
む。

【００６８】区間検出器６は、Ａ／Ｄ変換器２から出力
された音データを用いて音声の有音を検出する有音検出
器７を含む。この有音検出器７は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。

【００６９】音響分析器３は、Ａ／Ｄ変換器２から出力
された音データを分析して、フレーム単位で特徴パラメ
ータ４に変換する。先頭子音バッファ１８は、登録パタ
ーンの最長の先頭子音長以上のフレーム分の特徴パラメ
ータを保存できるだけの容量を有している。

【００７０】第３のマッチング処理器２５は、先頭子音
バッファ１８に格納された先頭子音の特徴パラメータと
第１の認識判定器２０による認識結果のうち上位ｎ番目
までの登録パターンとのマッチング処理を時系列に対し
て後ろ向きの方向（時間を遡る方向）に行なう。

【００７１】有音検出器７によって先頭有音が検出され
ると、第１のマッチング処理器１９は、先頭有音以降の
特徴パラメータ４と登録パターンの特徴パラメータとの
みマッチング処理を行なう。第１の認識判定器２０は、
第１のマッチング処理器１９から出力された先頭有音以
降のマッチング結果に基づいて、Ｎ個の登録パターンの
うち上位ｎ番目までの候補を判定して出力する。

【００７２】第３のマッチング処理器２５は、先頭子音
バッファ１８に格納されている先頭子音区間の特徴パラ
メータと登録データとのマッチング処理を時系列に対し
て後ろ向きの方向に行なう。そして、第２の認識判定器
２２は、第１の認識判定器２０による判定結果と第３の
マッチング処理器２５によるマッチング結果とに重みを
つけて加算し、認識の判定を行なって認識結果２６を出
力する。

【００７３】図７は、本実施の形態におけるマッチング
処理を説明するための図である。上述したように、登録
パターンの最長の先頭子音長以上のフレーム分の特徴パ
ラメータを先頭子音バッファ１８に格納しているが、第
２のマッチング処理器２５が時系列に対して後ろ向きの
方向にマッチング処理を行なうので、マッチング処理に
使用されるフレーム数は登録パターンによって変動す
る。

【００７４】第１のマッチング処理器１９は、図７に示
す先頭有音位置から第１のマッチング方向にマッチング
処理を行なう。また、第３のマッチング処理器２５は、
図７に示す先頭有音位置から第２のマッチング方向にマ
ッチング処理を行なう。したがって、実施の形態１およ
び２における音声認識装置のように、最良の始端候補を
決定する必要がなくなる。

【００７５】なお、音響分析器３、区間検出器６、有音
検出器７、第１のマッチング処理器１９、第１の認識判
定器２０、第２の認識判定器２２および第３のマッチン
グ処理器２５は、プロセッサがコンピュータプログラム
を実行することによって実現することも可能である。こ
のコンピュータプログラムは、記録媒体に記録されてユ
ーザに提供され、汎用のコンピュータが記録媒体に記録
されたプログラムを実行することによって上述した処理
手順に従って音声認識が行なわれる。

【００７６】以上説明したように、本実施の形態におけ
る音声認識装置によれば、第２の実施の形態における音
声認識装置によって奏される効果に加えて、第３のマッ
チング処理器２５が時系列に対して後ろ向きの方向にマ
ッチング処理を行なうようにしたので、最良の始端候補
を決定する必要がなくなり、さらに処理量を軽減するこ
とが可能となった。

【００７７】（実施の形態４）図８は、本発明の実施の
形態４における音声認識装置の概略構成を示すブロック
図である。この音声認識装置は、話者の音声を入力する
マイク１と、マイク１を介して入力された音声を、アナ
ログ信号からデジタル情報である音データに変換するＡ
／Ｄ変換器２と、Ａ／Ｄ変換器２から出力された音デー
タを分析して特徴パラメータ４に変換する音響分析器３
と、Ａ／Ｄ変換器２から出力された音データを用いて音
声の区間を検出する区間検出器６と、登録パターンの最
長の先頭子音長以上のフレーム分の特徴パラメータを格
納する先頭子音バッファ１８と、区間検出器６による検
出結果に基づいて先頭有音以降の特徴パラメータ４と登
録データとのマッチング処理を行なって音韻（有音）を
判別し、この判別された音韻に対応する子音を統計的に
判別する音韻判別器２９と、音韻判別器２９によって判
別された音韻に対応する登録データと先頭子音バッファ
１８に格納された先頭子音の特徴パラメータおよび先頭
有音以降の特徴パラメータ４とのマッチング処理を行な
うマッチング処理器３０と、マッチング処理器３０によ
るマッチング結果によって音声の認識の判定を行なう認
識判定器３１と、過去の認識結果を記憶する認識結果記
憶装置３２と、認識結果記憶装置３２に記憶された過去
の認識結果を参照して、認識判定器３１によって判定さ
れた認識結果が正当であるか否かを判定して認識結果３
４を出力する正当性判定器３３とを含む。

【００７８】区間検出器６は、Ａ／Ｄ変換器２から出力
された音データを用いて音声の有音を検出する有音検出
器７を含む。この有音検出器７は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。

【００７９】音響分析器３は、Ａ／Ｄ変換器２から出力
された音データを分析して、フレーム単位で特徴パラメ
ータ４に変換する。先頭子音バッファ１８は、登録パタ
ーンの最長の先頭子音長以上のフレーム分の特徴パラメ
ータを保存できるだけの容量を有している。

【００８０】音韻判別器２９は、有音検出器７による先
頭有音が検出されると、先頭有音以降の特徴パラメータ
４と登録データとのマッチング処理を行なって音韻（有
音）を判別する。図９に示すように、音韻判別器２９
は、有音別の子音の統計データ（分布情報）をテーブル
として保持している。このテーブルは、予め経験的に求
められた情報が統計データとして格納されても良いし、
過去の有音に対応する子音の判別結果を計数して統計デ
ータとして格納されても良い。音韻判別器２９は、テー
ブルを参照することによって、マッチング処理によって
判別された有音に対応する子音を統計的に出現頻度が高
い順に音韻候補として出力する。なお、音韻判別部２９
は、判別された音韻情報に対して出現頻度に応じた重み
を付けて出力するようにしても良い。

【００８１】マッチング処理器３０は、音韻判別器２９
から出力された音韻情報に対応する登録データと、先頭
子音バッファ１８に格納された先頭子音に対応する特徴
パラメータおよび先頭有音以降の特徴パラメータ４との
マッチング処理を行なって、マッチング結果を認識判定
器３１へ出力する。認識判定器３１は、マッチング処理
器３０から出力されたマッチング結果に基づいて、入力
された音声の認識の判定を行なう。

【００８２】認識結果記憶装置３２は、認識判定器３１
によって判定された過去の認識結果を記憶している。正
当性判定器３３は、認識結果記憶装置３２を検索するこ
とによって、認識判定器３１による判定結果が正当であ
るか否かを判定する。正当性判定器３３は、たとえば、
認識判定器３１による判定結果が認識結果記憶装置３２
内にあればその判定結果を正当であると判定し、その判
定結果が認識結果記憶装置３２内になければ正当でない
と判定する等が考えられる。

【００８３】正当性判定器３３が、認識判定器３１から
出力された認識結果が正当でないと判定した場合には、
音韻判別器２９から出力された音韻情報の中から次候補
を選択し、マッチング処理器３０がその音韻情報に対し
てマッチング処理を行なって、同様の処理を繰返す。ま
た、正当性判別器３３が、音韻判別器２９から出力され
た候補の中に正当な認識結果がないと判定した場合に
は、認識結果記憶装置３２に記憶されている認識結果の
中から最も可能性の高いもの、たとえば最も近似したも
のを認識結果３４として出力する。

【００８４】なお、音響分析器３、区間検出器６、有音
検出器７、音韻判別器２９、マッチング処理器３０、認
識判定器３１、および正当性判定器３３は、プロセッサ
がコンピュータプログラムを実行することによって実現
することも可能である。このコンピュータプログラム
は、記録媒体に記録されてユーザに提供され、汎用のコ
ンピュータが記録媒体に記録されたプログラムを実行す
ることによって上述した処理手順に従って音声認識が行
なわれる。

【００８５】以上説明したように、本実施の形態におけ
る音声認識装置によれば、先頭有音から統計的に先頭子
音の候補を判別し、その候補に対してのみマッチング処
理を行なうようにしたので、先頭子音を精度よく判別で
きるとともに、マッチング処理を減らすことにより音声
認識の処理速度を向上させることが可能となった。ま
た、過去の認識結果を用いて認識結果の正当性を判別
し、正当な認識結果が得られない場合であっても可能性
の高いものを認識結果として出力することが可能となっ
た。

【００８６】今回開示された実施の形態は、すべての点
で例示であって制限的なものではないと考えられるべき
である。本発明の範囲は上記した説明ではなくて特許請
求の範囲によって示され、特許請求の範囲と均等の意味
および範囲内でのすべての変更が含まれることが意図さ
れる。

【００８７】

【発明の効果】請求項１に記載の音声認識装置によれ
ば、先頭子音バッファが有音検出器によって検出された
先頭有音の前にある特徴パラメータを先頭子音の特徴パ
ラメータとして格納するので、ノイズによって先頭子音
が検出できない場合であっても、先頭子音の情報を反映
したマッチング処理を行なうことが可能となった。

【００８８】請求項２に記載の音声認識装置によれば、
マッチング処理器がマッチングの始端位置を変えなが
ら、先頭子音バッファに格納された先頭子音の特徴パラ
メータと登録パターンの特徴パラメータとのマッチング
処理を行なって最良の始端位置を決定するので、始端の
ずれを解消することが可能となった。

【００８９】請求項３に記載の音声認識装置によれば、
先頭子音バッファに格納された特徴パラメータのうち登
録パターンの先頭子音長に相当する特徴パターンのみが
マッチング処理に使用されるので、始端候補を削減する
ことができ、音声認識の処理を高速に行なうことが可能
となった。

【００９０】請求項４に記載の音声認識装置によれば、
始端位置を変えながらマッチング処理を行なう必要がな
くなり音声認識の処理を高速に行なうことが可能となっ
た。

【００９１】請求項５に記載の音声認識装置によれば、
第２のマッチング処理器が先頭子音バッファに格納され
た先頭子音の特徴パラメータと第１の認識判定部によっ
て判定された先頭子音の候補に対応する登録パターンの
特徴パラメータとのマッチング処理を行なうので、マッ
チング処理を行なう先頭子音の候補数を削減することが
でき、音声認識の処理を高速に行なうことが可能となっ
た。

【００９２】請求項６に記載の音声認識装置によれば、
音声認識の精度を向上させることが可能となった。

【００９３】請求項７に記載の音声認識装置によれば、
先頭子音バッファに格納された特徴パラメータのうち登
録パターンの先頭子音長に相当する特徴パターンのみが
マッチング処理に使用されるので、始端候補を削減する
ことができ、音声認識の処理を高速に行なうことが可能
となった。

【００９４】請求項８に記載の音声認識装置によれば、
始端位置を変えながらマッチング処理を行なう必要がな
くなり音声認識の処理を高速に行なうことが可能となっ
た。

【００９５】請求項９に記載の音声認識装置によれば、
マッチング処理器が先頭子音バッファに格納された先頭
子音の特徴パラメータと音韻判別器から出力された音韻
の候補に対応する登録パターンの特徴パラメータとのマ
ッチング処理を行なうので、マッチング処理の回数を削
減することができ、音声認識の処理速度を向上させるこ
とが可能となった。また、正当性判定器が過去の認識結
果を参照して、認識判定器による認識結果の正当性を判
定するので、音声認識の精度を向上させることが可能と
なった。

【００９６】請求項１０に記載の音声認識装置によれ
ば、正当な認識結果が得られない場合であっても、認識
結果である可能性が高いものを出力することが可能とな
った。

【００９７】請求項１１に記載の音声認識装置によれ
ば、先頭子音バッファに格納された特徴パラメータのう
ち登録パターンの先頭子音長に相当する特徴パターンの
みがマッチング処理に使用されるので、始端候補を削減
することができ、音声認識の処理を高速に行なうことが
可能となった。

【００９８】請求項１２に記載の音声認識装置によれ
ば、始端位置を変えながらマッチング処理を行なう必要
がなくなり、音声認識の処理を高速に行なうことが可能
となった。

【００９９】請求項１３に記載の音声認識方法によれ
ば、検出された先頭有音の前にある特徴パラメータが先
頭子音の特徴パラメータとして格納されるので、ノイズ
によって先頭子音が検出できない場合であっても、先頭
子音の情報を反映したマッチング処理を行なうことが可
能となった。

【０１００】請求項１４に記載の音声認識方法によれ
ば、格納された先頭子音の特徴パラメータと判定された
先頭子音の候補に対応する登録パターンの特徴パラメー
タとのマッチング処理が行なわれるので、マッチング処
理を行なう先頭子音の候補数を削減することができ、音
声認識の処理を高速に行なうことが可能となった。

【０１０１】請求項１５に記載の音声認識方法によれ
ば、格納された先頭子音の特徴パラメータと出力された
音韻の候補に対応する登録パターンの特徴パラメータと
のマッチング処理が行なわれるので、マッチング処理の
回数を削減することができ、音声認識の処理速度を向上
させることが可能となった。また、過去の認識結果を参
照して、認識結果の正当性を判定するので、音声認識の
精度を向上させることが可能となった。

【図面の簡単な説明】

【図１】本発明の実施の形態１における音声認識装置
の概略構成を示すブロック図である。

【図２】本発明の実施の形態１における音声認識装置
の処理手順を説明するためのフローチャートである。

【図３】本発明の実施の形態１におけるマッチング処
理を説明するための図である。

【図４】本発明の実施の形態２における音声認識装置
の概略構成を示すブロック図である。

【図５】本発明の実施の形態２におけるマッチング処
理を説明するための図である。

【図６】本発明の実施の形態３における音声認識装置
の概略構成を示すブロック図である。

【図７】本発明の実施の形態３におけるマッチング処
理を説明するための図である。

【図８】本発明の実施の形態４における音声認識装置
の概略構成を示すブロック図である。

【図９】有音別の子音の統計データの一例を示す図で
ある。

【図１０】従来の音声認識装置の概略構成を示すブロ
ック図である。

【図１１】従来の音声認識の区間検出方法における問
題点を説明するための図である。

【符号の説明】

１マイク、２Ａ／Ｄ変換器、３音響分析器、４
特徴パラメータ、５，１８先頭子音バッファ、６区
間検出器、７有音検出器、８，３０マッチング処理
器、９，３１認識判定器、１０，２３，２６，３４
認識結果、１９第１のマッチング処理器、２０第１の
認識判定器、２１第２のマッチング処理器、２２第
２の認識判定器、２５第３のマッチング処理器、２９
音韻判別器、３２認識結果記憶装置、３３正当性
判定器。

Claims

【特許請求の範囲】

【請求項１】音データを特徴パラメータに変換する音
響分析器と、前記音データから先頭有音を検出する有音検出器と、前記有音検出器によって検出された先頭有音の前にある
特徴パラメータを先頭子音の特徴パラメータとして格納
する先頭子音バッファと、前記先頭子音バッファに格納された先頭子音の特徴パラ
メータと登録パターンの特徴パラメータとのマッチング
処理を行なうマッチング処理器と、前記マッチング処理器によるマッチング結果に基づい
て、認識結果を出力する認識判定器とを含む音声認識装
置。
【請求項２】前記先頭子音バッファは、固定数のフレ
ーム分の特徴パラメータを記憶する容量を有し、前記マッチング処理器は、マッチングの始端位置を変え
ながら、前記先頭子音バッファに格納された先頭子音の
特徴パラメータと登録パターンの特徴パラメータとのマ
ッチング処理を行なって、最良の始端位置を決定する、
請求項１記載の音声認識装置。
【請求項３】前記先頭子音バッファは、登録パターン
の最長の先頭子音長以上のフレーム分の特徴パラメータ
を記憶する容量を有し、前記マッチング処理器は、マッチングの始端位置を変え
ながら、前記先頭子音バッファに格納された特徴パラメ
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンと登録パターンの特徴パラメータとのマッチング
処理を行なって、最良の始端位置を決定する、請求項１
記載の音声認識装置。
【請求項４】前記マッチング処理器は、前記先頭子音
バッファに格納された先頭子音の特徴パラメータと登録
パターンの特徴パラメータとのマッチング処理を、時系
列に対して後ろ向きの方向に行なう、請求項１記載の音
声認識装置。
【請求項５】音データを特徴パラメータに変換する音
響分析器と、前記音データから先頭有音を検出する有音検出器と、前記有音検出器によって検出された先頭有音の前にある
特徴パラメータを先頭子音の特徴パラメータとして格納
する先頭子音バッファと、前記有音検出器によって検出された先頭有音以降の特徴
パラメータと登録パターンの特徴パラメータとのマッチ
ング処理を行なう第１のマッチング処理器と、前記第１のマッチング処理器によるマッチング結果に基
づいて、先頭子音の候補を判定する第１の認識判定部
と、前記先頭子音バッファに格納された先頭子音の特徴パラ
メータと前記第１の認識判定部によって判定された先頭
子音の候補に対応する登録パターンの特徴パラメータと
のマッチング処理を行なう第２のマッチング処理器と、前記第１の認識判定器による判定結果および前記第２の
マッチング処理器によるマッチング結果に基づいて、認
識結果を出力する第２の認識判定器とを含む音声認識装
置。
【請求項６】前記第２の認識判定器は、前記第１の認
識判定器による判定結果と前記第２のマッチング処理器
によるマッチング結果とを重みを付けて加算し、該加算
結果に基づいて認識結果を出力する、請求項５記載の音
声認識装置。
【請求項７】前記先頭子音バッファは、登録パターン
の最長の先頭子音長以上のフレーム分の特徴パラメータ
を記憶する容量を有し、前記第２のマッチング処理器は、マッチングの始端位置
を変えながら、前記先頭子音バッファに格納された特徴
パラメータのうち登録パターンの先頭子音長に相当する
特徴パターンと登録パターンの特徴パラメータとのマッ
チング処理を行なって、最良の始端位置を決定する、請
求項５または６記載の音声認識装置。
【請求項８】前記第２のマッチング処理器は、前記先
頭子音バッファに格納された先頭子音の特徴パラメータ
と登録パターンの特徴パラメータとのマッチング処理
を、時系列に対して後ろ向きの方向に行なう、請求項５
または６記載の音声認識装置。
【請求項９】音データを特徴パラメータに変換する音
響分析器と、前記音データから先頭有音を検出する有音検出器と、前記有音検出器によって検出された先頭有音の前にある
特徴パラメータを先頭子音の特徴パラメータとして格納
する先頭子音バッファと、前記有音検出器によって検出された先頭有音以降の特徴
パラメータと登録パターンの特徴パラメータとのマッチ
ング処理を行なって先頭有音を判別し、該判別された先
頭有音に対応する先頭子音を統計的に判別して、音韻の
候補を出力する音韻判別器と、前記先頭子音バッファに格納された先頭子音の特徴パラ
メータと前記音韻判別器から出力された音韻の候補に対
応する登録パターンの特徴パラメータとのマッチング処
理を行なうマッチング処理器と、前記マッチング処理器によるマッチング結果に基づい
て、認識結果を出力する認識判定器と、過去の音声の認識結果を格納する認識結果格納装置と、前記認識結果格納装置に格納された過去の認識結果を参
照して、前記認識判定器による認識結果の正当性を判定
する正当性判定器とを含む音声認識装置。
【請求項１０】前記正当性判定器は、前記認識判定器
による認識結果に正当なものがないと判定した場合に
は、前記認識結果記憶装置に記憶された過去の認識結果
から認識結果を選択して出力する、請求項９記載の音声
認識装置。
【請求項１１】前記先頭子音バッファは、登録パター
ンの最長の先頭子音長以上のフレーム分の特徴パラメー
タを記憶する容量を有し、前記マッチング処理器は、マッチングの始端位置を変え
ながら、前記先頭子音バッファに格納された特徴パラメ
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンと登録パターンの特徴パラメータとのマッチング
処理を行なって、最良の始端位置を決定する、請求項９
または１０記載の音声認識装置。
【請求項１２】前記マッチング処理器は、前記先頭子
音バッファに格納された先頭子音の特徴パラメータと登
録パターンの特徴パラメータとのマッチング処理を、時
系列に対して後ろ向きの方向に行なう、請求項９または
１０記載の音声認識装置。
【請求項１３】音データを特徴パラメータに変換する
ステップと、前記音データから先頭有音を検出するステップと、前記検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納するステップと、前記格納された先頭子音の特徴パラメータと登録パター
ンの特徴パラメータとのマッチング処理を行なうステッ
プと、前記マッチング結果に基づいて、認識結果を出力するス
テップとを含む音声認識方法。
【請求項１４】音データを特徴パラメータに変換する
ステップと、前記音データから先頭有音を検出するステップと、前記検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納するステップと、前記検出された先頭有音以降の特徴パラメータと登録パ
ターンの特徴パラメータとの第１のマッチング処理を行
なうステップと、前記第１のマッチング処理によるマッチング結果に基づ
いて、先頭子音の候補を判定するステップと、前記格納された先頭子音の特徴パラメータと前記判定さ
れた先頭子音の候補に対応する登録パターンの特徴パラ
メータとの第２のマッチング処理を行なうステップと、前記判定された先頭子音の候補および前記第２のマッチ
ング処理によるマッチング結果に基づいて、認識結果を
出力するステップとを含む音声認識方法。
【請求項１５】音データを特徴パラメータに変換する
ステップと、前記音データから先頭有音を検出するステップと、前記検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納するステップと、前記検出された先頭有音以降の特徴パラメータと登録パ
ターンの特徴パラメータとのマッチング処理を行なって
先頭有音を判別し、該判別された先頭有音に対応する先
頭子音を統計的に判別して、音韻の候補を出力するステ
ップと、前記格納された先頭子音の特徴パラメータと前記出力さ
れた音韻の候補に対応する登録パターンの特徴パラメー
タとのマッチング処理を行なうステップと、前記マッチング結果に基づいて、認識結果を出力するス
テップと、過去の音声の認識結果を格納するステップと、前記格納された過去の認識結果を参照して、前記認識結
果の正当性を判定するステップとを含む音声認識方法。