JPH0772899A

JPH0772899A - 音声認識装置

Info

Publication number: JPH0772899A
Application number: JP5217286A
Authority: JP
Inventors: Yumi Takizawa; 由実滝沢
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1993-09-01
Filing date: 1993-09-01
Publication date: 1995-03-17

Abstract

(57)【要約】【目的】入力音声の音声区間長と認識単位の継続時間
の相互関係とを用いて、次に認識しようとする認識単位
の継続時間を予測し、予測された継続時間を用いて照合
および認識結果の決定を行うことにより、同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることで、高性能で高速な音声認識
装置を提供することを目的とする。【構成】入力音声の始終端を検出する音声区間検出部
１と、検出された音声区間長を用いて入力音声の認識単
位毎の継続時間を予測する継続時間予測部４と、予測し
た継続時間を利用して、認識単位毎の標準音声と入力音
声との照合および認識結果決定を行う照合部６を具備し
ている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に関する
ものである。

【０００２】

【従来の技術】近年、不特定話者の音声認識装置におい
て、認識技術の発達と共に、小語彙だけでなく大語彙の
認識装置が開発されてきている。小語彙の認識では、標
準音声を学習する際に、予め多数話者にて全語彙を発声
してもらい、語彙全体を１つの認識単位として学習して
いた。しかし、同じ方法を大語彙に用いる場合、話者に
発声してもらう語彙数が膨大となるため現実的に学習が
困難となる。そこで、大語彙の認識では、語彙全体を小
区間に分割し、各小区間を認識単位として学習を行う方
法を採用している。これにより大語彙全てを予め発声す
る必要はなく、各認識単位を最低１つ含む語彙セットを
発声するだけで、学習が可能となる。

【０００３】以下，図面を参照しながら、上述したよう
な従来の音声認識装置について説明を行う。ここでは、
認識単位が音節の場合の認識装置について述べる。

【０００４】図６は、従来の単語音声認識装置のブロッ
ク図である。１は音声入力端子，２は分析部、３は音声
区間検出部、４は単語標準音声作成部、１８は照合部、
９は認識結果出力端子、１０は音節標準音声作成部、１
１は単語辞書、１２は音節標準音声保管バッファ、１３
はスイッチ、１４はメモリバッファである。

【０００５】まず標準音声学習時には、予め単語単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子１より入力する。次に分析部２
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばＬＰＣケプストラム法を用い
れば所定の単位時間（以後フレームという）に所定の個
数を１組としたＬＰＣケプストラム係数が特徴パラメー
タとして算出される。上記分析処理を、所定の個数の学
習音声データが終わるまで繰り返す。次に音節標準音声
作成部１０で、音節毎に分析されたデータをクラスタリ
ングし、各クラスタの中心データを音節標準音声保管バ
ッファ１２に保管する。

【０００６】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部３で分析部にてＬＰＣケプストラム０係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【０００７】単語辞書１１には認識すべき単語名が音節
列として記載されている。次に単語標準音声作成部で、
上記単語辞書の各単語の音節列に従って、音節標準音声
保管パターンの音節標準音声を連結させ、各単語標準音
声を作成する。

【０００８】次に照合部１８で、上記で作成された単語
標準音声と入力音声との照合を行う。照合は、各単語毎
に、（数３）に従ってｉフレームまでの距離Ｄを求め、
これを単語区間の始端から終端まで行った結果、距離値
Ｄが最小となる単語を認識結果として、結果出力端子よ
り出力する。

【０００９】

【数３】

【００１０】なおスイッチ１３は、学習時にはバッファ
１４に、認識時には音声区間検出部３に特徴パラメータ
を出力するように動作する。

【００１１】

【発明が解決しようとする課題】しかしながら上記従来
法の標準音声は、単語単位ではなく音節単位で作成され
るため、単語単位の標準音声には反映される単語内の各
音節の相互関係に関する情報は、上記方法では音節標準
音声に反映されない。そのため、各音節の継続時間の相
互関係も考慮されておらず、同単語内の各音節のマッチ
ング区間が不自然にばらついている場合でも、距離値さ
え小さければ、認識結果として成立してしまうという課
題を有していた。

【００１２】

【課題を解決するための手段】本発明は上記課題に鑑
み、各音節の継続時間の間の相互関係を考慮するため
に、単語内の各音節継続時間を全て同一の入力音声区間
長を用いて予測し、認識候補の音節マッチング区間が予
測値と異なる場合に認識候補から除去することにより、
同単語内の各音節のマッチング区間が現実的な場合の
み、認識候補として成立させることが可能となり、より
高性能な装置の実現が可能となる。

【００１３】また本発明は、さらに継続時間を予測する
際に、上記構成に加え、さらに認識単位の継続時間を左
右する要因も用いて予測することにより、上記に記載の
装置と同様に従来の課題を解決し、より正確に予測が行
われることで、より高性能な装置の実現が可能となる。

【００１４】

【作用】この構成によって、同単語内の各音節のマッチ
ング区間が現実的な場合のみ、認識候補として成立し、
高性能な音声認識装置の実現が可能となる。

【００１５】

【実施例】

（実施例１）以下，本発明第１項、第２項に対応する実
施例について図を参照しながら説明する。

【００１６】図１は本発明第１の実施例における単語音
声認識装置のブロック図である。１は音声入力端子，２
は分析部、３は音声区間検出部、４は継続時間予測部、
５は単語標準音声作成部、６は照合部、７は誤差算出
部、８は結果評価部、９は認識結果出力端子、１０は音
節標準音声作成部、１１は単語辞書、１２は音節標準音
声保管バッファ、１３はスイッチ、１４はバッファメモ
リである。前記従来例と同じものは，同一の番号を付与
している。

【００１７】以上のように構成された音声認識装置につ
いて以下その動作について説明する。

【００１８】まず標準音声学習時には、予め単語単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子１より入力する。次に分析部２
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばＬＰＣケプストラム法を用い
ればフレーム毎にに所定の個数を１組としたＬＰＣケプ
ストラム係数が特徴パラメータとして算出され、バッフ
ァメモリ１４に保管される。上記分析処理を、所定の個
数の学習音声データが終わるまで繰り返す。

【００１９】次に音節標準音声作成部９で、バッファ１
５に保管されたデータをクラスタリングし、各クラスタ
の中心データを音節標準音声保管バッファ１２に保管す
る。

【００２０】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部３で分析部にてＬＰＣケプストラム０次係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００２１】次に単語標準音声作成部４で、単語辞書１
１に記載されている単語の音節列に従って、音節標準音
声保管バッファ１２にある音節標準音声を連結して単語
標準音声を作成する。方法は従来法と同様である。

【００２２】次に照合部で、上記で作成された単語標準
音声と入力音声との照合を行う。照合方法は従来例と同
様に、従来例中の（数３）に従っての距離Ｄを求め、距
離値Ｄが小さい順にＭ個の単語を認識結果候補とする。
また、照合の際、各音節と音節の境界に相当するフレー
ムを記憶しておく。（数３）では、Ｄn-1（i-1）＋ｄn
（ｉ）の値とＤn（i-1）＋ｄn（ｉ）の値との小さい方
を選択ながら距離を算出しているが、Ｄn-1（i-1）＋ｄ
n（ｉ）値の方を選択した場合のｉフレームの値が、n-1
番目の音節とn番目の音節との境界に相当するフレーム
となる。以下境界フレームをＰn-1と記載する。

【００２３】また一方、音声区間検出部で検出された音
声区間長は継続時間予測部４に入力される。継続時間予
測部では、音声区間長と各単語の音節数とを用いて各音
節の継続時間を予測する。たとえば、音声区間長を音節
数で当分割し、分割された１区間を音節継続時間予測値
としてもよい。

【００２４】次に誤差算出部７で、認識照合結果の音節
区間と継続時間予測部で求められた音節区間予測値との
誤差をＭ個の候補単語毎に算出する。たとえば、（数
４）のように求めてもよい。

【００２５】

【数４】

【００２６】次に結果評価部８で、誤差Ｅmの値が一定
値以上の候補を、結果候補より除去し、除去されずに残
った候補の中で、最も照合結果の距離値が小さい候補
を、認識結果として出力端子９より出力する。

【００２７】以上のように、本実施例によれば、単語内
の各音節継続時間予測値を入力音声区間長と音節数を用
いて求め、認識候補の音節マッチング区間と予測値との
誤差を数４を用いて求め、誤差が一定値より大きい場合
に認識候補から除去することにより、同単語内の各音節
のマッチング区間が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。

【００２８】（実施例２）次に、本発明第３項〜第５項
に対応する実施例について図を参照しながら説明する。

【００２９】図２は本発明第２の実施例における単語音
声認識装置のブロック図である。１は音声入力端子，２
は分析部、３は音声区間検出部、２０５は継続時間予測
部、５は単語標準音声作成部、６は照合部、７は誤差算
出部、８は結果評価部、９は認識結果出力端子、１０は
音節標準音声作成部、２１は重み算出部、１１は単語辞
書、１２は音節標準音声保管バッファ、２２は重み保管
バッファ、１３はスイッチ、１４はバッファメモリであ
る。前記従来例と同じものは，同一の番号を付与してい
る。また図３、図４は第３項〜第５項の各々における２
０の継続時間予測部と２１の重み算出部との詳細図であ
る。１０１は重み正規化部、１０２は要因平均部、１０
３は予測値算出部、１０４は継続時間カウンタ、１０５
は平均継続時間算出部である。前記従来例と同じもの
は，同一の番号を付与している。

【００３０】以上のように構成された音声認識装置につ
いて以下その動作について説明する。

【００３１】まず標準音声学習時には、予め単語単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子１より入力する。次に分析部２
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばＬＰＣケプストラム法を用い
ればフレーム毎にに所定の個数を１組としたＬＰＣケプ
ストラム係数が特徴パラメータとして算出され、バッフ
ァメモリ１４に保管される。上記分析処理を、所定の個
数の学習音声データが終わるまで繰り返す。

【００３２】次に音節標準音声作成部１０で、バッファ
メモリ１４に保管されたデータをクラスタリングし、各
クラスタの中心データを音節標準音声保管バッファ１２
に保管する。

【００３３】次に重み算出部２１で、バッファ１４に保
管されたデータを(1)その音節の種類毎、(2)単語内でそ
の音節先行する音節の種類毎、(3)単語内でその音節に
後続する音節の種類毎に、それそれクラス分けを行い、
各々の平均継続時間ｆ１、ｆ２，ｆ３を算出する。ま
ず、各音節データの継続時間を継続時間カウンター１０
４で算出する。たとえば、各データの所定の個数を１組
としたＬＰＣケプストラム係数列の数をカウントすれば
よい。次に平均継続時間算出部１０５で、各音節の種類
毎の継続時間の平均値を算出し、上記各音節の種類毎に
重み保管バッファ１２に保管する。

【００３４】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部３で分析部にてＬＰＣケプストラム０次係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００３５】次に単語標準音声作成部４で、単語辞書１
１に記載されている単語の音節列に従って、音節標準音
声保管バッファ１２にある音節標準音声を連結して単語
標準音声を作成する。方法は従来法と同様である。

【００３６】次に照合部で、上記で作成された単語標準
音声と入力音声との照合を行う。照合方法は従来例と同
様に、（数３）に従っての距離Ｄを求め、距離値Ｄが小
さい順にＭ個の単語を認識結果候補とする。また、照合
の際、各音節と音節の境界に相当するフレームを記憶し
ておく。（数３）では、Ｄn-1（i-1）＋ｄn（ｉ）の値
とＤn（i-1）＋ｄn（ｉ）の値との小さい方を選択なが
ら距離を算出しているが、Ｄn-1（i-1）＋ｄn（ｉ）値
の方を選択した場合のｉフレームの値が、n-1番目の音
節とn番目の音節との境界に相当するフレームとなる。
以下境界フレームをＰn-1と記載する。

【００３７】また一方、音声区間検出部で検出された音
声区間長は継続時間予測部４に入力される。継続時間予
測部４では、学習時に求められている各要因毎の平均音
節区間ｆ１，ｆ２，ｆ３と、音声区間長Ｌを用いて、
（数１）に従って音節継続時間を予測する。

【００３８】まず重み正規化部１０１で、要因毎に各音
節に相当する平均継続時間を単語全体の平均継続時間
で、（数５）のように正規化する。

【００３９】

【数５】

【００４０】次に、要因平均部１０２で、全ての要因
（本実施例の場合は、先行音声の種類、当該音節の種
類、後続音節の種類の３要因）を考慮するために、上記
正規化された平均継続時間を（数６）のように重み付け
加算し、予測値算出部１０３で、上記値を音声区間長に
数７のように掛けて音節継続時間予測値を算出する。た
だし、数５におけるα値は、本実施例では要因に依らず
一定値とし、要因数（実施例では３）分の１（＝1/3）
を用いた。

【００４１】

【数６】

【００４２】

【数７】

【００４３】次に誤差算出部７で、認識照合結果の音節
区間と継続時間予測部で求められた音節区間予測値との
誤差をＭ個の候補単語毎に算出する。たとえば、（数
４）のように求めてもよい。

【００４４】次に結果評価部８で、（数４）により求め
られた誤差Ｅmの値が一定値以上の候補を、結果候補よ
り除去し、除去されずに残った候補の中で、最も照合結
果の距離値が小さい候補を、認識結果として出力端子９
より出力する。

【００４５】以上のように、本実施例によれば、予め重
み算出部で、音節継続時間を左右する要因毎に平均音節
継続時間を算出しておき、継続時間予測部で、入力音声
の音声区間長と上記平均継続時間とを用いて、（数１）
を用いて認識しようとする入力音声の認識単位毎の継続
時間を予測し、認識候補の音節マッチング区間と予測値
との誤差を（数４）を用いて求め、誤差が一定値より大
きい場合に認識候補から除去することにより、同単語内
の各音節のマッチング区間が現実的な場合のみ、認識候
補として成立させることが可能となり、より高性能な装
置の実現が可能となる。また、継続時間を左右する重み
を用いて予測することで、第１の実施例よりさらに高性
能な装置の実現が可能となる。

【００４６】（実施例３）次に，本発明第６項に対応す
る実施例について図を参照しながら説明する。図２は本
発明第３の実施例における単語音声認識装置のブロック
図、図３は重み算出部９の詳細図であり、上記実施例と
同様である。また図５は第６項における継続時間予測部
の詳細図である。１０７は学習音声継続時間予測部、１
０８は入力音声継続時間予測部である。前記従来例と同
じものは，同一の番号を付与している。

【００４７】以上のように構成された音声認識装置につ
いて以下その動作について説明する。

【００４８】まず標準音声学習時には、予め単語単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子１より入力する。次に分析部２
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばＬＰＣケプストラム法を用い
ればフレーム毎にに所定の個数を１組としたＬＰＣケプ
ストラム係数が特徴パラメータとして算出され、バッフ
ァメモリ１４に保管される。上記分析処理を、所定の個
数の学習音声データが終わるまで繰り返す。

【００４９】次に音節標準音声作成部１０で、バッファ
メモリ１４に保管されたデータをクラスタリングし、各
クラスタの中心データを音節標準音声保管バッファ１２
に保管する。

【００５０】次に重み算出部２１で、バッファ１４に保
管されたデータを(1)その音節の種類毎、(2)単語内でそ
の音節先行する音節の種類毎、(3)単語内でその音節に
後続する音節の種類毎に、それそれクラス分けを行い、
各々の平均継続時間ｆ１、ｆ２，ｆ３を算出する。ま
ず、各音節データの継続時間を継続時間カウンター１０
４で算出する。たとえば、各データの所定の個数を１組
としたＬＰＣケプストラム係数列の数をカウントすれば
よい。次に平均継続時間算出部１０５で、各音節の種類
毎の継続時間の平均値を算出し、上記各音節の種類毎に
重み保管バッファ１２に保管する。

【００５１】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部３で分析部にてＬＰＣケプストラム０次係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００５２】次に単語標準音声作成部４で、単語辞書１
１に記載されている単語の音節列に従って、音節標準音
声保管バッファ１２にある音節標準音声を連結して単語
標準音声を作成する。方法は従来法と同様である。

【００５３】次に照合部で、上記で作成された単語標準
音声と入力音声との照合を行う。照合方法は従来例と同
様に、（数３）に従っての距離Ｄを求め、距離値Ｄが小
さい順にＭ個の単語を認識結果候補とする。また、照合
の際、各音節と音節の境界に相当するフレームを記憶し
ておく。（数３）では、Ｄn-1（i-1）＋ｄn（ｉ）の値
とＤn（i-1）＋ｄn（ｉ）の値との小さい方を選択なが
ら距離を算出しているが、Ｄn-1（i-1）＋ｄn（ｉ）値
の方を選択した場合のｉフレームの値が、n-1番目の音
節とn番目の音節との境界に相当するフレームとなる。
以下境界フレームをＰn-1と記載する。

【００５４】また一方、音声区間検出部で検出された音
声区間長は継続時間予測部４に入力される。継続時間予
測部４では、学習時に求められている各要因毎の平均音
節区間ｆ１，ｆ２，ｆ３と、音声区間長Ｌを用いて、請
求項第５項の数２に従って音節継続時間を予測する。

【００５５】まず学習音声継続時間予測部１０７で、学
習音声における各音節の継続時間を、予め学習された要
因毎の平均音節継続時間ｆ１、ｆ２，ｆ３に重み付けし
て加算する数８を用いて予測する。次に入力音声継続時
間予測部１０８で、音声区間長を用いて、上記学習音声
における音節継続時間の値を入力音声用に変換し（数
９）、予測値とする。ただし、（数８）におけるα値
は、本実施例では要因に依らず一定値とし、要因数（実
施例では３）分の１（＝1/3）を用いた。

【００５６】

【数８】

【００５７】

【数９】

【００５８】次に誤差算出部７で、認識照合結果の音節
区間と継続時間予測部で求められた音節区間予測値との
誤差をＭ個の候補単語毎に算出する。たとえば、先の実
施例に記載の（数４）のように求めてもよい。

【００５９】次に結果評価部８で、（数４）で求められ
た誤差Ｅmの値が一定値以上の候補を、結果候補より除
去し、除去されずに残った候補の中で、最も照合結果の
距離値が小さい候補を、認識結果として出力端子９より
出力する。

【００６０】以上のように、本実施例によれば、予め重
み算出部で、音節継続時間を左右する要因毎に平均音節
継続時間を算出しておき、継続時間予測部で、入力音声
の音声区間長と上記平均継続時間とを用いて、（数２）
を用いて認識しようとする入力音声の認識単位毎の継続
時間を予測し、認識候補の音節マッチング区間と予測値
との誤差を（数４）を用いて求め、誤差が一定値より大
きい場合に認識候補から除去することにより、同単語内
の各音節のマッチング区間が現実的な場合のみ、認識候
補として成立させることが可能となり、より高性能な装
置の実現が可能となる。また、継続時間を左右する重み
を用いて予測することで、上記実施例よりさらに高性能
な装置の実現が可能となる。

【００６１】

【発明の効果】以上のように本発明の音声認識装置は、
音声区間検出部で検出された音声区間長を用いて、継続
時間予測部で入力音声の認識単位の継続時間を予測し、
予測された継続時間と照合結果の認識単位区間との違い
を用いて、認識結果を評価し、信頼性のないと評価され
た認識結果を除去することにより、同単語内の各音節の
マッチング区間が現実的な場合のみ、認識候補として成
立させることが可能となり、より高性能な装置の実現が
可能となる。

【００６２】また、誤差算出部において、予測された継
続時間と認識候補の照合区間長との差を認識単位毎に算
出し、全認識単位分の差の平均値を求め、結果評価部
で、誤差が一定いき値以上の認識候補を結果から除去す
ることにより、同単語内の各音節のマッチング区間が現
実的な場合のみ、認識候補として成立させることが可能
となり、より高性能な装置の実現が可能となる。

【００６３】また、上記の音声認識装置の構成に重み算
出部を加え、ここで認識単位の継続時間を左右する要因
を用いて音節毎の重みを算出し、音声区間検出部で検出
された音声区間長と重み算出部で算出された重みとを用
いて、入力音声の認識単位毎の継続時間を予測し、予測
された継続時間と照合結果の認識単位区間との違いを用
いて、認識結果を評価し、信頼性のないと評価された認
識結果を除去することにより、同単語内の各音節のマッ
チング区間が現実的な場合のみ認識候補として成立させ
る効果が、非常に高性能に行われる装置の実現が可能と
なる。

【００６４】また、重み算出部において、認識単位の継
続時間を左右する要因毎に、各要因において同カテゴリ
ーに属する認識単位の平均継続時間を求めることによ
り、同単語内の各音節のマッチング区間が現実的な場合
のみ、認識候補として成立させることが可能となり、よ
り高性能な装置の実現が可能となる。

【００６５】また、継続時間予測部において、算出され
た平均継続時間（数１内のfj(t)）を用いて、予め各要
因毎に音声区間全長の平均継続時間と各認識単位の平均
継続時間との比を求めておき、その比を要因全体で重み
づけしながら加算した値を用いて、音声区間全長（数１
内のＬ）から入力音声の認識単位毎の継続時間の予測値
を算出することにより、同単語内の各音節のマッチング
区間が現実的な場合のみ、認識候補として成立させるこ
とが可能となり、より高性能な装置の実現が可能とな
る。

【００６６】さらに、継続時間予測部において、算出さ
れた平均継続時間（数２内のf(i)）を用いて、予め学習
音声における認識単位毎の継続時間を予測しておき、こ
の予測値を用いて、音声区間全長（数２内のＬ）から入
力音声の認識単位毎の継続時間の予測値を算出すること
により、同単語内の各音節のマッチング区間が現実的な
場合のみ、認識候補として成立させることが可能とな
り、より高性能な装置の実現が可能となる。

【図面の簡単な説明】

【図１】本発明の実施例における音声認識装置のブロッ
ク図

【図２】本発明の実施例における音声認識装置のブロッ
ク図

【図３】本発明の実施例における重み算出部のブロック
図

【図４】本発明の実施例における継続時間予測部のブロ
ック図

【図５】本発明の実施例における継続時間予測部のブロ
ック図

【図６】本発明の従来例における音声認識装置のブロッ
ク図

【符号の説明】

１信号入力端子２分析部３音声区間検出部４単語標準音声作成部５継続時間予測部６照合区間決定部７照合部８認識結果出力端子９音節標準音声作成部１０重み算出部１１単語辞書１２音節標準音声保管バッファ１３平均継続時間保管バッファ１４スイッチ１５バッファメモリ

Claims

【特許請求の範囲】

【請求項１】入力音声の始終端を検出する音声区間検出
部と、認識単位毎の標準音声と入力音声との照合および
認識結果候補の決定を行う照合部と、検出された音声区
間長を用いて入力音声の認識単位毎の継続時間を予測す
る継続時間予測部と、予測された継続時間と認識候補の
照合結果との違いを算出する誤差算出部と、この誤差を
用いて信頼性のない認識候補を除去する結果評価部を具
備することを特徴とする音声認識装置。
【請求項２】予測された継続時間と認識候補の照合区間
長との差を認識単位毎に算出し、全認識単位分の差の平
均値を求める誤差算出部と、誤差が一定いき値以上の認
識候補を結果から除去する結果評価部を具備することを
特徴とする請求項１に記載の音声認識装置。
【請求項３】入力音声の始終端を検出する音声区間検出
部と、認識単位毎の標準音声と入力音声との照合および
認識結果候補の決定を行う照合部と、認識単位の継続時
間を左右する要因を用いて重みを算出する重み算出部
と、音声区間検出部で検出された音声区間長と重み算出
部で算出された重みとを用いて、入力音声の認識単位毎
の継続時間を予測する継続時間予測部と、予測された継
続時間と照合結果との違いを算出する誤差算出部と、こ
の誤差を用いて信頼性のない結果候補を除去する結果評
価部とを具備することを特徴とする音声認識装置。
【請求項４】認識単位の継続時間を左右する要因毎に、
各要因において同カテゴリーに属する認識単位の平均継
続時間を求め、これを重みとする重み算出部からなるこ
とを特徴とする請求項３に記載の音声認識装置。
【請求項５】算出された平均継続時間fj(i)を用いて、
予め各要因毎に音声区間全長の平均継続時間と各認識単
位の平均継続時間との比を求めておき、その比を要因全
体で重みづけしながら加算した値を用いて、音声区間全
長Ｌから入力音声の認識単位毎の継続時間の予測値を
（数１）を用いて算出する継続時間予測部を具備するこ
とを特徴とする請求項４に記載の音声認識装置。【数１】
【請求項６】算出された平均継続時間f(i)を用いて、予
め学習音声における認識単位毎の継続時間を予測してお
き、この予測値を用いて、音声区間全長Ｌから入力音声
の認識単位毎の継続時間の予測値を（数２）を用いて算
出する継続時間予測部を具備することを特徴とする請求
項４に記載の音声認識装置。【数２】