JPH1069293A

JPH1069293A - 音声認識装置および方法、情報記憶媒体

Info

Publication number: JPH1069293A
Application number: JP8225747A
Authority: JP
Inventors: Tetsuya Muroi; 哲也室井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1996-08-28
Filing date: 1996-08-28
Publication date: 1998-03-10

Abstract

(57)【要約】【課題】話者が発生した音声から語句を認識すると
き、マイクロフォンが吹かれたことによるエラーを的確
に検知する。【解決手段】音声信号の振幅が所定の許容範囲を逸脱
したエラー状態をエラー検出手段３０により検出し、こ
のエラー状態が所定時間まで連続するとエラー確定手段
３１によりエラー発生を確定し、このエラー発生をエラ
ー報知手段３２により話者に報知出力する。話者がマイ
クロフォンを吹くとエラー発生が話者に報知されるの
で、この話者はエラー発生を原因とともに的確に認識す
ることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号から語句
を認識する音声認識装置および方法、音声認識装置のプ
ログラムが書き込まれた情報記憶媒体、に関する。

【０００２】

【従来の技術】現在、人間が発声した音声を認識する音
声認識装置が開発されている。このような音声認識装置
では、話者が発声した音声信号から所定の語句を認識す
る。このような音声認識装置を各種装置に適用すれば、
その装置はキーボードの手動操作などを要することなく
各種の情報を取り込むことができる。つまり、人間が両
手を使用する作業環境で機器に情報を入力することや、
電話を利用して機器を遠隔操作するようなことができ
る。

【０００３】音声認識の一つの手法であるワードスポッ
ティングでは、音声を特徴量のパターンのマッチングに
より認識する。つまり、認識候補の語句の音声の特徴量
を予め用意しておき、音声信号を単位時間毎に分析して
特徴量を抽出し、この音声信号の特徴量に認識候補の特
徴量をマッチングさせてスコアを累積する。この累積ス
コアが所定の閾値を超過すると認識候補の語句を認識結
果として確定するので、音声信号から所定の語句を認識
することができる。

【０００４】このような音声認識方法を実践する音声認
識装置は、入力デバイスであるマイクロフォン、データ
処理装置であるコンピュータシステム、認識候補の語句
の情報のデータベース、等を有しており、話者がマイク
ロフォンに発声する音声からコンピュータシステムのデ
ータ処理によりデータベースに格納されている語句を認
識する。

【０００５】しかし、上述のような形式の音声認識装置
では、話者とマイクロフォンとの距離が適正とならず、
音声認識の精度が低下することがある。つまり、話者と
マイクロフォンとが近接しすぎると、入力音声の信号強
度が過大となり、デジタル化された音声信号のビット数
が飽和して認識精度が低下する。一方、話者とマイクロ
フォンとが離反しすぎると、入力音声の信号強度が過小
となり、音声区間を検出することができず認識精度が低
下する。

【０００６】このような課題を解決するため、特公昭61
-47438号公報に記載された音声認識装置では、音声区間
において音声強度を監視し、これが所定の許容範囲を逸
脱するとエラー発生を判定する。そして、このようにエ
ラー発生が判定されると、大音量のノイズが入力された
ことを話者に警告したり、このような警告とともに認識
結果を破棄したりする。

【０００７】さらに、音声区間において音声強度の平均
値も検出し、これが所定の許容範囲を逸脱した場合にも
エラー発生を判定する。このエラーが検出された場合に
は、入力音声が全体的に大きすぎたことや小さすぎたこ
とを話者に警告したり、このような警告とともに認識結
果を破棄したりする。

【０００８】

【発明が解決しようとする課題】上述した特公昭61-474
38号公報の音声認識装置では、話者が発声する音声から
語句を認識することができ、特に、音量が適正でない場
合には話者に警告を報知することができる。

【０００９】しかし、これでは音声区間に瞬間的に大音
量が発生しただけでエラーを判定するので、長い語句が
正確に認識されている状態でも、話者に警告が発せられ
たり認識結果が破棄されたりする。それでいて、警告は
音声区間の終了まで出力されないので、エラーの原因を
話者が認識できない事態が予想される。

【００１０】例えば、話者がマイクロフォンを吹いてし
まうと、これは大音量の音声信号となりエラーの原因と
なる。しかし、不慣れな話者が最初にマイクロフォンを
吹いてから小音量で語句を発声すると、この発声の終了
後に大音量が入力されたとの警告が発せられるので、話
者にエラーの原因を自覚させることが困難である。特
に、このようにマイクロフォンを吹いてしまうことは、
マイクロフォンが接話型の場合に多発するので対策が重
要である。

【００１１】

【課題を解決するための手段】請求項１記載の発明の音
声認識装置は、認識候補の語句の情報を予め記憶した認
識候補辞書と、音声信号の入力を受け付ける音声入力手
段と、入力された音声信号から認識候補の語句を認識す
る語句認識手段と、音声信号の振幅が所定の許容範囲を
逸脱したエラー状態を検出するエラー検出手段と、エラ
ー状態が所定時間まで連続するとエラー発生を確定する
エラー確定手段とを有する。従って、認識候補の語句の
音声の特徴量が認識候補辞書により予め記憶されている
ので、音声入力手段に認識対象の語句が含まれる音声信
号が入力されると、語句認識手段により音声信号から特
定の語句が認識される。このように音声信号から語句を
認識するとき、音声信号の振幅が所定の許容範囲を逸脱
すると、これがエラー状態としてエラー検出手段により
検出される。このように検出されるエラー状態が所定時
間まで連続すると、エラー確定手段によりエラー発生が
確定されるので、例えば、音声認識が良好に実行されな
かったことを話者に報知するようなことができる。

【００１２】請求項２記載の発明の音声認識装置は、認
識候補の語句の情報を予め記憶した認識候補辞書と、音
声信号の入力を受け付ける音声入力手段と、入力された
音声信号から認識候補の語句を認識する語句認識手段
と、音声信号の振幅を所定時間まで累積する振幅累積手
段と、振幅の累積値が所定の許容範囲を逸脱するとエラ
ー発生を確定するエラー確定手段とを有する。従って、
認識候補の語句の音声の特徴量が認識候補辞書により予
め記憶されているので、音声入力手段に認識対象の語句
が含まれる音声信号が入力されると、語句認識手段によ
り音声信号から特定の語句が認識される。このように音
声信号から語句を認識するとき、音声信号の振幅が振幅
累積手段により所定時間まで累積される。この振幅の累
積値が所定の許容範囲を逸脱すると、エラー確定手段に
よりエラー発生が確定されるので、例えば、音声認識が
良好に実行されなかったことを話者に報知するようなこ
とができる。

【００１３】請求項３記載の発明では、請求項１記載の
音声認識装置において、認識候補辞書は、語句の情報と
して音声の特徴量を記憶しており、語句認識手段は、音
声信号を単位時間毎に分析して特徴量を抽出し、この特
徴量に認識候補の特徴量をマッチングさせて語句を認識
し、エラー確定手段は、音声信号の分析の単位時間まで
エラー状態が連続するとエラー発生を確定する。従っ
て、語句の情報として音声の特徴量が認識候補辞書に記
憶されており、入力された音声信号は語句認識手段によ
り単位時間毎に分析されて特徴量が抽出され、この特徴
量に認識候補の特徴量がマッチングされて語句が認識さ
れる。このとき、音声信号の振幅が許容範囲を逸脱した
エラー状態が、音声信号の分析の単位時間まで連続する
と、エラー確定手段によりエラー発生が確定されるの
で、このエラー検知が音声認識と同一の時間単位で実行
される。

【００１４】請求項４記載の発明では、請求項２記載の
音声認識装置において、認識候補辞書は、語句の情報と
して音声の特徴量を記憶しており、語句認識手段は、音
声信号を単位時間毎に分析して特徴量を抽出し、この特
徴量に認識候補の特徴量をマッチングさせて語句を認識
し、振幅累積手段は、音声信号の分析の単位時間まで振
幅を累積する。従って、語句の情報として音声の特徴量
が認識候補辞書に記憶されており、入力された音声信号
は語句認識手段により単位時間毎に分析されて特徴量が
抽出され、この特徴量に認識候補の特徴量がマッチング
されて語句が認識される。このとき、音声信号の振幅が
音声信号の分析の単位時間まで累積され、この累積値が
許容範囲を逸脱すると、エラー確定手段によりエラー発
生が確定されるので、このエラー検知が音声認識と同一
の時間単位で実行される。

【００１５】請求項５記載の発明では、請求項１ないし
４の何れか一記載の音声認識装置において、エラー発生
を報知出力するエラー報知手段を設けた。従って、確定
されたエラー発生がエラー検知手段により報知出力され
るので、音声認識が良好に実行されなかったことが話者
に報知される。

【００１６】請求項６記載の発明では、請求項３または
４記載の音声認識装置において、エラー発生が確定され
たエラー状態の単位時間のスコアを低下させるスコア調
節手段を設け、語句認識手段は、音声信号と認識候補と
の特徴量をマッチングさせてスコアを累積し、この累積
スコアが所定の閾値を超過すると認識候補の語句を認識
結果として確定する。従って、語句認識手段により音声
信号から語句が認識されるとき、音声信号と認識候補と
の特徴量のマッチングのスコアが累積され、この累積ス
コアが所定の閾値を超過すると認識候補の語句が認識結
果として確定される。このとき、特定の単位時間のエラ
ー状態からエラー発生が確定されると、その単位時間の
スコアがスコア調節手段により低下されるので、認識候
補の語句全体の累積スコアにおいて、エラー状態の部分
のスコアのみ低減される。

【００１７】請求項７記載の発明では、請求項６記載の
音声認識装置において、スコア調節手段は、認識候補の
語句の音声が“ハ行”の子音か破裂音の場合にスコアを
低下させる。従って、エラーが発生した時間のスコアが
スコア調節手段により低下されることが、認識候補の語
句の音声が“ハ行”の子音か破裂音の場合に実行され
る。話者がマイクロフォンに近接しすぎると“ハ行”の
子音や破裂音が音声信号に発生するが、これが語句の認
識結果の確定に寄与する割合が低減される。

【００１８】請求項８記載の発明では、請求項６または
７記載の音声認識装置において、スコア調節手段は、所
定の罰点をスコアに加算する。従って、エラーが発生し
た時間のスコアがスコア調節手段により低下されること
が、所定の罰点の加算により単純に実行される。

【００１９】請求項９記載の発明の音声認識方法は、認
識候補の語句の情報を予め用意しておき、入力された音
声信号から認識候補の語句を認識する音声認識方法にお
いて、音声信号の振幅が所定の許容範囲を逸脱したエラ
ー状態を検出し、このエラー状態が所定時間まで連続す
るとエラー発生を確定するようにした。従って、予め用
意された認識候補の語句が、入力された音声信号から認
識される。このとき、音声信号の振幅が許容範囲を逸脱
したエラー状態が所定時間まで連続するとエラー発生が
確定されるので、例えば、音声認識が良好に実行されな
かったことを話者に報知するようなことができる。

【００２０】請求項１０記載の発明の音声認識方法は、
認識候補の語句の情報を予め用意しておき、入力された
音声信号から認識候補の語句を認識する音声認識方法に
おいて、音声信号の振幅を所定時間まで累積し、この振
幅の累積値が所定の許容範囲を逸脱するとエラー発生を
確定するようにした。従って、予め用意された認識候補
の語句が、入力された音声信号から認識される。このと
き、音声信号の振幅が所定時間まで累積され、この累積
値が所定の許容範囲を逸脱するとエラー発生が確定され
るので、例えば、音声認識が良好に実行されなかったこ
とを話者に報知するようなことができる。

【００２１】請求項１１記載の発明の情報記憶媒体は、
認識候補の語句の情報を予め記憶した認識候補辞書と、
音声信号の入力を受け付ける入力デバイスと、各種のプ
ログラムが予め書き込まれた情報記憶媒体と、プログラ
ムに従って各種のデータ処理を実行するコンピュータと
を有し、音声信号から語句を認識する音声認識装置にお
いて、音声信号の振幅が所定の許容範囲を逸脱したエラ
ー状態を検出すること、このエラー状態が所定時間まで
連続するとエラー発生を確定すること、を前記コンピュ
ータに実行させるプログラムが書き込まれている。従っ
て、音声認識装置は、情報記憶媒体に予め書き込まれた
プログラムに従ってコンピュータがデータ処理を実行す
ることにより、入力デバイスに入力された音声信号から
認識候補辞書に記憶されている語句を認識する。このよ
うな音声認識装置の情報記憶媒体に、音声信号の振幅が
所定の許容範囲を逸脱したエラー状態を検出するための
プログラム、このエラー状態が所定時間まで連続すると
エラー発生を確定するためのプログラム、が書き込まれ
ているので、上述のように音声信号から語句が認識され
るとき、音声信号の振幅が許容範囲を逸脱したエラー状
態が所定時間まで連続するとエラー発生が確定される。
このため、例えば、音声認識が良好に実行されなかった
ことを話者に報知するようなことができる。

【００２２】請求項１２記載の発明の情報記憶媒体は、
認識候補の語句の情報を予め記憶した認識候補辞書と、
音声信号の入力を受け付ける入力デバイスと、各種のプ
ログラムが予め書き込まれた情報記憶媒体と、プログラ
ムに従って各種のデータ処理を実行するコンピュータと
を有し、音声信号から語句を認識する音声認識装置にお
いて、音声信号の振幅を所定時間まで累積すること、こ
の振幅の累積値が所定の許容範囲を逸脱するとエラー発
生を確定すること、を前記コンピュータに実行させるプ
ログラムが書き込まれている。従って、音声認識装置
は、情報記憶媒体に予め書き込まれたプログラムに従っ
てコンピュータがデータ処理を実行することにより、入
力デバイスに入力された音声信号から認識候補辞書に記
憶されている語句を認識する。このような音声認識装置
の情報記憶媒体に、音声信号の振幅を所定時間まで累積
するためのプログラム、この振幅の累積値が所定の許容
範囲を逸脱するとエラー発生を確定するためのプログラ
ム、が書き込まれているので、上述のように音声信号か
ら語句が認識されるとき、音声信号の振幅が所定時間ま
で累積され、この累積値が所定の許容範囲を逸脱すると
エラー発生が確定される。このため、例えば、音声認識
が良好に実行されなかったことを話者に報知するような
ことができる。

【００２３】

【発明の実施の形態】本発明の実施の第一の形態を図面
に基づいて以下に説明する。まず、本実施の形態の音声
認識装置１は、図２および図３に示すように、そのハー
ドウェアとしてデータ処理装置であるコンピュータシス
テムを有している。このコンピュータシステムからなる
音声認識装置１は、コンピュータの主体としてＣＰＵ(C
entralProcessing Unit）２を有しており、このＣＰＵ
２には、バスライン３により、ＲＯＭ(Read Only Memor
y)４、ＲＡＭ(Random Access Memory)５、ＨＤ(Hard Di
sk…図示せず）を内蔵したＨＤＤ(HD Drive)６、ＦＤ(F
loppy Disk）７が装填されるＦＤＤ(FD Drive)８、ＣＤ
(Compact Disk)−ＲＯＭ９が装填されるＣＤ−ＲＯＭド
ライブ１０、マウス１１が接続されたキーボード１２、
ディスプレイ１３、入力デバイスであるマイクロフォン
１４が一体化されたヘッドフォン１５、通信Ｉ／Ｆ(Int
erface）１６、等が接続されている。

【００２４】この音声認識装置１は、前記ＣＰＵ２に各
種の処理動作を実行させるプログラム等が予め設定され
ており、このプログラム等のソフトウェアは、例えば、
情報記憶媒体である前記ＦＤ７や前記ＣＤ−ＲＯＭ９に
予め書き込まれている。そして、このソフトウェアが情
報記憶媒体である前記ＨＤＤ６に予めインストールされ
ており、これが起動時に情報記憶媒体である前記ＲＡＭ
５に複写されて前記ＣＰＵ２に読み取られる。

【００２５】このように前記ＣＰＵ２がプログラムを読
み取って各種の処理動作を実行することにより、各種機
能が各種手段として実現されている。このような各種手
段として、本実施の形態の音声認識装置１は、図１に示
すように、認識候補辞書２１、音声認識手段２２、エラ
ー判定手段２３、を有している。前記音声認識手段２２
は、音声入力手段２４、語句認識手段２５、結果出力手
段２６、等からなり、前記語句認識手段２５は、音声分
析手段２７、スコア算出手段２８、結果確定手段２９、
等からなる。前記エラー判定手段２３は、エラー検出手
段３０、エラー確定手段３１、エラー報知手段３２、等
からなる。

【００２６】このような音声認識装置１の各種手段は、
必要により前記ディスプレイ１３や前記マイクロフォン
１４等のハードウェアも利用して実現されるが、その主
体は前記ＲＡＭ５等に書き込まれたソフトウェアに対応
して前記ＣＰＵ２が動作することにより実現されてい
る。このため、前記ＲＡＭ５には、前記マイクロフォン
１４に入力された音声信号から語句を認識して前記ディ
スプレイ１３に表示させることを、前記ＣＰＵ２に実行
させるプログラムが書き込まれている。また、音声信号
の振幅が所定の許容範囲を逸脱したエラー状態を検出す
ること、このエラー状態が所定時間まで連続するとエラ
ー発生を確定すること、を前記ＣＰＵ２に実行させるプ
ログラムも書き込まれている。

【００２７】より詳細には、前記ＲＡＭ５には、図４に
示すように、パターンデータベース４１と、音声認識プ
ログラム４２と、エラー判定プログラム４３と、が書き
込まれている。前記音声認識プログラム４２は、モジュ
ール構造のアプリケーションソフトであり、ここでは一
般的なＤＰ(Dynamic-Programming）マッチングの制御プ
ログラムからなる。前記音声認識プログラム４２は、特
徴抽出モジュール４４と単語照合モジュール４５からな
り、この単語照合モジュール４５は、スコア計算モジュ
ール４６とスコア累積モジュール４７からなる。前記エ
ラー判定プログラム４３も、モジュール構造のアプリケ
ーションソフトからなり、エラー検出モジュール４８と
メッセージ出力モジュール４９からなる。

【００２８】前記パターンデータベース４１は、前記認
識候補辞書２１のソフトウェアであり、設定内容が更新
自在なデータファイルとして前記ＲＡＭ５に格納されて
いる。このようなパターンデータベース４１には、図５
に示すように、認識候補の語句である単語の音声の特徴
量が、音素単位の状態遷移モデルと単語単位の音素ネッ
トワークとして予め設定されている。各音素は状態遷移
モデルとして表現されており、各状態は平均特徴量と継
続時間長との情報を有している。

【００２９】前記特徴抽出モジュール４４は、音声信号
を単位時間であるフレーム毎に分析して特徴量を抽出す
るためのプログラムからなり、前記単語照合モジュール
４５は、音声信号から単語を確定するためのプログラム
からなる。前記スコア計算モジュール４６は、音声信号
の特徴量に認識候補の単語の音声の特徴量を照合させ、
そのマッチングの距離をスコアとしてフレーム毎に算出
するためのプログラムからなり、スコア累積モジュール
４７は、フレーム毎のスコアを累積して所定の閾値を超
過すると認識候補の単語を認識結果として確定するため
のプログラムからなる。

【００３０】前記エラー検出モジュール４８は、音声信
号の振幅が所定の許容範囲を逸脱したエラー状態を検出
し、このエラー状態が所定の基準時間まで連続するとエ
ラー発生を確定するためのプログラムからなる。より詳
細には、音声信号は所定の周波数でデジタル化されるの
で、その振幅のビット数が所定の閾値と比較される。こ
の閾値を音声信号の振幅が超過した連続時間が積算さ
れ、この積算時間が基準時間を超過するとエラー信号が
発行される。

【００３１】前記メッセージ出力モジュール４９は、エ
ラー発生が確定されてエラー信号が発行されると、所定
のエラー警告を前記ディスプレイ１３や前記ヘッドフォ
ン１５に出力させるためのプログラムからなる。エラー
警告は“マイクに息がかかっています”等のメッセージ
からなり、出力デバイスに対応した画像データや音声デ
ータとして設定されている。

【００３２】上述のようなソフトウェアに対応して前記
ＣＰＵ２が各種の処理動作を実行することにより、各種
機能が前記手段２４〜３２として実現されている。ま
ず、前記音声入力手段２４は、前記マイクロフォン１４
により音声の入力を受け付け、この入力音声をデジタル
の電気信号にＡ／Ｄ(Analog／Digital）変換する。前記
音声分析手段２７は、前記特徴抽出モジュール４４のプ
ログラムに対応した前記ＣＰＵ２のデータ処理等によ
り、音声信号を単位時間であるフレーム毎に分析して特
徴量を抽出する。

【００３３】このように入力音声をデジタルの電気信号
に変換してから特徴量を抽出することには、既存の各種
手法が利用できるが、ここでは入力音声を16(kHz)で16
(bit)のデジタル信号に変換し、これを線形予測分析し
てから特徴量としてメルケプストラムを算出する。より
詳細には、窓長２５６ポイント、シフト幅１６０ポイン
トで、20次の線形予測分析を実行してから、10次のメル
ケプストラムを算出することにより、0.01(sec)毎に10
次元の特徴ベクトルが抽出される。

【００３４】前記スコア算出手段２８は、前記単語照合
モジュール４５のプログラムに対応した前記ＣＰＵ２の
データ処理等により、図６に示すように、音声信号の特
徴量に認識候補の特徴量をマッチングさせ、その距離を
スコアとしてフレーム単位で算出して順次累積する。よ
り詳細には、各フレーム毎に音声信号の特徴量と各音素
の各状態の特徴量との局所的なスコアが算出され、各状
態に対して音素ネットワークに従ったマッチングパスが
選択され、このように選択した最適なマッチングパスに
従って局所的なスコアが累積され、そのフレームまでの
累積スコアが算出される。

【００３５】前記結果確定手段２９は、前記スコア累積
モジュール４７のプログラムに対応した前記ＣＰＵ２の
データ処理等により、音声信号と認識候補との累積スコ
アが所定の閾値を超過してから所定時間まで待機し、よ
り高い累積スコアが出現しなければ、その認識候補の単
語を認識結果として確定する。なお、より高い累積スコ
アが待機中に出現した場合には、これが認識結果の候補
として更新され、待機状態に再度移行する。前記結果出
力手段２６は、上述のように確定された認識結果の単語
を、例えば、前記ディスプレイ１３に表示出力する。

【００３６】前記エラー検出モジュール４８のプログラ
ムに対応した前記ＣＰＵ２のデータ処理等により、前記
エラー検出手段３０は、音声信号の振幅が所定の許容範
囲を逸脱したエラー状態を検出し、前記エラー確定手段
３１は、エラー状態が所定の基準時間まで連続するとエ
ラー発生を確定する。より詳細には、前述のようにデジ
タル化された音声信号の振幅のビット数が所定の閾値と
比較され、この閾値を振幅が超過した連続時間が積算さ
れ、この積算時間が基準時間を超過するとエラー信号が
発行される。

【００３７】ここでは前記マイクロフォン１４が吹かれ
た状態をエラーとして検出するため、エラー発生を検出
する振幅の閾値は、母音“ア”の最大振幅の半分程度に
設定されている。また、エラー発生を確定する基準時間
は0.005(sec)に設定されており、これはＡ／Ｄ変換のサ
ンプリング周波数の80ポイントであるとともに、音声認
識の処理フレームの半分の時間である。

【００３８】前記エラー報知手段３２は、前記メッセー
ジ出力モジュール４９のプログラムに対応した前記ＣＰ
Ｕ２のデータ処理により、“マイクに息がかかっていま
す”等のメッセージからなるエラー警告を、例えば、前
記ディスプレイ１３の表示や前記ヘッドフォン１５の音
声で出力する。

【００３９】このような構成において、本実施の形態の
音声認識装置１は、認識対象の単語が含まれる音声がマ
イクロフォン１４に入力されると、この音声信号から認
識候補辞書２１に格納されている単語を認識し、この認
識結果をディスプレイ１３に表示出力する。このような
音声認識装置１の音声認識方法を、図８を参照して以下
に順次詳述する。

【００４０】まず、話者が所望の単語をマイクロフォン
１４に発声すると、この音声信号はデジタル信号にＡ／
Ｄ変換される。このデジタル化された音声信号の特徴量
としてメルケプストラムがフレーム毎に算出され、この
音声信号の特徴量に認識候補単語の特徴量がマッチング
される。このマッチングのスコアはフレーム毎に算出さ
れるので、このフレーム毎の局所スコアが順次累積され
る。この累積スコアが所定の閾値と比較され、この閾値
を累積スコアが超過すると、所定時間の待機後に認識候
補の単語が認識結果として確定される。このように確定
された認識候補の単語はディスプレイ１３に表示出力さ
れるので、話者は発声した単語が認識されたことを確認
することができる。

【００４１】本実施の形態の音声認識装置１は、上述の
ようにマイクロフォン１４に発声された単語を認識する
ことができるので、キーボード１２を手動操作すること
なくテキストデータを入力することができる。本実施の
形態の音声認識装置１では、マイクロフォン１４がヘッ
ドフォン１５と一体化された接話型なので、周囲の騒音
の影響を受けにくいが、話者が不慣れな場合、マイクロ
フォン１４を吹いてしまうことがある。

【００４２】マイクロフォン１４が吹かれると、図７に
示すように、音声信号に振幅が過大なノイズが発生する
ため、これが音声認識の精度を低下させることになる。
しかし、本実施の形態の音声認識装置１の音声認識方法
では、音声信号の振幅が所定の許容範囲を逸脱したエラ
ー状態が検出され、このエラー状態が所定の基準時間ま
で連続するとエラー発生が確定されるので、さらに、こ
の確定されたエラー発生がディスプレイ１３の表示やヘ
ッドフォン１５の音声により報知出力されるので、音声
認識が良好に実行されなかったことが話者に通達され
る。

【００４３】より詳細には、図９に示すように、音声信
号は振幅に対応したデジタル信号であるので、そのサン
プリングポイント“ｉ＝ｍ”での振幅“Ｘｍ”が上限の
閾値“ＴＨ１”および下限の閾値“−ＴＨ２”と比較さ
れる。これらの閾値を振幅が超過するとサンプリングポ
イント“ｍ”が更新され、これが閾値である“ｉ＋Ｎ”
を超過するとエラー発生が確定されてエラー信号が発行
される。

【００４４】このため、話者は音声入力が適切でなかっ
たことを認識することができ、適切に音声入力を再度実
行することができる。特に、エラー発生の報知出力が
“マイクに息がかかっています”等のメッセージにより
実行されるので、話者はエラー発生の原因を確実に認識
することができる。しかも、この報知出力はエラー発生
が確定された時点で実行されるので、話者にエラー発生
を迅速に報知することができ、この点からも話者はエラ
ー発生の原因を認識することができる。

【００４５】なお、本実施の形態の音声認識装置１で
は、上述のようにエラー発生を確定して話者に報知して
も、これとは無関係に音声認識が実行される。つまり、
上述のようにマイクロフォン１４を吹いてしまうと、こ
れが音声信号のノイズとなるので音声認識の精度は低下
するが、音声認識が不可能になるわけではなく、ノイズ
が一瞬で単語が長ければ音声認識は充分に可能である。

【００４６】そこで、本実施の形態の音声認識装置１で
は、エラー発生が確定されても認識結果は破棄されず、
話者には入力状態が良好でないことと、今回の認識結果
が不確実であることとが報知出力される。この場合、上
述のようなメッセージの報知出力に連続させて“認識結
果を確認して下さい。再度入力しますか？(Ｙ／Ｎ)”等
のメッセージを報知出力させれば、無用な音声入力を話
者に強要することなく、作業を迅速に遂行することがで
きる。

【００４７】なお、本発明は上記形態に限定されるもの
ではなく、各種の変形を許容する。例えば、上記形態で
は音声認識装置１をコンピュータシステムの実験装置と
して想定し、音声信号から認識した単語をディスプレイ
１３に表示することを例示した。しかし、上述のような
音声認識装置１の各部をＡＳＩＣ(Application Specifi
c Integrated Circuit）として製作し、これを各種製品
に組み込んで音声制御に利用することも可能である。

【００４８】また、上記形態では音声信号から抽出する
特徴量をメルケプストラムとすることを例示したが、こ
の特徴量には各種方式が適用可能である。さらに、音声
認識の手法としてＤＰマッチングを利用することを例示
したが、これも各種方式が利用可能であり、例えば、Ｈ
ＭＭ(Hidden Markov Model）方式等も利用可能である。
音声信号と認識候補とのマッチングのスコアとして距離
を計算することを例示したが、これを類似度や確率密度
とすることも可能である。

【００４９】さらに、認識する語句を単語とすることを
例示したが、これを熟語や慣用句等とすることも可能で
ある。また、認識候補辞書２１に音声の特徴量を単語毎
に登録しておくことを想定したが、これを音素単位で登
録しておいてマッチング時に文法等の規則に基づいて接
続させ、語句として認識するようなことも可能である。

【００５０】また、本実施の形態では、Ａ／Ｄ変換され
た音声信号にオフセットが無いものとし、許容範囲の上
限と下限との閾値を対称に設定することを想定したが、
Ａ／Ｄ変換の特性等のために音声信号にオフセットが発
生する場合には、これに対応して許容範囲の閾値にもオ
フセットを設定することが好ましい。

【００５１】さらに、本実施の形態では、エラー発生の
確定に必要な基準時間が音声認識の単位時間であるフレ
ームの半分なので、音声認識とエラー検出との処理動作
で音声信号や基準クロック等を共用することができ、処
理負担が選択的に軽減されている。上述のようなエラー
検出の基準時間と音声認識のフレームとは、簡単な実験
により各々に最適な時間として設定されているが、これ
らの時間を完全に一致させ、さらに処理負担を軽減する
ことも可能である。

【００５２】また、本実施の形態では、ＲＡＭ５等にソ
フトウェアとして格納されている制御プログラムに従っ
てＣＰＵ２が動作することにより、音声認識装置１の各
部が実現されることを例示した。しかし、このような各
部の各々を固有のハードウェアとして製作することも可
能であり、一部をソフトウェアとしてＲＡＭ５等に格納
するとともに一部をハードウェアとして製作することも
可能である。また、所定のソフトウェアが格納されたＲ
ＡＭ５等や各部のハードウェアを、例えば、ファームウ
ェアとして製作することも可能である。

【００５３】また、本実施の形態では、音声認識装置１
の起動時に、ＨＤＤ６に格納されているソフトウェアが
ＲＡＭ５に複写され、このようにＲＡＭ５に格納された
ソフトウェアをＣＰＵ２が読み取ることを想定したが、
このようなソフトウェアをＨＤＤ６に格納したままＣＰ
Ｕ２に利用させることや、ＲＡＭ５に予め書き込んでお
くことも可能である。

【００５４】さらに、前述のように単体で取り扱える情
報記憶媒体であるＦＤ７やＣＤ−ＲＯＭ９にソフトウェ
アを書き込んでおき、このＦＤ７等からＲＡＭ５等にソ
フトウェアをインストールすることも可能であるが、こ
のようなインストールを実行することなくＦＤ７等に書
き込まれたソフトウェアをＣＰＵ２が適宜読み取ってデ
ータ処理を実行することも可能である。

【００５５】また、このような音声認識装置１の各部を
実現する制御プログラムを、複数のソフトウェアの組み
合わせにより実現することも可能であり、その場合、単
体の製品となる情報記憶媒体には必要最小限のソフトウ
ェアのみを格納しておけば良い。例えば、オペレーティ
ングシステムが実装されている音声認識装置１に、ＣＤ
−ＲＯＭ９等の情報記憶媒体によりアプリケーションソ
フトを提供するような場合、音声認識装置１の各部を実
現するソフトウェアは、アプリケーションソフトとオペ
レーティングシステムとの組み合わせで実現されるの
で、オペレーティングシステムに依存する部分のソフト
ウェアはアプリケーションソフトの情報記憶媒体から省
略することができる。

【００５６】特に、本発明の音声認識装置は、音声認識
の処理動作は従来と同一であり、これに関連したエラー
を検出して話者に報知するものなので、このエラー検出
の部分のみを既存の音声認識装置のオプションのアプリ
ケーションソフトとして形成するようなこともできる。
その場合、ＣＤ−ＲＯＭ９等の情報記憶媒体に、エラー
判定プログラム４３のみ書き込んでおき、これを音声認
識プログラム４２を具備した既存の音声認識装置にイン
ストールすれば良い。

【００５７】また、このように情報記憶媒体に書き込ん
だソフトウェアをコンピュータに供給する手法は、その
情報記憶媒体をコンピュータに直接に装填することに限
定されない。例えば、上述のようなソフトウェアをホス
トコンピュータの情報記憶媒体に書き込み、このホスト
コンピュータを通信ネットワークにより端末コンピュー
タに接続し、ホストコンピュータからデータ通信により
端末コンピュータにソフトウェアを供給することも可能
である。

【００５８】この場合、端末コンピュータが自身の情報
記憶媒体にソフトウェアをダウンロードした状態でスタ
ンドアロンのデータ処理を実行することも可能である
が、ソフトウェアをダウンロードすることなくホストコ
ンピュータとのリアルタイムのデータ通信によりデータ
処理を実行することも可能である。この場合、ホストコ
ンピュータと端末コンピュータとを通信ネットワークに
より接続したシステム全体が、本発明の音声認識装置１
に相当することになる。

【００５９】つぎに、本発明の実施の第二の形態を図１
０ないし図１２に基づいて以下に説明する。なお、本実
施の形態に関して上述した第一の形態と同一の部分は、
同一の名称および符号を使用して詳細な説明は省略す
る。

【００６０】まず、本実施の形態の音声認識装置５１
は、前述した音声認識装置１とハードウェアは同一であ
り、ソフトウェアの一部が相違しているので、音声認識
手段５２とエラー判定手段５３との処理動作が部分的に
相違する。つまり、図１０に示すように、このエラー判
定手段５３は、振幅累積手段５４とエラー確定手段５５
とを有しており、前記音声認識手段５２は、その結果確
定手段５６にスコア調節手段（図示せず）が付加されて
いる。

【００６１】そして、本実施の形態の音声認識装置５１
のＲＡＭ５には、音声信号の振幅を所定時間まで累積す
ること、振幅の累積値が所定の許容範囲を逸脱するとエ
ラー発生を確定すること、エラー発生が確定されたエラ
ー状態のフレームのスコアを低下させること、を前記Ｃ
ＰＵ２に実行させるプログラムが書き込まれている。

【００６２】より詳細には、前記ＲＡＭ５には、図１１
に示すように、パターンデータベース４１と、音声認識
プログラム６１と、エラー判定プログラム６２と、が書
き込まれている。前記エラー判定プログラム６２は、エ
ラー検出モジュール６３からなり、このエラー検出モジ
ュール６３は、音声信号の振幅を所定時間まで累積し、
この累積値が所定の許容範囲を逸脱するとエラー発生を
確定するためのプログラムからなる。前記音声認識プロ
グラム６１は、スコア計算モジュール６４にスコア調節
モジュールが付加されており、このスコア調節モジュー
ルは、エラー発生が確定されたエラー状態のフレームの
スコアを低下させるためのプログラムからなる。

【００６３】上述のようなソフトウェアに対応してＣＰ
Ｕ２が各種の処理動作を実行することにより、各種機能
が各種手段として実現されている。まず、前記振幅累積
手段５４は、音声信号の振幅を所定時間まで累積し、前
記エラー確定手段５５は、振幅の累積値が所定の許容範
囲を逸脱するとエラー発生を確定する。前記音声認識手
段５２の結果確定手段５６に付加されたスコア調節手段
は、エラー発生が確定されたエラー状態のフレームのス
コアを、ここでは係数の切り換えにより低下させる。

【００６４】このような構成において、本実施の形態の
音声認識装置５１も、前述した音声認識装置１と同様
に、特定の単語が含まれた音声信号がマイクロフォン１
４に入力されると、この音声信号の特徴量をフレーム毎
に算出して認識候補単語の特徴量にマッチングさせ、そ
の局所スコアをフレーム毎に算出して順次累積させ、こ
の累積スコアが閾値を超過すると認識候補の単語を認識
結果として確定する。

【００６５】このとき、本実施の形態の音声認識装置５
１は、マイクロフォン１４が吹かれて音声信号に振幅が
過大なノイズが発生すると、この部分の局所スコアを低
下させる。より詳細には、図１２に示すように、音声信
号のサンプリングポイント“ｉ＝ｍ”での振幅“Ｘｍ”
が所定時間“Ｎ”まで順次累積され、その累積値“Ｔ”
が上限の閾値“ＴＨ３”および下限の閾値“−ＴＨ４”
と比較され、これらの閾値を振幅の累積値が超過すると
エラー発生が確定されてエラー信号が発行される。

【００６６】このようにエラー信号が発行されると、こ
れに対応して音声認識の処理動作が調節される。つま
り、エラー発生が確定されたエラー状態のフレームに対
し、その局所スコアが係数の切り換えにより低下され
る。より詳細には、音声信号の第“ｉ”フレームの特徴
量“Xi”と認識候補の第“ｊ”状態の特徴量“Yj”との
局所スコアである局所距離“ｄ(i，j)”は、ベクトル間
距離“dist”により“ｄ(i，j)＝ｗ(ｉ)dist(Xi，Yj)”
として算出される。このとき、“ｗ(ｉ)”はエラー発生
に対応して局所スコアを低下させるための係数であり、
エラー信号が発行されると標準値“1.0”から“0.5”に
切り換えられる。

【００６７】つまり、音声信号に認識候補の単語をマッ
チングさせるとき、音声信号に大振幅のノイズが発生す
ると、その部分の局所スコアのみ半分に低減されるの
で、認識結果にノイズの部分が反映される割合が軽減さ
れる。このため、本実施の形態の音声認識装置５１は、
話者がマイクロフォン１４を吹くことに起因した認識精
度の低下が軽減され、良好な精度で単語を認識すること
ができる。

【００６８】特に、音声認識の調節を自動的に実行する
ので、この処理を話者に意識させることがなく、作業を
迅速に続行させることができる。ただし、実際にはマイ
クロフォン１４を吹く状態を話者に修正させることが好
ましいので、上述のような音声認識の自動調節を実行す
る場合でも、前述したエラー発生の報知出力を併用する
ことが好ましい。

【００６９】なお、本発明は上記形態に限定されるもの
でもなく、各種の変形を許容する。例えば、上記形態で
は音声信号の振幅を基準時間まで累積してエラー発生を
確定すると、そのエラー状態の音声認識の局所スコアを
低下させることを例示したが、音声認識の局所スコアを
低下させることなくエラー発生を報知出力することも可
能である。また、前述のように音声信号の振幅が許容範
囲を逸脱したエラー状態が基準時間を超過することでエ
ラー発生を確定し、そのエラー状態の音声認識の局所ス
コアを低下させることや、音声認識の局所スコアを低下
させるとともにエラー発生を報知することも可能であ
り、また、本実施の形態でも、エラー発生の確定に必要
な基準時間を音声認識の単位時間であるフレームの半分
とすることを想定したが、上述のようにエラー検出に対
応して音声認識の処理動作を制御する場合、エラー検出
の基準時間を音声認識の単位時間であるフレームに一致
させれば、極めて良好に処理負担を軽減することができ
る。

【００７０】また、本実施の形態では、音声信号の振幅
の所定時間での累積値が閾値を超過するとエラー発生を
確定して音声認識の局所スコアを低下させることを例示
したが、この局所スコアの低下を認識候補の語句の音声
が“ハ行”の子音か破裂音の場合に制限することも可能
である。つまり、一般的にマイクロフォン１４が吹かれ
ると“ハ行”の子音か破裂音が発生するので、これが音
声認識に利用されることを防止すれば、より良好に認識
精度を向上させることができる。

【００７１】さらに、本実施の形態では、エラー発生に
対応して局所スコアを係数の切り換えにより低下させる
ことを例示したが、このようなエラー発生に対応した局
所スコアの低減を所定の罰点の加算により実行すること
も可能である。

【００７２】また、本実施の形態では、一般的な手法に
より局所スコアを算出することを例示したが、この算出
にも各種手法が適用可能である。例えば、日本音響学会
講演論文集１-４-１(平成５年３月)に発表されている
“相補的な音素認識モデルを用いたワードスポッティン
グ”のように、スコアである音素認識のスコアに正負の
値を持たせ、認識スコアの和の最も大きい音素系列を抽
出する手法なども利用可能である。その場合、音声信号
の“ｍ〜ｉ”フレームと音素“ｐ”とを照合させた局所
スコア“ｒ(ｐ,ｉ,ｍ)”を、係数の切り換えや罰点の加
算の有無等により操作すれば良い。

【００７３】

【発明の効果】請求項１記載の発明の音声認識装置は、
音声信号の振幅が所定の許容範囲を逸脱したエラー状態
を検出するエラー検出手段と、エラー状態が所定時間ま
で連続するとエラー発生を確定するエラー確定手段とを
有することにより、音声信号から語句を認識するとき、
音声信号の振幅が許容範囲を逸脱するとエラー発生が検
出されるので、例えば、不慣れな話者がマイクロフォン
を吹いたことをエラーとして検知することができ、この
ような場合に音声認識が良好に実行されなかったことを
話者に報知するようなことができ、エラー状態が瞬間的
であるとエラー発生が確定されないので、音声認識に影
響が大きいエラーのみを検出することができる。

【００７４】請求項２記載の発明の音声認識装置は、音
声信号の振幅を所定時間まで累積する振幅累積手段と、
振幅の累積値が所定の許容範囲を逸脱するとエラー発生
を確定するエラー確定手段とを有することにより、音声
信号から語句を認識するとき、音声信号の振幅の所定時
間での累積値が許容範囲を逸脱するとエラー発生が検出
されるので、例えば、不慣れな話者がマイクロフォンを
吹いたことをエラーとして検知することができ、このよ
うな場合に音声認識が良好に実行されなかったことを話
者に報知するようなことができ、エラー状態が瞬間的で
あるとエラー発生が確定されないので、音声認識に影響
が大きいエラーのみを検出することができる。

【００７５】請求項３記載の発明の音声認識装置では、
エラー確定手段は、音声信号の分析の単位時間までエラ
ー状態が連続するとエラー発生を確定することにより、
このエラー検出が音声認識と同一の時間単位で実行され
るので、音声認識とエラー検出とで音声信号や基準クロ
ックを共用することができ、全体的な処理負担を軽減す
ることができる。

【００７６】請求項４記載の発明の音声認識装置では、
振幅累積手段は、音声信号の分析の単位時間まで振幅を
累積することにより、このエラー検出が音声認識と同一
の時間単位で実行されるので、音声認識とエラー検出と
で音声信号や基準クロックを共用することができ、全体
的な処理負担を軽減することができる。

【００７７】請求項５記載の発明の音声認識装置では、
エラー発生を報知出力するエラー報知手段を設けたこと
により、確定されたエラー発生がエラー報知手段により
報知出力されるので、音声認識が良好に実行されなかっ
たことを話者に報知することができる。

【００７８】請求項６記載の発明の音声認識装置では、
エラー発生が確定されたエラー状態の単位時間のスコア
を低下させるスコア調節手段を設け、語句認識手段は、
音声信号と認識候補との特徴量をマッチングさせてスコ
アを累積し、この累積スコアが所定の閾値を超過すると
認識候補の語句を認識結果として確定することにより、
音声認識の特定の単位時間のエラー状態からエラー発生
が確定されると、その単位時間のスコアが低下されるの
で、ノイズの部分が認識結果に反映される割合を軽減し
て認識精度を向上させることができる。

【００７９】請求項７記載の発明の音声認識装置では、
スコア調節手段は、認識候補の語句の音声が“ハ行”の
子音か破裂音の場合にスコアを低下させることにより、
話者がマイクロフォンを吹くと発生する“ハ行”の子音
や破裂音の部分で局所スコアが低下されるので、より良
好に認識精度を向上させることができる。

【００８０】請求項８記載の発明の音声認識装置では、
スコア調節手段は、所定の罰点をスコアに加算すること
により、簡単なデータ処理でノイズのスコアを的確に低
下させることができる。

【００８１】請求項９記載の発明の音声認識方法は、認
識候補の語句の情報を予め用意しておき、入力された音
声信号から認識候補の語句を認識する音声認識方法で
は、音声信号の振幅が所定の許容範囲を逸脱したエラー
状態を検出し、このエラー状態が所定時間まで連続する
とエラー発生を確定するようにしたことにより、音声信
号から語句を認識するとき、音声信号の振幅が許容範囲
を逸脱するとエラー発生が検出されるので、例えば、不
慣れな話者がマイクロフォンを吹いたことをエラーとし
て検知することができ、このような場合に音声認識が良
好に実行されなかったことを話者に報知するようなこと
ができる。

【００８２】請求項１０記載の発明の音声認識方法は、
認識候補の語句の情報を予め用意しておき、入力された
音声信号から認識候補の語句を認識する音声認識方法で
は、音声信号の振幅を所定時間まで累積し、この振幅の
累積値が所定の許容範囲を逸脱するとエラー発生を確定
するようにしたことにより、音声信号から語句を認識す
るとき、音声信号の振幅の所定時間での累積値が許容範
囲を逸脱するとエラー発生が検出されるので、例えば、
不慣れな話者がマイクロフォンを吹いたことをエラーと
して検知することができ、このような場合に音声認識が
良好に実行されなかったことを話者に報知するようなこ
とができる。

【００８３】請求項１１記載の発明の情報記憶媒体は、
音声信号の振幅が所定の許容範囲を逸脱したエラー状態
を検出すること、このエラー状態が所定時間まで連続す
るとエラー発生を確定すること、をコンピュータに実行
させるプログラムが書き込まれていることにより、この
プログラムを音声認識装置のコンピュータが読み取って
対応する動作を実行すると、その音声認識装置が音声信
号から語句を認識するときに、音声信号の振幅が許容範
囲を逸脱したエラー発生が検出されるので、例えば、不
慣れな話者がマイクロフォンを吹いたことをエラーとし
て検知することができ、このような場合に音声認識が良
好に実行されなかったことを話者に報知するようなこと
ができる。

【００８４】請求項１２記載の発明の情報記憶媒体は、
音声信号の振幅を所定時間まで累積すること、この振幅
の累積値が所定の許容範囲を逸脱するとエラー発生を確
定すること、をコンピュータに実行させるプログラムが
書き込まれていることにより、このプログラムを音声認
識装置のコンピュータが読み取って対応する動作を実行
すると、その音声認識装置が音声信号から語句を認識す
るとき、音声信号の振幅の所定時間での累積値が許容範
囲を逸脱したエラー発生が検出されるので、例えば、不
慣れな話者がマイクロフォンを吹いたことをエラーとし
て検知することができ、このような場合に音声認識が良
好に実行されなかったことを話者に報知するようなこと
ができる。

【図面の簡単な説明】

【図１】本発明の実施の第一の形態の音声認識装置の論
理的構造を示す模式図である。

【図２】音声認識装置の物理的構造を示すブロック図で
ある。

【図３】音声認識装置の外観を示す斜視図である。

【図４】音声認識装置のソフトウェアのモジュール構造
を示す模式図である。

【図５】語句である単語の状態遷移モデルを示す模式図
である。

【図６】入力信号とパターンマッチングとの関係を示す
模式図である。

【図７】音声信号を示す特性図である。

【図８】音声認識方法の処理動作を示すフローチャート
である。

【図９】音声認識方法の一部であるエラー検出方法の処
理動作を示すフローチャートである。

【図１０】本発明の実施の第二の形態の音声認識装置の
論理的構造を示す模式図である。

【図１１】音声認識装置のソフトウェアのモジュール構
造を示す模式図である。

【図１２】音声認識方法の一部であるエラー検出方法の
処理動作を示すフローチャートである。

【符号の説明】

１，５１音声認識装置２コンピュータ４〜７，９情報記憶媒体１４入力デバイス２１認識候補辞書２２音声入力手段２５語句認識手段２４スコア算出手段３０エラー検出手段３１エラー確定手段３２エラー報知手段５４振幅累積手段５５エラー確定手段

Claims

【特許請求の範囲】

【請求項１】認識候補の語句の情報を予め記憶した認
識候補辞書と、音声信号の入力を受け付ける音声入力手
段と、入力された音声信号から認識候補の語句を認識す
る語句認識手段と、音声信号の振幅が所定の許容範囲を
逸脱したエラー状態を検出するエラー検出手段と、エラ
ー状態が所定時間まで連続するとエラー発生を確定する
エラー確定手段と、を有することを特徴とする音声認識
装置。
【請求項２】認識候補の語句の情報を予め記憶した認
識候補辞書と、音声信号の入力を受け付ける音声入力手
段と、入力された音声信号から認識候補の語句を認識す
る語句認識手段と、音声信号の振幅を所定時間まで累積
する振幅累積手段と、振幅の累積値が所定の許容範囲を
逸脱するとエラー発生を確定するエラー確定手段と、を
有することを特徴とする音声認識装置。
【請求項３】認識候補辞書は、語句の情報として音声
の特徴量を記憶しており、語句認識手段は、音声信号を
単位時間毎に分析して特徴量を抽出し、この特徴量に認
識候補の特徴量をマッチングさせて語句を認識し、エラ
ー確定手段は、音声信号の分析の単位時間までエラー状
態が連続するとエラー発生を確定することを特徴とする
請求項１記載の音声認識装置。
【請求項４】認識候補辞書は、語句の情報として音声
の特徴量を記憶しており、語句認識手段は、音声信号を
単位時間毎に分析して特徴量を抽出し、この特徴量に認
識候補の特徴量をマッチングさせて語句を認識し、振幅
累積手段は、音声信号の分析の単位時間まで振幅を累積
することを特徴とする請求項２記載の音声認識装置。
【請求項５】エラー発生を報知出力するエラー報知手
段を設けたことを特徴とする請求項１ないし４の何れか
一記載の音声認識装置。
【請求項６】エラー発生が確定されたエラー状態の単
位時間のスコアを低下させるスコア調節手段を設け、語
句認識手段は、音声信号と認識候補との特徴量をマッチ
ングさせてスコアを累積し、この累積スコアが所定の閾
値を超過すると認識候補の語句を認識結果として確定す
ることを特徴とする請求項３または４記載の音声認識装
置。
【請求項７】スコア調節手段は、認識候補の語句の音
声が“ハ行”の子音か破裂音の場合にスコアを低下させ
ることを特徴とする請求項６記載の音声認識装置。
【請求項８】スコア調節手段は、所定の罰点をスコア
に加算することを特徴とする請求項６または７記載の音
声認識装置。
【請求項９】認識候補の語句の情報を予め用意してお
き、入力された音声信号から認識候補の語句を認識する
音声認識方法において、音声信号の振幅が所定の許容範
囲を逸脱したエラー状態を検出し、このエラー状態が所
定時間まで連続するとエラー発生を確定するようにした
ことを特徴とする音声認識方法。
【請求項１０】認識候補の語句の情報を予め用意して
おき、入力された音声信号から認識候補の語句を認識す
る音声認識方法において、音声信号の振幅を所定時間ま
で累積し、この振幅の累積値が所定の許容範囲を逸脱す
るとエラー発生を確定するようにしたことを特徴とする
音声認識方法。
【請求項１１】認識候補の語句の情報を予め記憶した
認識候補辞書と、音声信号の入力を受け付ける入力デバ
イスと、各種のプログラムが予め書き込まれた情報記憶
媒体と、プログラムに従って各種のデータ処理を実行す
るコンピュータとを有し、音声信号から語句を認識する
音声認識装置において、音声信号の振幅が所定の許容範
囲を逸脱したエラー状態を検出すること、このエラー状
態が所定時間まで連続するとエラー発生を確定するこ
と、を前記コンピュータに実行させるプログラムが書き
込まれていることを特徴とする情報記憶媒体。
【請求項１２】認識候補の語句の情報を予め記憶した
認識候補辞書と、音声信号の入力を受け付ける入力デバ
イスと、各種のプログラムが予め書き込まれた情報記憶
媒体と、プログラムに従って各種のデータ処理を実行す
るコンピュータとを有し、音声信号から語句を認識する
音声認識装置において、音声信号の振幅を所定時間まで
累積すること、この振幅の累積値が所定の許容範囲を逸
脱するとエラー発生を確定すること、を前記コンピュー
タに実行させるプログラムが書き込まれていることを特
徴とする情報記憶媒体。