JPH1069293A - 音声認識装置および方法、情報記憶媒体 - Google Patents
音声認識装置および方法、情報記憶媒体Info
- Publication number
- JPH1069293A JPH1069293A JP8225747A JP22574796A JPH1069293A JP H1069293 A JPH1069293 A JP H1069293A JP 8225747 A JP8225747 A JP 8225747A JP 22574796 A JP22574796 A JP 22574796A JP H1069293 A JPH1069293 A JP H1069293A
- Authority
- JP
- Japan
- Prior art keywords
- error
- recognition
- speech
- amplitude
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 話者が発生した音声から語句を認識すると
き、マイクロフォンが吹かれたことによるエラーを的確
に検知する。 【解決手段】 音声信号の振幅が所定の許容範囲を逸脱
したエラー状態をエラー検出手段30により検出し、こ
のエラー状態が所定時間まで連続するとエラー確定手段
31によりエラー発生を確定し、このエラー発生をエラ
ー報知手段32により話者に報知出力する。話者がマイ
クロフォンを吹くとエラー発生が話者に報知されるの
で、この話者はエラー発生を原因とともに的確に認識す
ることができる。
き、マイクロフォンが吹かれたことによるエラーを的確
に検知する。 【解決手段】 音声信号の振幅が所定の許容範囲を逸脱
したエラー状態をエラー検出手段30により検出し、こ
のエラー状態が所定時間まで連続するとエラー確定手段
31によりエラー発生を確定し、このエラー発生をエラ
ー報知手段32により話者に報知出力する。話者がマイ
クロフォンを吹くとエラー発生が話者に報知されるの
で、この話者はエラー発生を原因とともに的確に認識す
ることができる。
Description
【0001】
【発明の属する技術分野】本発明は、音声信号から語句
を認識する音声認識装置および方法、音声認識装置のプ
ログラムが書き込まれた情報記憶媒体、に関する。
を認識する音声認識装置および方法、音声認識装置のプ
ログラムが書き込まれた情報記憶媒体、に関する。
【0002】
【従来の技術】現在、人間が発声した音声を認識する音
声認識装置が開発されている。このような音声認識装置
では、話者が発声した音声信号から所定の語句を認識す
る。このような音声認識装置を各種装置に適用すれば、
その装置はキーボードの手動操作などを要することなく
各種の情報を取り込むことができる。つまり、人間が両
手を使用する作業環境で機器に情報を入力することや、
電話を利用して機器を遠隔操作するようなことができ
る。
声認識装置が開発されている。このような音声認識装置
では、話者が発声した音声信号から所定の語句を認識す
る。このような音声認識装置を各種装置に適用すれば、
その装置はキーボードの手動操作などを要することなく
各種の情報を取り込むことができる。つまり、人間が両
手を使用する作業環境で機器に情報を入力することや、
電話を利用して機器を遠隔操作するようなことができ
る。
【0003】音声認識の一つの手法であるワードスポッ
ティングでは、音声を特徴量のパターンのマッチングに
より認識する。つまり、認識候補の語句の音声の特徴量
を予め用意しておき、音声信号を単位時間毎に分析して
特徴量を抽出し、この音声信号の特徴量に認識候補の特
徴量をマッチングさせてスコアを累積する。この累積ス
コアが所定の閾値を超過すると認識候補の語句を認識結
果として確定するので、音声信号から所定の語句を認識
することができる。
ティングでは、音声を特徴量のパターンのマッチングに
より認識する。つまり、認識候補の語句の音声の特徴量
を予め用意しておき、音声信号を単位時間毎に分析して
特徴量を抽出し、この音声信号の特徴量に認識候補の特
徴量をマッチングさせてスコアを累積する。この累積ス
コアが所定の閾値を超過すると認識候補の語句を認識結
果として確定するので、音声信号から所定の語句を認識
することができる。
【0004】このような音声認識方法を実践する音声認
識装置は、入力デバイスであるマイクロフォン、データ
処理装置であるコンピュータシステム、認識候補の語句
の情報のデータベース、等を有しており、話者がマイク
ロフォンに発声する音声からコンピュータシステムのデ
ータ処理によりデータベースに格納されている語句を認
識する。
識装置は、入力デバイスであるマイクロフォン、データ
処理装置であるコンピュータシステム、認識候補の語句
の情報のデータベース、等を有しており、話者がマイク
ロフォンに発声する音声からコンピュータシステムのデ
ータ処理によりデータベースに格納されている語句を認
識する。
【0005】しかし、上述のような形式の音声認識装置
では、話者とマイクロフォンとの距離が適正とならず、
音声認識の精度が低下することがある。つまり、話者と
マイクロフォンとが近接しすぎると、入力音声の信号強
度が過大となり、デジタル化された音声信号のビット数
が飽和して認識精度が低下する。一方、話者とマイクロ
フォンとが離反しすぎると、入力音声の信号強度が過小
となり、音声区間を検出することができず認識精度が低
下する。
では、話者とマイクロフォンとの距離が適正とならず、
音声認識の精度が低下することがある。つまり、話者と
マイクロフォンとが近接しすぎると、入力音声の信号強
度が過大となり、デジタル化された音声信号のビット数
が飽和して認識精度が低下する。一方、話者とマイクロ
フォンとが離反しすぎると、入力音声の信号強度が過小
となり、音声区間を検出することができず認識精度が低
下する。
【0006】このような課題を解決するため、特公昭61
-47438号公報に記載された音声認識装置では、音声区間
において音声強度を監視し、これが所定の許容範囲を逸
脱するとエラー発生を判定する。そして、このようにエ
ラー発生が判定されると、大音量のノイズが入力された
ことを話者に警告したり、このような警告とともに認識
結果を破棄したりする。
-47438号公報に記載された音声認識装置では、音声区間
において音声強度を監視し、これが所定の許容範囲を逸
脱するとエラー発生を判定する。そして、このようにエ
ラー発生が判定されると、大音量のノイズが入力された
ことを話者に警告したり、このような警告とともに認識
結果を破棄したりする。
【0007】さらに、音声区間において音声強度の平均
値も検出し、これが所定の許容範囲を逸脱した場合にも
エラー発生を判定する。このエラーが検出された場合に
は、入力音声が全体的に大きすぎたことや小さすぎたこ
とを話者に警告したり、このような警告とともに認識結
果を破棄したりする。
値も検出し、これが所定の許容範囲を逸脱した場合にも
エラー発生を判定する。このエラーが検出された場合に
は、入力音声が全体的に大きすぎたことや小さすぎたこ
とを話者に警告したり、このような警告とともに認識結
果を破棄したりする。
【0008】
【発明が解決しようとする課題】上述した特公昭61-474
38号公報の音声認識装置では、話者が発声する音声から
語句を認識することができ、特に、音量が適正でない場
合には話者に警告を報知することができる。
38号公報の音声認識装置では、話者が発声する音声から
語句を認識することができ、特に、音量が適正でない場
合には話者に警告を報知することができる。
【0009】しかし、これでは音声区間に瞬間的に大音
量が発生しただけでエラーを判定するので、長い語句が
正確に認識されている状態でも、話者に警告が発せられ
たり認識結果が破棄されたりする。それでいて、警告は
音声区間の終了まで出力されないので、エラーの原因を
話者が認識できない事態が予想される。
量が発生しただけでエラーを判定するので、長い語句が
正確に認識されている状態でも、話者に警告が発せられ
たり認識結果が破棄されたりする。それでいて、警告は
音声区間の終了まで出力されないので、エラーの原因を
話者が認識できない事態が予想される。
【0010】例えば、話者がマイクロフォンを吹いてし
まうと、これは大音量の音声信号となりエラーの原因と
なる。しかし、不慣れな話者が最初にマイクロフォンを
吹いてから小音量で語句を発声すると、この発声の終了
後に大音量が入力されたとの警告が発せられるので、話
者にエラーの原因を自覚させることが困難である。特
に、このようにマイクロフォンを吹いてしまうことは、
マイクロフォンが接話型の場合に多発するので対策が重
要である。
まうと、これは大音量の音声信号となりエラーの原因と
なる。しかし、不慣れな話者が最初にマイクロフォンを
吹いてから小音量で語句を発声すると、この発声の終了
後に大音量が入力されたとの警告が発せられるので、話
者にエラーの原因を自覚させることが困難である。特
に、このようにマイクロフォンを吹いてしまうことは、
マイクロフォンが接話型の場合に多発するので対策が重
要である。
【0011】
【課題を解決するための手段】請求項1記載の発明の音
声認識装置は、認識候補の語句の情報を予め記憶した認
識候補辞書と、音声信号の入力を受け付ける音声入力手
段と、入力された音声信号から認識候補の語句を認識す
る語句認識手段と、音声信号の振幅が所定の許容範囲を
逸脱したエラー状態を検出するエラー検出手段と、エラ
ー状態が所定時間まで連続するとエラー発生を確定する
エラー確定手段とを有する。従って、認識候補の語句の
音声の特徴量が認識候補辞書により予め記憶されている
ので、音声入力手段に認識対象の語句が含まれる音声信
号が入力されると、語句認識手段により音声信号から特
定の語句が認識される。このように音声信号から語句を
認識するとき、音声信号の振幅が所定の許容範囲を逸脱
すると、これがエラー状態としてエラー検出手段により
検出される。このように検出されるエラー状態が所定時
間まで連続すると、エラー確定手段によりエラー発生が
確定されるので、例えば、音声認識が良好に実行されな
かったことを話者に報知するようなことができる。
声認識装置は、認識候補の語句の情報を予め記憶した認
識候補辞書と、音声信号の入力を受け付ける音声入力手
段と、入力された音声信号から認識候補の語句を認識す
る語句認識手段と、音声信号の振幅が所定の許容範囲を
逸脱したエラー状態を検出するエラー検出手段と、エラ
ー状態が所定時間まで連続するとエラー発生を確定する
エラー確定手段とを有する。従って、認識候補の語句の
音声の特徴量が認識候補辞書により予め記憶されている
ので、音声入力手段に認識対象の語句が含まれる音声信
号が入力されると、語句認識手段により音声信号から特
定の語句が認識される。このように音声信号から語句を
認識するとき、音声信号の振幅が所定の許容範囲を逸脱
すると、これがエラー状態としてエラー検出手段により
検出される。このように検出されるエラー状態が所定時
間まで連続すると、エラー確定手段によりエラー発生が
確定されるので、例えば、音声認識が良好に実行されな
かったことを話者に報知するようなことができる。
【0012】請求項2記載の発明の音声認識装置は、認
識候補の語句の情報を予め記憶した認識候補辞書と、音
声信号の入力を受け付ける音声入力手段と、入力された
音声信号から認識候補の語句を認識する語句認識手段
と、音声信号の振幅を所定時間まで累積する振幅累積手
段と、振幅の累積値が所定の許容範囲を逸脱するとエラ
ー発生を確定するエラー確定手段とを有する。従って、
認識候補の語句の音声の特徴量が認識候補辞書により予
め記憶されているので、音声入力手段に認識対象の語句
が含まれる音声信号が入力されると、語句認識手段によ
り音声信号から特定の語句が認識される。このように音
声信号から語句を認識するとき、音声信号の振幅が振幅
累積手段により所定時間まで累積される。この振幅の累
積値が所定の許容範囲を逸脱すると、エラー確定手段に
よりエラー発生が確定されるので、例えば、音声認識が
良好に実行されなかったことを話者に報知するようなこ
とができる。
識候補の語句の情報を予め記憶した認識候補辞書と、音
声信号の入力を受け付ける音声入力手段と、入力された
音声信号から認識候補の語句を認識する語句認識手段
と、音声信号の振幅を所定時間まで累積する振幅累積手
段と、振幅の累積値が所定の許容範囲を逸脱するとエラ
ー発生を確定するエラー確定手段とを有する。従って、
認識候補の語句の音声の特徴量が認識候補辞書により予
め記憶されているので、音声入力手段に認識対象の語句
が含まれる音声信号が入力されると、語句認識手段によ
り音声信号から特定の語句が認識される。このように音
声信号から語句を認識するとき、音声信号の振幅が振幅
累積手段により所定時間まで累積される。この振幅の累
積値が所定の許容範囲を逸脱すると、エラー確定手段に
よりエラー発生が確定されるので、例えば、音声認識が
良好に実行されなかったことを話者に報知するようなこ
とができる。
【0013】請求項3記載の発明では、請求項1記載の
音声認識装置において、認識候補辞書は、語句の情報と
して音声の特徴量を記憶しており、語句認識手段は、音
声信号を単位時間毎に分析して特徴量を抽出し、この特
徴量に認識候補の特徴量をマッチングさせて語句を認識
し、エラー確定手段は、音声信号の分析の単位時間まで
エラー状態が連続するとエラー発生を確定する。従っ
て、語句の情報として音声の特徴量が認識候補辞書に記
憶されており、入力された音声信号は語句認識手段によ
り単位時間毎に分析されて特徴量が抽出され、この特徴
量に認識候補の特徴量がマッチングされて語句が認識さ
れる。このとき、音声信号の振幅が許容範囲を逸脱した
エラー状態が、音声信号の分析の単位時間まで連続する
と、エラー確定手段によりエラー発生が確定されるの
で、このエラー検知が音声認識と同一の時間単位で実行
される。
音声認識装置において、認識候補辞書は、語句の情報と
して音声の特徴量を記憶しており、語句認識手段は、音
声信号を単位時間毎に分析して特徴量を抽出し、この特
徴量に認識候補の特徴量をマッチングさせて語句を認識
し、エラー確定手段は、音声信号の分析の単位時間まで
エラー状態が連続するとエラー発生を確定する。従っ
て、語句の情報として音声の特徴量が認識候補辞書に記
憶されており、入力された音声信号は語句認識手段によ
り単位時間毎に分析されて特徴量が抽出され、この特徴
量に認識候補の特徴量がマッチングされて語句が認識さ
れる。このとき、音声信号の振幅が許容範囲を逸脱した
エラー状態が、音声信号の分析の単位時間まで連続する
と、エラー確定手段によりエラー発生が確定されるの
で、このエラー検知が音声認識と同一の時間単位で実行
される。
【0014】請求項4記載の発明では、請求項2記載の
音声認識装置において、認識候補辞書は、語句の情報と
して音声の特徴量を記憶しており、語句認識手段は、音
声信号を単位時間毎に分析して特徴量を抽出し、この特
徴量に認識候補の特徴量をマッチングさせて語句を認識
し、振幅累積手段は、音声信号の分析の単位時間まで振
幅を累積する。従って、語句の情報として音声の特徴量
が認識候補辞書に記憶されており、入力された音声信号
は語句認識手段により単位時間毎に分析されて特徴量が
抽出され、この特徴量に認識候補の特徴量がマッチング
されて語句が認識される。このとき、音声信号の振幅が
音声信号の分析の単位時間まで累積され、この累積値が
許容範囲を逸脱すると、エラー確定手段によりエラー発
生が確定されるので、このエラー検知が音声認識と同一
の時間単位で実行される。
音声認識装置において、認識候補辞書は、語句の情報と
して音声の特徴量を記憶しており、語句認識手段は、音
声信号を単位時間毎に分析して特徴量を抽出し、この特
徴量に認識候補の特徴量をマッチングさせて語句を認識
し、振幅累積手段は、音声信号の分析の単位時間まで振
幅を累積する。従って、語句の情報として音声の特徴量
が認識候補辞書に記憶されており、入力された音声信号
は語句認識手段により単位時間毎に分析されて特徴量が
抽出され、この特徴量に認識候補の特徴量がマッチング
されて語句が認識される。このとき、音声信号の振幅が
音声信号の分析の単位時間まで累積され、この累積値が
許容範囲を逸脱すると、エラー確定手段によりエラー発
生が確定されるので、このエラー検知が音声認識と同一
の時間単位で実行される。
【0015】請求項5記載の発明では、請求項1ないし
4の何れか一記載の音声認識装置において、エラー発生
を報知出力するエラー報知手段を設けた。従って、確定
されたエラー発生がエラー検知手段により報知出力され
るので、音声認識が良好に実行されなかったことが話者
に報知される。
4の何れか一記載の音声認識装置において、エラー発生
を報知出力するエラー報知手段を設けた。従って、確定
されたエラー発生がエラー検知手段により報知出力され
るので、音声認識が良好に実行されなかったことが話者
に報知される。
【0016】請求項6記載の発明では、請求項3または
4記載の音声認識装置において、エラー発生が確定され
たエラー状態の単位時間のスコアを低下させるスコア調
節手段を設け、語句認識手段は、音声信号と認識候補と
の特徴量をマッチングさせてスコアを累積し、この累積
スコアが所定の閾値を超過すると認識候補の語句を認識
結果として確定する。従って、語句認識手段により音声
信号から語句が認識されるとき、音声信号と認識候補と
の特徴量のマッチングのスコアが累積され、この累積ス
コアが所定の閾値を超過すると認識候補の語句が認識結
果として確定される。このとき、特定の単位時間のエラ
ー状態からエラー発生が確定されると、その単位時間の
スコアがスコア調節手段により低下されるので、認識候
補の語句全体の累積スコアにおいて、エラー状態の部分
のスコアのみ低減される。
4記載の音声認識装置において、エラー発生が確定され
たエラー状態の単位時間のスコアを低下させるスコア調
節手段を設け、語句認識手段は、音声信号と認識候補と
の特徴量をマッチングさせてスコアを累積し、この累積
スコアが所定の閾値を超過すると認識候補の語句を認識
結果として確定する。従って、語句認識手段により音声
信号から語句が認識されるとき、音声信号と認識候補と
の特徴量のマッチングのスコアが累積され、この累積ス
コアが所定の閾値を超過すると認識候補の語句が認識結
果として確定される。このとき、特定の単位時間のエラ
ー状態からエラー発生が確定されると、その単位時間の
スコアがスコア調節手段により低下されるので、認識候
補の語句全体の累積スコアにおいて、エラー状態の部分
のスコアのみ低減される。
【0017】請求項7記載の発明では、請求項6記載の
音声認識装置において、スコア調節手段は、認識候補の
語句の音声が“ハ行”の子音か破裂音の場合にスコアを
低下させる。従って、エラーが発生した時間のスコアが
スコア調節手段により低下されることが、認識候補の語
句の音声が“ハ行”の子音か破裂音の場合に実行され
る。話者がマイクロフォンに近接しすぎると“ハ行”の
子音や破裂音が音声信号に発生するが、これが語句の認
識結果の確定に寄与する割合が低減される。
音声認識装置において、スコア調節手段は、認識候補の
語句の音声が“ハ行”の子音か破裂音の場合にスコアを
低下させる。従って、エラーが発生した時間のスコアが
スコア調節手段により低下されることが、認識候補の語
句の音声が“ハ行”の子音か破裂音の場合に実行され
る。話者がマイクロフォンに近接しすぎると“ハ行”の
子音や破裂音が音声信号に発生するが、これが語句の認
識結果の確定に寄与する割合が低減される。
【0018】請求項8記載の発明では、請求項6または
7記載の音声認識装置において、スコア調節手段は、所
定の罰点をスコアに加算する。従って、エラーが発生し
た時間のスコアがスコア調節手段により低下されること
が、所定の罰点の加算により単純に実行される。
7記載の音声認識装置において、スコア調節手段は、所
定の罰点をスコアに加算する。従って、エラーが発生し
た時間のスコアがスコア調節手段により低下されること
が、所定の罰点の加算により単純に実行される。
【0019】請求項9記載の発明の音声認識方法は、認
識候補の語句の情報を予め用意しておき、入力された音
声信号から認識候補の語句を認識する音声認識方法にお
いて、音声信号の振幅が所定の許容範囲を逸脱したエラ
ー状態を検出し、このエラー状態が所定時間まで連続す
るとエラー発生を確定するようにした。従って、予め用
意された認識候補の語句が、入力された音声信号から認
識される。このとき、音声信号の振幅が許容範囲を逸脱
したエラー状態が所定時間まで連続するとエラー発生が
確定されるので、例えば、音声認識が良好に実行されな
かったことを話者に報知するようなことができる。
識候補の語句の情報を予め用意しておき、入力された音
声信号から認識候補の語句を認識する音声認識方法にお
いて、音声信号の振幅が所定の許容範囲を逸脱したエラ
ー状態を検出し、このエラー状態が所定時間まで連続す
るとエラー発生を確定するようにした。従って、予め用
意された認識候補の語句が、入力された音声信号から認
識される。このとき、音声信号の振幅が許容範囲を逸脱
したエラー状態が所定時間まで連続するとエラー発生が
確定されるので、例えば、音声認識が良好に実行されな
かったことを話者に報知するようなことができる。
【0020】請求項10記載の発明の音声認識方法は、
認識候補の語句の情報を予め用意しておき、入力された
音声信号から認識候補の語句を認識する音声認識方法に
おいて、音声信号の振幅を所定時間まで累積し、この振
幅の累積値が所定の許容範囲を逸脱するとエラー発生を
確定するようにした。従って、予め用意された認識候補
の語句が、入力された音声信号から認識される。このと
き、音声信号の振幅が所定時間まで累積され、この累積
値が所定の許容範囲を逸脱するとエラー発生が確定され
るので、例えば、音声認識が良好に実行されなかったこ
とを話者に報知するようなことができる。
認識候補の語句の情報を予め用意しておき、入力された
音声信号から認識候補の語句を認識する音声認識方法に
おいて、音声信号の振幅を所定時間まで累積し、この振
幅の累積値が所定の許容範囲を逸脱するとエラー発生を
確定するようにした。従って、予め用意された認識候補
の語句が、入力された音声信号から認識される。このと
き、音声信号の振幅が所定時間まで累積され、この累積
値が所定の許容範囲を逸脱するとエラー発生が確定され
るので、例えば、音声認識が良好に実行されなかったこ
とを話者に報知するようなことができる。
【0021】請求項11記載の発明の情報記憶媒体は、
認識候補の語句の情報を予め記憶した認識候補辞書と、
音声信号の入力を受け付ける入力デバイスと、各種のプ
ログラムが予め書き込まれた情報記憶媒体と、プログラ
ムに従って各種のデータ処理を実行するコンピュータと
を有し、音声信号から語句を認識する音声認識装置にお
いて、音声信号の振幅が所定の許容範囲を逸脱したエラ
ー状態を検出すること、このエラー状態が所定時間まで
連続するとエラー発生を確定すること、を前記コンピュ
ータに実行させるプログラムが書き込まれている。従っ
て、音声認識装置は、情報記憶媒体に予め書き込まれた
プログラムに従ってコンピュータがデータ処理を実行す
ることにより、入力デバイスに入力された音声信号から
認識候補辞書に記憶されている語句を認識する。このよ
うな音声認識装置の情報記憶媒体に、音声信号の振幅が
所定の許容範囲を逸脱したエラー状態を検出するための
プログラム、このエラー状態が所定時間まで連続すると
エラー発生を確定するためのプログラム、が書き込まれ
ているので、上述のように音声信号から語句が認識され
るとき、音声信号の振幅が許容範囲を逸脱したエラー状
態が所定時間まで連続するとエラー発生が確定される。
このため、例えば、音声認識が良好に実行されなかった
ことを話者に報知するようなことができる。
認識候補の語句の情報を予め記憶した認識候補辞書と、
音声信号の入力を受け付ける入力デバイスと、各種のプ
ログラムが予め書き込まれた情報記憶媒体と、プログラ
ムに従って各種のデータ処理を実行するコンピュータと
を有し、音声信号から語句を認識する音声認識装置にお
いて、音声信号の振幅が所定の許容範囲を逸脱したエラ
ー状態を検出すること、このエラー状態が所定時間まで
連続するとエラー発生を確定すること、を前記コンピュ
ータに実行させるプログラムが書き込まれている。従っ
て、音声認識装置は、情報記憶媒体に予め書き込まれた
プログラムに従ってコンピュータがデータ処理を実行す
ることにより、入力デバイスに入力された音声信号から
認識候補辞書に記憶されている語句を認識する。このよ
うな音声認識装置の情報記憶媒体に、音声信号の振幅が
所定の許容範囲を逸脱したエラー状態を検出するための
プログラム、このエラー状態が所定時間まで連続すると
エラー発生を確定するためのプログラム、が書き込まれ
ているので、上述のように音声信号から語句が認識され
るとき、音声信号の振幅が許容範囲を逸脱したエラー状
態が所定時間まで連続するとエラー発生が確定される。
このため、例えば、音声認識が良好に実行されなかった
ことを話者に報知するようなことができる。
【0022】請求項12記載の発明の情報記憶媒体は、
認識候補の語句の情報を予め記憶した認識候補辞書と、
音声信号の入力を受け付ける入力デバイスと、各種のプ
ログラムが予め書き込まれた情報記憶媒体と、プログラ
ムに従って各種のデータ処理を実行するコンピュータと
を有し、音声信号から語句を認識する音声認識装置にお
いて、音声信号の振幅を所定時間まで累積すること、こ
の振幅の累積値が所定の許容範囲を逸脱するとエラー発
生を確定すること、を前記コンピュータに実行させるプ
ログラムが書き込まれている。従って、音声認識装置
は、情報記憶媒体に予め書き込まれたプログラムに従っ
てコンピュータがデータ処理を実行することにより、入
力デバイスに入力された音声信号から認識候補辞書に記
憶されている語句を認識する。このような音声認識装置
の情報記憶媒体に、音声信号の振幅を所定時間まで累積
するためのプログラム、この振幅の累積値が所定の許容
範囲を逸脱するとエラー発生を確定するためのプログラ
ム、が書き込まれているので、上述のように音声信号か
ら語句が認識されるとき、音声信号の振幅が所定時間ま
で累積され、この累積値が所定の許容範囲を逸脱すると
エラー発生が確定される。このため、例えば、音声認識
が良好に実行されなかったことを話者に報知するような
ことができる。
認識候補の語句の情報を予め記憶した認識候補辞書と、
音声信号の入力を受け付ける入力デバイスと、各種のプ
ログラムが予め書き込まれた情報記憶媒体と、プログラ
ムに従って各種のデータ処理を実行するコンピュータと
を有し、音声信号から語句を認識する音声認識装置にお
いて、音声信号の振幅を所定時間まで累積すること、こ
の振幅の累積値が所定の許容範囲を逸脱するとエラー発
生を確定すること、を前記コンピュータに実行させるプ
ログラムが書き込まれている。従って、音声認識装置
は、情報記憶媒体に予め書き込まれたプログラムに従っ
てコンピュータがデータ処理を実行することにより、入
力デバイスに入力された音声信号から認識候補辞書に記
憶されている語句を認識する。このような音声認識装置
の情報記憶媒体に、音声信号の振幅を所定時間まで累積
するためのプログラム、この振幅の累積値が所定の許容
範囲を逸脱するとエラー発生を確定するためのプログラ
ム、が書き込まれているので、上述のように音声信号か
ら語句が認識されるとき、音声信号の振幅が所定時間ま
で累積され、この累積値が所定の許容範囲を逸脱すると
エラー発生が確定される。このため、例えば、音声認識
が良好に実行されなかったことを話者に報知するような
ことができる。
【0023】
【発明の実施の形態】本発明の実施の第一の形態を図面
に基づいて以下に説明する。まず、本実施の形態の音声
認識装置1は、図2および図3に示すように、そのハー
ドウェアとしてデータ処理装置であるコンピュータシス
テムを有している。このコンピュータシステムからなる
音声認識装置1は、コンピュータの主体としてCPU(C
entralProcessing Unit)2を有しており、このCPU
2には、バスライン3により、ROM(Read Only Memor
y)4、RAM(Random Access Memory)5、HD(Hard Di
sk…図示せず)を内蔵したHDD(HD Drive)6、FD(F
loppy Disk)7が装填されるFDD(FD Drive)8、CD
(Compact Disk)−ROM9が装填されるCD−ROMド
ライブ10、マウス11が接続されたキーボード12、
ディスプレイ13、入力デバイスであるマイクロフォン
14が一体化されたヘッドフォン15、通信I/F(Int
erface)16、等が接続されている。
に基づいて以下に説明する。まず、本実施の形態の音声
認識装置1は、図2および図3に示すように、そのハー
ドウェアとしてデータ処理装置であるコンピュータシス
テムを有している。このコンピュータシステムからなる
音声認識装置1は、コンピュータの主体としてCPU(C
entralProcessing Unit)2を有しており、このCPU
2には、バスライン3により、ROM(Read Only Memor
y)4、RAM(Random Access Memory)5、HD(Hard Di
sk…図示せず)を内蔵したHDD(HD Drive)6、FD(F
loppy Disk)7が装填されるFDD(FD Drive)8、CD
(Compact Disk)−ROM9が装填されるCD−ROMド
ライブ10、マウス11が接続されたキーボード12、
ディスプレイ13、入力デバイスであるマイクロフォン
14が一体化されたヘッドフォン15、通信I/F(Int
erface)16、等が接続されている。
【0024】この音声認識装置1は、前記CPU2に各
種の処理動作を実行させるプログラム等が予め設定され
ており、このプログラム等のソフトウェアは、例えば、
情報記憶媒体である前記FD7や前記CD−ROM9に
予め書き込まれている。そして、このソフトウェアが情
報記憶媒体である前記HDD6に予めインストールされ
ており、これが起動時に情報記憶媒体である前記RAM
5に複写されて前記CPU2に読み取られる。
種の処理動作を実行させるプログラム等が予め設定され
ており、このプログラム等のソフトウェアは、例えば、
情報記憶媒体である前記FD7や前記CD−ROM9に
予め書き込まれている。そして、このソフトウェアが情
報記憶媒体である前記HDD6に予めインストールされ
ており、これが起動時に情報記憶媒体である前記RAM
5に複写されて前記CPU2に読み取られる。
【0025】このように前記CPU2がプログラムを読
み取って各種の処理動作を実行することにより、各種機
能が各種手段として実現されている。このような各種手
段として、本実施の形態の音声認識装置1は、図1に示
すように、認識候補辞書21、音声認識手段22、エラ
ー判定手段23、を有している。前記音声認識手段22
は、音声入力手段24、語句認識手段25、結果出力手
段26、等からなり、前記語句認識手段25は、音声分
析手段27、スコア算出手段28、結果確定手段29、
等からなる。前記エラー判定手段23は、エラー検出手
段30、エラー確定手段31、エラー報知手段32、等
からなる。
み取って各種の処理動作を実行することにより、各種機
能が各種手段として実現されている。このような各種手
段として、本実施の形態の音声認識装置1は、図1に示
すように、認識候補辞書21、音声認識手段22、エラ
ー判定手段23、を有している。前記音声認識手段22
は、音声入力手段24、語句認識手段25、結果出力手
段26、等からなり、前記語句認識手段25は、音声分
析手段27、スコア算出手段28、結果確定手段29、
等からなる。前記エラー判定手段23は、エラー検出手
段30、エラー確定手段31、エラー報知手段32、等
からなる。
【0026】このような音声認識装置1の各種手段は、
必要により前記ディスプレイ13や前記マイクロフォン
14等のハードウェアも利用して実現されるが、その主
体は前記RAM5等に書き込まれたソフトウェアに対応
して前記CPU2が動作することにより実現されてい
る。このため、前記RAM5には、前記マイクロフォン
14に入力された音声信号から語句を認識して前記ディ
スプレイ13に表示させることを、前記CPU2に実行
させるプログラムが書き込まれている。また、音声信号
の振幅が所定の許容範囲を逸脱したエラー状態を検出す
ること、このエラー状態が所定時間まで連続するとエラ
ー発生を確定すること、を前記CPU2に実行させるプ
ログラムも書き込まれている。
必要により前記ディスプレイ13や前記マイクロフォン
14等のハードウェアも利用して実現されるが、その主
体は前記RAM5等に書き込まれたソフトウェアに対応
して前記CPU2が動作することにより実現されてい
る。このため、前記RAM5には、前記マイクロフォン
14に入力された音声信号から語句を認識して前記ディ
スプレイ13に表示させることを、前記CPU2に実行
させるプログラムが書き込まれている。また、音声信号
の振幅が所定の許容範囲を逸脱したエラー状態を検出す
ること、このエラー状態が所定時間まで連続するとエラ
ー発生を確定すること、を前記CPU2に実行させるプ
ログラムも書き込まれている。
【0027】より詳細には、前記RAM5には、図4に
示すように、パターンデータベース41と、音声認識プ
ログラム42と、エラー判定プログラム43と、が書き
込まれている。前記音声認識プログラム42は、モジュ
ール構造のアプリケーションソフトであり、ここでは一
般的なDP(Dynamic-Programming)マッチングの制御プ
ログラムからなる。前記音声認識プログラム42は、特
徴抽出モジュール44と単語照合モジュール45からな
り、この単語照合モジュール45は、スコア計算モジュ
ール46とスコア累積モジュール47からなる。前記エ
ラー判定プログラム43も、モジュール構造のアプリケ
ーションソフトからなり、エラー検出モジュール48と
メッセージ出力モジュール49からなる。
示すように、パターンデータベース41と、音声認識プ
ログラム42と、エラー判定プログラム43と、が書き
込まれている。前記音声認識プログラム42は、モジュ
ール構造のアプリケーションソフトであり、ここでは一
般的なDP(Dynamic-Programming)マッチングの制御プ
ログラムからなる。前記音声認識プログラム42は、特
徴抽出モジュール44と単語照合モジュール45からな
り、この単語照合モジュール45は、スコア計算モジュ
ール46とスコア累積モジュール47からなる。前記エ
ラー判定プログラム43も、モジュール構造のアプリケ
ーションソフトからなり、エラー検出モジュール48と
メッセージ出力モジュール49からなる。
【0028】前記パターンデータベース41は、前記認
識候補辞書21のソフトウェアであり、設定内容が更新
自在なデータファイルとして前記RAM5に格納されて
いる。このようなパターンデータベース41には、図5
に示すように、認識候補の語句である単語の音声の特徴
量が、音素単位の状態遷移モデルと単語単位の音素ネッ
トワークとして予め設定されている。各音素は状態遷移
モデルとして表現されており、各状態は平均特徴量と継
続時間長との情報を有している。
識候補辞書21のソフトウェアであり、設定内容が更新
自在なデータファイルとして前記RAM5に格納されて
いる。このようなパターンデータベース41には、図5
に示すように、認識候補の語句である単語の音声の特徴
量が、音素単位の状態遷移モデルと単語単位の音素ネッ
トワークとして予め設定されている。各音素は状態遷移
モデルとして表現されており、各状態は平均特徴量と継
続時間長との情報を有している。
【0029】前記特徴抽出モジュール44は、音声信号
を単位時間であるフレーム毎に分析して特徴量を抽出す
るためのプログラムからなり、前記単語照合モジュール
45は、音声信号から単語を確定するためのプログラム
からなる。前記スコア計算モジュール46は、音声信号
の特徴量に認識候補の単語の音声の特徴量を照合させ、
そのマッチングの距離をスコアとしてフレーム毎に算出
するためのプログラムからなり、スコア累積モジュール
47は、フレーム毎のスコアを累積して所定の閾値を超
過すると認識候補の単語を認識結果として確定するため
のプログラムからなる。
を単位時間であるフレーム毎に分析して特徴量を抽出す
るためのプログラムからなり、前記単語照合モジュール
45は、音声信号から単語を確定するためのプログラム
からなる。前記スコア計算モジュール46は、音声信号
の特徴量に認識候補の単語の音声の特徴量を照合させ、
そのマッチングの距離をスコアとしてフレーム毎に算出
するためのプログラムからなり、スコア累積モジュール
47は、フレーム毎のスコアを累積して所定の閾値を超
過すると認識候補の単語を認識結果として確定するため
のプログラムからなる。
【0030】前記エラー検出モジュール48は、音声信
号の振幅が所定の許容範囲を逸脱したエラー状態を検出
し、このエラー状態が所定の基準時間まで連続するとエ
ラー発生を確定するためのプログラムからなる。より詳
細には、音声信号は所定の周波数でデジタル化されるの
で、その振幅のビット数が所定の閾値と比較される。こ
の閾値を音声信号の振幅が超過した連続時間が積算さ
れ、この積算時間が基準時間を超過するとエラー信号が
発行される。
号の振幅が所定の許容範囲を逸脱したエラー状態を検出
し、このエラー状態が所定の基準時間まで連続するとエ
ラー発生を確定するためのプログラムからなる。より詳
細には、音声信号は所定の周波数でデジタル化されるの
で、その振幅のビット数が所定の閾値と比較される。こ
の閾値を音声信号の振幅が超過した連続時間が積算さ
れ、この積算時間が基準時間を超過するとエラー信号が
発行される。
【0031】前記メッセージ出力モジュール49は、エ
ラー発生が確定されてエラー信号が発行されると、所定
のエラー警告を前記ディスプレイ13や前記ヘッドフォ
ン15に出力させるためのプログラムからなる。エラー
警告は“マイクに息がかかっています”等のメッセージ
からなり、出力デバイスに対応した画像データや音声デ
ータとして設定されている。
ラー発生が確定されてエラー信号が発行されると、所定
のエラー警告を前記ディスプレイ13や前記ヘッドフォ
ン15に出力させるためのプログラムからなる。エラー
警告は“マイクに息がかかっています”等のメッセージ
からなり、出力デバイスに対応した画像データや音声デ
ータとして設定されている。
【0032】上述のようなソフトウェアに対応して前記
CPU2が各種の処理動作を実行することにより、各種
機能が前記手段24〜32として実現されている。ま
ず、前記音声入力手段24は、前記マイクロフォン14
により音声の入力を受け付け、この入力音声をデジタル
の電気信号にA/D(Analog/Digital)変換する。前記
音声分析手段27は、前記特徴抽出モジュール44のプ
ログラムに対応した前記CPU2のデータ処理等によ
り、音声信号を単位時間であるフレーム毎に分析して特
徴量を抽出する。
CPU2が各種の処理動作を実行することにより、各種
機能が前記手段24〜32として実現されている。ま
ず、前記音声入力手段24は、前記マイクロフォン14
により音声の入力を受け付け、この入力音声をデジタル
の電気信号にA/D(Analog/Digital)変換する。前記
音声分析手段27は、前記特徴抽出モジュール44のプ
ログラムに対応した前記CPU2のデータ処理等によ
り、音声信号を単位時間であるフレーム毎に分析して特
徴量を抽出する。
【0033】このように入力音声をデジタルの電気信号
に変換してから特徴量を抽出することには、既存の各種
手法が利用できるが、ここでは入力音声を16(kHz)で16
(bit)のデジタル信号に変換し、これを線形予測分析し
てから特徴量としてメルケプストラムを算出する。より
詳細には、窓長256ポイント、シフト幅160ポイン
トで、20次の線形予測分析を実行してから、10次のメル
ケプストラムを算出することにより、0.01(sec)毎に10
次元の特徴ベクトルが抽出される。
に変換してから特徴量を抽出することには、既存の各種
手法が利用できるが、ここでは入力音声を16(kHz)で16
(bit)のデジタル信号に変換し、これを線形予測分析し
てから特徴量としてメルケプストラムを算出する。より
詳細には、窓長256ポイント、シフト幅160ポイン
トで、20次の線形予測分析を実行してから、10次のメル
ケプストラムを算出することにより、0.01(sec)毎に10
次元の特徴ベクトルが抽出される。
【0034】前記スコア算出手段28は、前記単語照合
モジュール45のプログラムに対応した前記CPU2の
データ処理等により、図6に示すように、音声信号の特
徴量に認識候補の特徴量をマッチングさせ、その距離を
スコアとしてフレーム単位で算出して順次累積する。よ
り詳細には、各フレーム毎に音声信号の特徴量と各音素
の各状態の特徴量との局所的なスコアが算出され、各状
態に対して音素ネットワークに従ったマッチングパスが
選択され、このように選択した最適なマッチングパスに
従って局所的なスコアが累積され、そのフレームまでの
累積スコアが算出される。
モジュール45のプログラムに対応した前記CPU2の
データ処理等により、図6に示すように、音声信号の特
徴量に認識候補の特徴量をマッチングさせ、その距離を
スコアとしてフレーム単位で算出して順次累積する。よ
り詳細には、各フレーム毎に音声信号の特徴量と各音素
の各状態の特徴量との局所的なスコアが算出され、各状
態に対して音素ネットワークに従ったマッチングパスが
選択され、このように選択した最適なマッチングパスに
従って局所的なスコアが累積され、そのフレームまでの
累積スコアが算出される。
【0035】前記結果確定手段29は、前記スコア累積
モジュール47のプログラムに対応した前記CPU2の
データ処理等により、音声信号と認識候補との累積スコ
アが所定の閾値を超過してから所定時間まで待機し、よ
り高い累積スコアが出現しなければ、その認識候補の単
語を認識結果として確定する。なお、より高い累積スコ
アが待機中に出現した場合には、これが認識結果の候補
として更新され、待機状態に再度移行する。前記結果出
力手段26は、上述のように確定された認識結果の単語
を、例えば、前記ディスプレイ13に表示出力する。
モジュール47のプログラムに対応した前記CPU2の
データ処理等により、音声信号と認識候補との累積スコ
アが所定の閾値を超過してから所定時間まで待機し、よ
り高い累積スコアが出現しなければ、その認識候補の単
語を認識結果として確定する。なお、より高い累積スコ
アが待機中に出現した場合には、これが認識結果の候補
として更新され、待機状態に再度移行する。前記結果出
力手段26は、上述のように確定された認識結果の単語
を、例えば、前記ディスプレイ13に表示出力する。
【0036】前記エラー検出モジュール48のプログラ
ムに対応した前記CPU2のデータ処理等により、前記
エラー検出手段30は、音声信号の振幅が所定の許容範
囲を逸脱したエラー状態を検出し、前記エラー確定手段
31は、エラー状態が所定の基準時間まで連続するとエ
ラー発生を確定する。より詳細には、前述のようにデジ
タル化された音声信号の振幅のビット数が所定の閾値と
比較され、この閾値を振幅が超過した連続時間が積算さ
れ、この積算時間が基準時間を超過するとエラー信号が
発行される。
ムに対応した前記CPU2のデータ処理等により、前記
エラー検出手段30は、音声信号の振幅が所定の許容範
囲を逸脱したエラー状態を検出し、前記エラー確定手段
31は、エラー状態が所定の基準時間まで連続するとエ
ラー発生を確定する。より詳細には、前述のようにデジ
タル化された音声信号の振幅のビット数が所定の閾値と
比較され、この閾値を振幅が超過した連続時間が積算さ
れ、この積算時間が基準時間を超過するとエラー信号が
発行される。
【0037】ここでは前記マイクロフォン14が吹かれ
た状態をエラーとして検出するため、エラー発生を検出
する振幅の閾値は、母音“ア”の最大振幅の半分程度に
設定されている。また、エラー発生を確定する基準時間
は0.005(sec)に設定されており、これはA/D変換のサ
ンプリング周波数の80ポイントであるとともに、音声認
識の処理フレームの半分の時間である。
た状態をエラーとして検出するため、エラー発生を検出
する振幅の閾値は、母音“ア”の最大振幅の半分程度に
設定されている。また、エラー発生を確定する基準時間
は0.005(sec)に設定されており、これはA/D変換のサ
ンプリング周波数の80ポイントであるとともに、音声認
識の処理フレームの半分の時間である。
【0038】前記エラー報知手段32は、前記メッセー
ジ出力モジュール49のプログラムに対応した前記CP
U2のデータ処理により、“マイクに息がかかっていま
す”等のメッセージからなるエラー警告を、例えば、前
記ディスプレイ13の表示や前記ヘッドフォン15の音
声で出力する。
ジ出力モジュール49のプログラムに対応した前記CP
U2のデータ処理により、“マイクに息がかかっていま
す”等のメッセージからなるエラー警告を、例えば、前
記ディスプレイ13の表示や前記ヘッドフォン15の音
声で出力する。
【0039】このような構成において、本実施の形態の
音声認識装置1は、認識対象の単語が含まれる音声がマ
イクロフォン14に入力されると、この音声信号から認
識候補辞書21に格納されている単語を認識し、この認
識結果をディスプレイ13に表示出力する。このような
音声認識装置1の音声認識方法を、図8を参照して以下
に順次詳述する。
音声認識装置1は、認識対象の単語が含まれる音声がマ
イクロフォン14に入力されると、この音声信号から認
識候補辞書21に格納されている単語を認識し、この認
識結果をディスプレイ13に表示出力する。このような
音声認識装置1の音声認識方法を、図8を参照して以下
に順次詳述する。
【0040】まず、話者が所望の単語をマイクロフォン
14に発声すると、この音声信号はデジタル信号にA/
D変換される。このデジタル化された音声信号の特徴量
としてメルケプストラムがフレーム毎に算出され、この
音声信号の特徴量に認識候補単語の特徴量がマッチング
される。このマッチングのスコアはフレーム毎に算出さ
れるので、このフレーム毎の局所スコアが順次累積され
る。この累積スコアが所定の閾値と比較され、この閾値
を累積スコアが超過すると、所定時間の待機後に認識候
補の単語が認識結果として確定される。このように確定
された認識候補の単語はディスプレイ13に表示出力さ
れるので、話者は発声した単語が認識されたことを確認
することができる。
14に発声すると、この音声信号はデジタル信号にA/
D変換される。このデジタル化された音声信号の特徴量
としてメルケプストラムがフレーム毎に算出され、この
音声信号の特徴量に認識候補単語の特徴量がマッチング
される。このマッチングのスコアはフレーム毎に算出さ
れるので、このフレーム毎の局所スコアが順次累積され
る。この累積スコアが所定の閾値と比較され、この閾値
を累積スコアが超過すると、所定時間の待機後に認識候
補の単語が認識結果として確定される。このように確定
された認識候補の単語はディスプレイ13に表示出力さ
れるので、話者は発声した単語が認識されたことを確認
することができる。
【0041】本実施の形態の音声認識装置1は、上述の
ようにマイクロフォン14に発声された単語を認識する
ことができるので、キーボード12を手動操作すること
なくテキストデータを入力することができる。本実施の
形態の音声認識装置1では、マイクロフォン14がヘッ
ドフォン15と一体化された接話型なので、周囲の騒音
の影響を受けにくいが、話者が不慣れな場合、マイクロ
フォン14を吹いてしまうことがある。
ようにマイクロフォン14に発声された単語を認識する
ことができるので、キーボード12を手動操作すること
なくテキストデータを入力することができる。本実施の
形態の音声認識装置1では、マイクロフォン14がヘッ
ドフォン15と一体化された接話型なので、周囲の騒音
の影響を受けにくいが、話者が不慣れな場合、マイクロ
フォン14を吹いてしまうことがある。
【0042】マイクロフォン14が吹かれると、図7に
示すように、音声信号に振幅が過大なノイズが発生する
ため、これが音声認識の精度を低下させることになる。
しかし、本実施の形態の音声認識装置1の音声認識方法
では、音声信号の振幅が所定の許容範囲を逸脱したエラ
ー状態が検出され、このエラー状態が所定の基準時間ま
で連続するとエラー発生が確定されるので、さらに、こ
の確定されたエラー発生がディスプレイ13の表示やヘ
ッドフォン15の音声により報知出力されるので、音声
認識が良好に実行されなかったことが話者に通達され
る。
示すように、音声信号に振幅が過大なノイズが発生する
ため、これが音声認識の精度を低下させることになる。
しかし、本実施の形態の音声認識装置1の音声認識方法
では、音声信号の振幅が所定の許容範囲を逸脱したエラ
ー状態が検出され、このエラー状態が所定の基準時間ま
で連続するとエラー発生が確定されるので、さらに、こ
の確定されたエラー発生がディスプレイ13の表示やヘ
ッドフォン15の音声により報知出力されるので、音声
認識が良好に実行されなかったことが話者に通達され
る。
【0043】より詳細には、図9に示すように、音声信
号は振幅に対応したデジタル信号であるので、そのサン
プリングポイント“i=m”での振幅“Xm”が上限の
閾値“TH1”および下限の閾値“−TH2”と比較さ
れる。これらの閾値を振幅が超過するとサンプリングポ
イント“m”が更新され、これが閾値である“i+N”
を超過するとエラー発生が確定されてエラー信号が発行
される。
号は振幅に対応したデジタル信号であるので、そのサン
プリングポイント“i=m”での振幅“Xm”が上限の
閾値“TH1”および下限の閾値“−TH2”と比較さ
れる。これらの閾値を振幅が超過するとサンプリングポ
イント“m”が更新され、これが閾値である“i+N”
を超過するとエラー発生が確定されてエラー信号が発行
される。
【0044】このため、話者は音声入力が適切でなかっ
たことを認識することができ、適切に音声入力を再度実
行することができる。特に、エラー発生の報知出力が
“マイクに息がかかっています”等のメッセージにより
実行されるので、話者はエラー発生の原因を確実に認識
することができる。しかも、この報知出力はエラー発生
が確定された時点で実行されるので、話者にエラー発生
を迅速に報知することができ、この点からも話者はエラ
ー発生の原因を認識することができる。
たことを認識することができ、適切に音声入力を再度実
行することができる。特に、エラー発生の報知出力が
“マイクに息がかかっています”等のメッセージにより
実行されるので、話者はエラー発生の原因を確実に認識
することができる。しかも、この報知出力はエラー発生
が確定された時点で実行されるので、話者にエラー発生
を迅速に報知することができ、この点からも話者はエラ
ー発生の原因を認識することができる。
【0045】なお、本実施の形態の音声認識装置1で
は、上述のようにエラー発生を確定して話者に報知して
も、これとは無関係に音声認識が実行される。つまり、
上述のようにマイクロフォン14を吹いてしまうと、こ
れが音声信号のノイズとなるので音声認識の精度は低下
するが、音声認識が不可能になるわけではなく、ノイズ
が一瞬で単語が長ければ音声認識は充分に可能である。
は、上述のようにエラー発生を確定して話者に報知して
も、これとは無関係に音声認識が実行される。つまり、
上述のようにマイクロフォン14を吹いてしまうと、こ
れが音声信号のノイズとなるので音声認識の精度は低下
するが、音声認識が不可能になるわけではなく、ノイズ
が一瞬で単語が長ければ音声認識は充分に可能である。
【0046】そこで、本実施の形態の音声認識装置1で
は、エラー発生が確定されても認識結果は破棄されず、
話者には入力状態が良好でないことと、今回の認識結果
が不確実であることとが報知出力される。この場合、上
述のようなメッセージの報知出力に連続させて“認識結
果を確認して下さい。再度入力しますか?(Y/N)”等
のメッセージを報知出力させれば、無用な音声入力を話
者に強要することなく、作業を迅速に遂行することがで
きる。
は、エラー発生が確定されても認識結果は破棄されず、
話者には入力状態が良好でないことと、今回の認識結果
が不確実であることとが報知出力される。この場合、上
述のようなメッセージの報知出力に連続させて“認識結
果を確認して下さい。再度入力しますか?(Y/N)”等
のメッセージを報知出力させれば、無用な音声入力を話
者に強要することなく、作業を迅速に遂行することがで
きる。
【0047】なお、本発明は上記形態に限定されるもの
ではなく、各種の変形を許容する。例えば、上記形態で
は音声認識装置1をコンピュータシステムの実験装置と
して想定し、音声信号から認識した単語をディスプレイ
13に表示することを例示した。しかし、上述のような
音声認識装置1の各部をASIC(Application Specifi
c Integrated Circuit)として製作し、これを各種製品
に組み込んで音声制御に利用することも可能である。
ではなく、各種の変形を許容する。例えば、上記形態で
は音声認識装置1をコンピュータシステムの実験装置と
して想定し、音声信号から認識した単語をディスプレイ
13に表示することを例示した。しかし、上述のような
音声認識装置1の各部をASIC(Application Specifi
c Integrated Circuit)として製作し、これを各種製品
に組み込んで音声制御に利用することも可能である。
【0048】また、上記形態では音声信号から抽出する
特徴量をメルケプストラムとすることを例示したが、こ
の特徴量には各種方式が適用可能である。さらに、音声
認識の手法としてDPマッチングを利用することを例示
したが、これも各種方式が利用可能であり、例えば、H
MM(Hidden Markov Model)方式等も利用可能である。
音声信号と認識候補とのマッチングのスコアとして距離
を計算することを例示したが、これを類似度や確率密度
とすることも可能である。
特徴量をメルケプストラムとすることを例示したが、こ
の特徴量には各種方式が適用可能である。さらに、音声
認識の手法としてDPマッチングを利用することを例示
したが、これも各種方式が利用可能であり、例えば、H
MM(Hidden Markov Model)方式等も利用可能である。
音声信号と認識候補とのマッチングのスコアとして距離
を計算することを例示したが、これを類似度や確率密度
とすることも可能である。
【0049】さらに、認識する語句を単語とすることを
例示したが、これを熟語や慣用句等とすることも可能で
ある。また、認識候補辞書21に音声の特徴量を単語毎
に登録しておくことを想定したが、これを音素単位で登
録しておいてマッチング時に文法等の規則に基づいて接
続させ、語句として認識するようなことも可能である。
例示したが、これを熟語や慣用句等とすることも可能で
ある。また、認識候補辞書21に音声の特徴量を単語毎
に登録しておくことを想定したが、これを音素単位で登
録しておいてマッチング時に文法等の規則に基づいて接
続させ、語句として認識するようなことも可能である。
【0050】また、本実施の形態では、A/D変換され
た音声信号にオフセットが無いものとし、許容範囲の上
限と下限との閾値を対称に設定することを想定したが、
A/D変換の特性等のために音声信号にオフセットが発
生する場合には、これに対応して許容範囲の閾値にもオ
フセットを設定することが好ましい。
た音声信号にオフセットが無いものとし、許容範囲の上
限と下限との閾値を対称に設定することを想定したが、
A/D変換の特性等のために音声信号にオフセットが発
生する場合には、これに対応して許容範囲の閾値にもオ
フセットを設定することが好ましい。
【0051】さらに、本実施の形態では、エラー発生の
確定に必要な基準時間が音声認識の単位時間であるフレ
ームの半分なので、音声認識とエラー検出との処理動作
で音声信号や基準クロック等を共用することができ、処
理負担が選択的に軽減されている。上述のようなエラー
検出の基準時間と音声認識のフレームとは、簡単な実験
により各々に最適な時間として設定されているが、これ
らの時間を完全に一致させ、さらに処理負担を軽減する
ことも可能である。
確定に必要な基準時間が音声認識の単位時間であるフレ
ームの半分なので、音声認識とエラー検出との処理動作
で音声信号や基準クロック等を共用することができ、処
理負担が選択的に軽減されている。上述のようなエラー
検出の基準時間と音声認識のフレームとは、簡単な実験
により各々に最適な時間として設定されているが、これ
らの時間を完全に一致させ、さらに処理負担を軽減する
ことも可能である。
【0052】また、本実施の形態では、RAM5等にソ
フトウェアとして格納されている制御プログラムに従っ
てCPU2が動作することにより、音声認識装置1の各
部が実現されることを例示した。しかし、このような各
部の各々を固有のハードウェアとして製作することも可
能であり、一部をソフトウェアとしてRAM5等に格納
するとともに一部をハードウェアとして製作することも
可能である。また、所定のソフトウェアが格納されたR
AM5等や各部のハードウェアを、例えば、ファームウ
ェアとして製作することも可能である。
フトウェアとして格納されている制御プログラムに従っ
てCPU2が動作することにより、音声認識装置1の各
部が実現されることを例示した。しかし、このような各
部の各々を固有のハードウェアとして製作することも可
能であり、一部をソフトウェアとしてRAM5等に格納
するとともに一部をハードウェアとして製作することも
可能である。また、所定のソフトウェアが格納されたR
AM5等や各部のハードウェアを、例えば、ファームウ
ェアとして製作することも可能である。
【0053】また、本実施の形態では、音声認識装置1
の起動時に、HDD6に格納されているソフトウェアが
RAM5に複写され、このようにRAM5に格納された
ソフトウェアをCPU2が読み取ることを想定したが、
このようなソフトウェアをHDD6に格納したままCP
U2に利用させることや、RAM5に予め書き込んでお
くことも可能である。
の起動時に、HDD6に格納されているソフトウェアが
RAM5に複写され、このようにRAM5に格納された
ソフトウェアをCPU2が読み取ることを想定したが、
このようなソフトウェアをHDD6に格納したままCP
U2に利用させることや、RAM5に予め書き込んでお
くことも可能である。
【0054】さらに、前述のように単体で取り扱える情
報記憶媒体であるFD7やCD−ROM9にソフトウェ
アを書き込んでおき、このFD7等からRAM5等にソ
フトウェアをインストールすることも可能であるが、こ
のようなインストールを実行することなくFD7等に書
き込まれたソフトウェアをCPU2が適宜読み取ってデ
ータ処理を実行することも可能である。
報記憶媒体であるFD7やCD−ROM9にソフトウェ
アを書き込んでおき、このFD7等からRAM5等にソ
フトウェアをインストールすることも可能であるが、こ
のようなインストールを実行することなくFD7等に書
き込まれたソフトウェアをCPU2が適宜読み取ってデ
ータ処理を実行することも可能である。
【0055】また、このような音声認識装置1の各部を
実現する制御プログラムを、複数のソフトウェアの組み
合わせにより実現することも可能であり、その場合、単
体の製品となる情報記憶媒体には必要最小限のソフトウ
ェアのみを格納しておけば良い。例えば、オペレーティ
ングシステムが実装されている音声認識装置1に、CD
−ROM9等の情報記憶媒体によりアプリケーションソ
フトを提供するような場合、音声認識装置1の各部を実
現するソフトウェアは、アプリケーションソフトとオペ
レーティングシステムとの組み合わせで実現されるの
で、オペレーティングシステムに依存する部分のソフト
ウェアはアプリケーションソフトの情報記憶媒体から省
略することができる。
実現する制御プログラムを、複数のソフトウェアの組み
合わせにより実現することも可能であり、その場合、単
体の製品となる情報記憶媒体には必要最小限のソフトウ
ェアのみを格納しておけば良い。例えば、オペレーティ
ングシステムが実装されている音声認識装置1に、CD
−ROM9等の情報記憶媒体によりアプリケーションソ
フトを提供するような場合、音声認識装置1の各部を実
現するソフトウェアは、アプリケーションソフトとオペ
レーティングシステムとの組み合わせで実現されるの
で、オペレーティングシステムに依存する部分のソフト
ウェアはアプリケーションソフトの情報記憶媒体から省
略することができる。
【0056】特に、本発明の音声認識装置は、音声認識
の処理動作は従来と同一であり、これに関連したエラー
を検出して話者に報知するものなので、このエラー検出
の部分のみを既存の音声認識装置のオプションのアプリ
ケーションソフトとして形成するようなこともできる。
その場合、CD−ROM9等の情報記憶媒体に、エラー
判定プログラム43のみ書き込んでおき、これを音声認
識プログラム42を具備した既存の音声認識装置にイン
ストールすれば良い。
の処理動作は従来と同一であり、これに関連したエラー
を検出して話者に報知するものなので、このエラー検出
の部分のみを既存の音声認識装置のオプションのアプリ
ケーションソフトとして形成するようなこともできる。
その場合、CD−ROM9等の情報記憶媒体に、エラー
判定プログラム43のみ書き込んでおき、これを音声認
識プログラム42を具備した既存の音声認識装置にイン
ストールすれば良い。
【0057】また、このように情報記憶媒体に書き込ん
だソフトウェアをコンピュータに供給する手法は、その
情報記憶媒体をコンピュータに直接に装填することに限
定されない。例えば、上述のようなソフトウェアをホス
トコンピュータの情報記憶媒体に書き込み、このホスト
コンピュータを通信ネットワークにより端末コンピュー
タに接続し、ホストコンピュータからデータ通信により
端末コンピュータにソフトウェアを供給することも可能
である。
だソフトウェアをコンピュータに供給する手法は、その
情報記憶媒体をコンピュータに直接に装填することに限
定されない。例えば、上述のようなソフトウェアをホス
トコンピュータの情報記憶媒体に書き込み、このホスト
コンピュータを通信ネットワークにより端末コンピュー
タに接続し、ホストコンピュータからデータ通信により
端末コンピュータにソフトウェアを供給することも可能
である。
【0058】この場合、端末コンピュータが自身の情報
記憶媒体にソフトウェアをダウンロードした状態でスタ
ンドアロンのデータ処理を実行することも可能である
が、ソフトウェアをダウンロードすることなくホストコ
ンピュータとのリアルタイムのデータ通信によりデータ
処理を実行することも可能である。この場合、ホストコ
ンピュータと端末コンピュータとを通信ネットワークに
より接続したシステム全体が、本発明の音声認識装置1
に相当することになる。
記憶媒体にソフトウェアをダウンロードした状態でスタ
ンドアロンのデータ処理を実行することも可能である
が、ソフトウェアをダウンロードすることなくホストコ
ンピュータとのリアルタイムのデータ通信によりデータ
処理を実行することも可能である。この場合、ホストコ
ンピュータと端末コンピュータとを通信ネットワークに
より接続したシステム全体が、本発明の音声認識装置1
に相当することになる。
【0059】つぎに、本発明の実施の第二の形態を図1
0ないし図12に基づいて以下に説明する。なお、本実
施の形態に関して上述した第一の形態と同一の部分は、
同一の名称および符号を使用して詳細な説明は省略す
る。
0ないし図12に基づいて以下に説明する。なお、本実
施の形態に関して上述した第一の形態と同一の部分は、
同一の名称および符号を使用して詳細な説明は省略す
る。
【0060】まず、本実施の形態の音声認識装置51
は、前述した音声認識装置1とハードウェアは同一であ
り、ソフトウェアの一部が相違しているので、音声認識
手段52とエラー判定手段53との処理動作が部分的に
相違する。つまり、図10に示すように、このエラー判
定手段53は、振幅累積手段54とエラー確定手段55
とを有しており、前記音声認識手段52は、その結果確
定手段56にスコア調節手段(図示せず)が付加されて
いる。
は、前述した音声認識装置1とハードウェアは同一であ
り、ソフトウェアの一部が相違しているので、音声認識
手段52とエラー判定手段53との処理動作が部分的に
相違する。つまり、図10に示すように、このエラー判
定手段53は、振幅累積手段54とエラー確定手段55
とを有しており、前記音声認識手段52は、その結果確
定手段56にスコア調節手段(図示せず)が付加されて
いる。
【0061】そして、本実施の形態の音声認識装置51
のRAM5には、音声信号の振幅を所定時間まで累積す
ること、振幅の累積値が所定の許容範囲を逸脱するとエ
ラー発生を確定すること、エラー発生が確定されたエラ
ー状態のフレームのスコアを低下させること、を前記C
PU2に実行させるプログラムが書き込まれている。
のRAM5には、音声信号の振幅を所定時間まで累積す
ること、振幅の累積値が所定の許容範囲を逸脱するとエ
ラー発生を確定すること、エラー発生が確定されたエラ
ー状態のフレームのスコアを低下させること、を前記C
PU2に実行させるプログラムが書き込まれている。
【0062】より詳細には、前記RAM5には、図11
に示すように、パターンデータベース41と、音声認識
プログラム61と、エラー判定プログラム62と、が書
き込まれている。前記エラー判定プログラム62は、エ
ラー検出モジュール63からなり、このエラー検出モジ
ュール63は、音声信号の振幅を所定時間まで累積し、
この累積値が所定の許容範囲を逸脱するとエラー発生を
確定するためのプログラムからなる。前記音声認識プロ
グラム61は、スコア計算モジュール64にスコア調節
モジュールが付加されており、このスコア調節モジュー
ルは、エラー発生が確定されたエラー状態のフレームの
スコアを低下させるためのプログラムからなる。
に示すように、パターンデータベース41と、音声認識
プログラム61と、エラー判定プログラム62と、が書
き込まれている。前記エラー判定プログラム62は、エ
ラー検出モジュール63からなり、このエラー検出モジ
ュール63は、音声信号の振幅を所定時間まで累積し、
この累積値が所定の許容範囲を逸脱するとエラー発生を
確定するためのプログラムからなる。前記音声認識プロ
グラム61は、スコア計算モジュール64にスコア調節
モジュールが付加されており、このスコア調節モジュー
ルは、エラー発生が確定されたエラー状態のフレームの
スコアを低下させるためのプログラムからなる。
【0063】上述のようなソフトウェアに対応してCP
U2が各種の処理動作を実行することにより、各種機能
が各種手段として実現されている。まず、前記振幅累積
手段54は、音声信号の振幅を所定時間まで累積し、前
記エラー確定手段55は、振幅の累積値が所定の許容範
囲を逸脱するとエラー発生を確定する。前記音声認識手
段52の結果確定手段56に付加されたスコア調節手段
は、エラー発生が確定されたエラー状態のフレームのス
コアを、ここでは係数の切り換えにより低下させる。
U2が各種の処理動作を実行することにより、各種機能
が各種手段として実現されている。まず、前記振幅累積
手段54は、音声信号の振幅を所定時間まで累積し、前
記エラー確定手段55は、振幅の累積値が所定の許容範
囲を逸脱するとエラー発生を確定する。前記音声認識手
段52の結果確定手段56に付加されたスコア調節手段
は、エラー発生が確定されたエラー状態のフレームのス
コアを、ここでは係数の切り換えにより低下させる。
【0064】このような構成において、本実施の形態の
音声認識装置51も、前述した音声認識装置1と同様
に、特定の単語が含まれた音声信号がマイクロフォン1
4に入力されると、この音声信号の特徴量をフレーム毎
に算出して認識候補単語の特徴量にマッチングさせ、そ
の局所スコアをフレーム毎に算出して順次累積させ、こ
の累積スコアが閾値を超過すると認識候補の単語を認識
結果として確定する。
音声認識装置51も、前述した音声認識装置1と同様
に、特定の単語が含まれた音声信号がマイクロフォン1
4に入力されると、この音声信号の特徴量をフレーム毎
に算出して認識候補単語の特徴量にマッチングさせ、そ
の局所スコアをフレーム毎に算出して順次累積させ、こ
の累積スコアが閾値を超過すると認識候補の単語を認識
結果として確定する。
【0065】このとき、本実施の形態の音声認識装置5
1は、マイクロフォン14が吹かれて音声信号に振幅が
過大なノイズが発生すると、この部分の局所スコアを低
下させる。より詳細には、図12に示すように、音声信
号のサンプリングポイント“i=m”での振幅“Xm”
が所定時間“N”まで順次累積され、その累積値“T”
が上限の閾値“TH3”および下限の閾値“−TH4”
と比較され、これらの閾値を振幅の累積値が超過すると
エラー発生が確定されてエラー信号が発行される。
1は、マイクロフォン14が吹かれて音声信号に振幅が
過大なノイズが発生すると、この部分の局所スコアを低
下させる。より詳細には、図12に示すように、音声信
号のサンプリングポイント“i=m”での振幅“Xm”
が所定時間“N”まで順次累積され、その累積値“T”
が上限の閾値“TH3”および下限の閾値“−TH4”
と比較され、これらの閾値を振幅の累積値が超過すると
エラー発生が確定されてエラー信号が発行される。
【0066】このようにエラー信号が発行されると、こ
れに対応して音声認識の処理動作が調節される。つま
り、エラー発生が確定されたエラー状態のフレームに対
し、その局所スコアが係数の切り換えにより低下され
る。より詳細には、音声信号の第“i”フレームの特徴
量“Xi”と認識候補の第“j”状態の特徴量“Yj”との
局所スコアである局所距離“d(i,j)”は、ベクトル間
距離“dist”により“d(i,j)=w(i)dist(Xi,Yj)”
として算出される。このとき、“w(i)”はエラー発生
に対応して局所スコアを低下させるための係数であり、
エラー信号が発行されると標準値“1.0”から“0.5”に
切り換えられる。
れに対応して音声認識の処理動作が調節される。つま
り、エラー発生が確定されたエラー状態のフレームに対
し、その局所スコアが係数の切り換えにより低下され
る。より詳細には、音声信号の第“i”フレームの特徴
量“Xi”と認識候補の第“j”状態の特徴量“Yj”との
局所スコアである局所距離“d(i,j)”は、ベクトル間
距離“dist”により“d(i,j)=w(i)dist(Xi,Yj)”
として算出される。このとき、“w(i)”はエラー発生
に対応して局所スコアを低下させるための係数であり、
エラー信号が発行されると標準値“1.0”から“0.5”に
切り換えられる。
【0067】つまり、音声信号に認識候補の単語をマッ
チングさせるとき、音声信号に大振幅のノイズが発生す
ると、その部分の局所スコアのみ半分に低減されるの
で、認識結果にノイズの部分が反映される割合が軽減さ
れる。このため、本実施の形態の音声認識装置51は、
話者がマイクロフォン14を吹くことに起因した認識精
度の低下が軽減され、良好な精度で単語を認識すること
ができる。
チングさせるとき、音声信号に大振幅のノイズが発生す
ると、その部分の局所スコアのみ半分に低減されるの
で、認識結果にノイズの部分が反映される割合が軽減さ
れる。このため、本実施の形態の音声認識装置51は、
話者がマイクロフォン14を吹くことに起因した認識精
度の低下が軽減され、良好な精度で単語を認識すること
ができる。
【0068】特に、音声認識の調節を自動的に実行する
ので、この処理を話者に意識させることがなく、作業を
迅速に続行させることができる。ただし、実際にはマイ
クロフォン14を吹く状態を話者に修正させることが好
ましいので、上述のような音声認識の自動調節を実行す
る場合でも、前述したエラー発生の報知出力を併用する
ことが好ましい。
ので、この処理を話者に意識させることがなく、作業を
迅速に続行させることができる。ただし、実際にはマイ
クロフォン14を吹く状態を話者に修正させることが好
ましいので、上述のような音声認識の自動調節を実行す
る場合でも、前述したエラー発生の報知出力を併用する
ことが好ましい。
【0069】なお、本発明は上記形態に限定されるもの
でもなく、各種の変形を許容する。例えば、上記形態で
は音声信号の振幅を基準時間まで累積してエラー発生を
確定すると、そのエラー状態の音声認識の局所スコアを
低下させることを例示したが、音声認識の局所スコアを
低下させることなくエラー発生を報知出力することも可
能である。また、前述のように音声信号の振幅が許容範
囲を逸脱したエラー状態が基準時間を超過することでエ
ラー発生を確定し、そのエラー状態の音声認識の局所ス
コアを低下させることや、音声認識の局所スコアを低下
させるとともにエラー発生を報知することも可能であ
り、また、本実施の形態でも、エラー発生の確定に必要
な基準時間を音声認識の単位時間であるフレームの半分
とすることを想定したが、上述のようにエラー検出に対
応して音声認識の処理動作を制御する場合、エラー検出
の基準時間を音声認識の単位時間であるフレームに一致
させれば、極めて良好に処理負担を軽減することができ
る。
でもなく、各種の変形を許容する。例えば、上記形態で
は音声信号の振幅を基準時間まで累積してエラー発生を
確定すると、そのエラー状態の音声認識の局所スコアを
低下させることを例示したが、音声認識の局所スコアを
低下させることなくエラー発生を報知出力することも可
能である。また、前述のように音声信号の振幅が許容範
囲を逸脱したエラー状態が基準時間を超過することでエ
ラー発生を確定し、そのエラー状態の音声認識の局所ス
コアを低下させることや、音声認識の局所スコアを低下
させるとともにエラー発生を報知することも可能であ
り、また、本実施の形態でも、エラー発生の確定に必要
な基準時間を音声認識の単位時間であるフレームの半分
とすることを想定したが、上述のようにエラー検出に対
応して音声認識の処理動作を制御する場合、エラー検出
の基準時間を音声認識の単位時間であるフレームに一致
させれば、極めて良好に処理負担を軽減することができ
る。
【0070】また、本実施の形態では、音声信号の振幅
の所定時間での累積値が閾値を超過するとエラー発生を
確定して音声認識の局所スコアを低下させることを例示
したが、この局所スコアの低下を認識候補の語句の音声
が“ハ行”の子音か破裂音の場合に制限することも可能
である。つまり、一般的にマイクロフォン14が吹かれ
ると“ハ行”の子音か破裂音が発生するので、これが音
声認識に利用されることを防止すれば、より良好に認識
精度を向上させることができる。
の所定時間での累積値が閾値を超過するとエラー発生を
確定して音声認識の局所スコアを低下させることを例示
したが、この局所スコアの低下を認識候補の語句の音声
が“ハ行”の子音か破裂音の場合に制限することも可能
である。つまり、一般的にマイクロフォン14が吹かれ
ると“ハ行”の子音か破裂音が発生するので、これが音
声認識に利用されることを防止すれば、より良好に認識
精度を向上させることができる。
【0071】さらに、本実施の形態では、エラー発生に
対応して局所スコアを係数の切り換えにより低下させる
ことを例示したが、このようなエラー発生に対応した局
所スコアの低減を所定の罰点の加算により実行すること
も可能である。
対応して局所スコアを係数の切り換えにより低下させる
ことを例示したが、このようなエラー発生に対応した局
所スコアの低減を所定の罰点の加算により実行すること
も可能である。
【0072】また、本実施の形態では、一般的な手法に
より局所スコアを算出することを例示したが、この算出
にも各種手法が適用可能である。例えば、日本音響学会
講演論文集1-4-1(平成5年3月)に発表されている
“相補的な音素認識モデルを用いたワードスポッティン
グ”のように、スコアである音素認識のスコアに正負の
値を持たせ、認識スコアの和の最も大きい音素系列を抽
出する手法なども利用可能である。その場合、音声信号
の“m〜i”フレームと音素“p”とを照合させた局所
スコア“r(p,i,m)”を、係数の切り換えや罰点の加
算の有無等により操作すれば良い。
より局所スコアを算出することを例示したが、この算出
にも各種手法が適用可能である。例えば、日本音響学会
講演論文集1-4-1(平成5年3月)に発表されている
“相補的な音素認識モデルを用いたワードスポッティン
グ”のように、スコアである音素認識のスコアに正負の
値を持たせ、認識スコアの和の最も大きい音素系列を抽
出する手法なども利用可能である。その場合、音声信号
の“m〜i”フレームと音素“p”とを照合させた局所
スコア“r(p,i,m)”を、係数の切り換えや罰点の加
算の有無等により操作すれば良い。
【0073】
【発明の効果】請求項1記載の発明の音声認識装置は、
音声信号の振幅が所定の許容範囲を逸脱したエラー状態
を検出するエラー検出手段と、エラー状態が所定時間ま
で連続するとエラー発生を確定するエラー確定手段とを
有することにより、音声信号から語句を認識するとき、
音声信号の振幅が許容範囲を逸脱するとエラー発生が検
出されるので、例えば、不慣れな話者がマイクロフォン
を吹いたことをエラーとして検知することができ、この
ような場合に音声認識が良好に実行されなかったことを
話者に報知するようなことができ、エラー状態が瞬間的
であるとエラー発生が確定されないので、音声認識に影
響が大きいエラーのみを検出することができる。
音声信号の振幅が所定の許容範囲を逸脱したエラー状態
を検出するエラー検出手段と、エラー状態が所定時間ま
で連続するとエラー発生を確定するエラー確定手段とを
有することにより、音声信号から語句を認識するとき、
音声信号の振幅が許容範囲を逸脱するとエラー発生が検
出されるので、例えば、不慣れな話者がマイクロフォン
を吹いたことをエラーとして検知することができ、この
ような場合に音声認識が良好に実行されなかったことを
話者に報知するようなことができ、エラー状態が瞬間的
であるとエラー発生が確定されないので、音声認識に影
響が大きいエラーのみを検出することができる。
【0074】請求項2記載の発明の音声認識装置は、音
声信号の振幅を所定時間まで累積する振幅累積手段と、
振幅の累積値が所定の許容範囲を逸脱するとエラー発生
を確定するエラー確定手段とを有することにより、音声
信号から語句を認識するとき、音声信号の振幅の所定時
間での累積値が許容範囲を逸脱するとエラー発生が検出
されるので、例えば、不慣れな話者がマイクロフォンを
吹いたことをエラーとして検知することができ、このよ
うな場合に音声認識が良好に実行されなかったことを話
者に報知するようなことができ、エラー状態が瞬間的で
あるとエラー発生が確定されないので、音声認識に影響
が大きいエラーのみを検出することができる。
声信号の振幅を所定時間まで累積する振幅累積手段と、
振幅の累積値が所定の許容範囲を逸脱するとエラー発生
を確定するエラー確定手段とを有することにより、音声
信号から語句を認識するとき、音声信号の振幅の所定時
間での累積値が許容範囲を逸脱するとエラー発生が検出
されるので、例えば、不慣れな話者がマイクロフォンを
吹いたことをエラーとして検知することができ、このよ
うな場合に音声認識が良好に実行されなかったことを話
者に報知するようなことができ、エラー状態が瞬間的で
あるとエラー発生が確定されないので、音声認識に影響
が大きいエラーのみを検出することができる。
【0075】請求項3記載の発明の音声認識装置では、
エラー確定手段は、音声信号の分析の単位時間までエラ
ー状態が連続するとエラー発生を確定することにより、
このエラー検出が音声認識と同一の時間単位で実行され
るので、音声認識とエラー検出とで音声信号や基準クロ
ックを共用することができ、全体的な処理負担を軽減す
ることができる。
エラー確定手段は、音声信号の分析の単位時間までエラ
ー状態が連続するとエラー発生を確定することにより、
このエラー検出が音声認識と同一の時間単位で実行され
るので、音声認識とエラー検出とで音声信号や基準クロ
ックを共用することができ、全体的な処理負担を軽減す
ることができる。
【0076】請求項4記載の発明の音声認識装置では、
振幅累積手段は、音声信号の分析の単位時間まで振幅を
累積することにより、このエラー検出が音声認識と同一
の時間単位で実行されるので、音声認識とエラー検出と
で音声信号や基準クロックを共用することができ、全体
的な処理負担を軽減することができる。
振幅累積手段は、音声信号の分析の単位時間まで振幅を
累積することにより、このエラー検出が音声認識と同一
の時間単位で実行されるので、音声認識とエラー検出と
で音声信号や基準クロックを共用することができ、全体
的な処理負担を軽減することができる。
【0077】請求項5記載の発明の音声認識装置では、
エラー発生を報知出力するエラー報知手段を設けたこと
により、確定されたエラー発生がエラー報知手段により
報知出力されるので、音声認識が良好に実行されなかっ
たことを話者に報知することができる。
エラー発生を報知出力するエラー報知手段を設けたこと
により、確定されたエラー発生がエラー報知手段により
報知出力されるので、音声認識が良好に実行されなかっ
たことを話者に報知することができる。
【0078】請求項6記載の発明の音声認識装置では、
エラー発生が確定されたエラー状態の単位時間のスコア
を低下させるスコア調節手段を設け、語句認識手段は、
音声信号と認識候補との特徴量をマッチングさせてスコ
アを累積し、この累積スコアが所定の閾値を超過すると
認識候補の語句を認識結果として確定することにより、
音声認識の特定の単位時間のエラー状態からエラー発生
が確定されると、その単位時間のスコアが低下されるの
で、ノイズの部分が認識結果に反映される割合を軽減し
て認識精度を向上させることができる。
エラー発生が確定されたエラー状態の単位時間のスコア
を低下させるスコア調節手段を設け、語句認識手段は、
音声信号と認識候補との特徴量をマッチングさせてスコ
アを累積し、この累積スコアが所定の閾値を超過すると
認識候補の語句を認識結果として確定することにより、
音声認識の特定の単位時間のエラー状態からエラー発生
が確定されると、その単位時間のスコアが低下されるの
で、ノイズの部分が認識結果に反映される割合を軽減し
て認識精度を向上させることができる。
【0079】請求項7記載の発明の音声認識装置では、
スコア調節手段は、認識候補の語句の音声が“ハ行”の
子音か破裂音の場合にスコアを低下させることにより、
話者がマイクロフォンを吹くと発生する“ハ行”の子音
や破裂音の部分で局所スコアが低下されるので、より良
好に認識精度を向上させることができる。
スコア調節手段は、認識候補の語句の音声が“ハ行”の
子音か破裂音の場合にスコアを低下させることにより、
話者がマイクロフォンを吹くと発生する“ハ行”の子音
や破裂音の部分で局所スコアが低下されるので、より良
好に認識精度を向上させることができる。
【0080】請求項8記載の発明の音声認識装置では、
スコア調節手段は、所定の罰点をスコアに加算すること
により、簡単なデータ処理でノイズのスコアを的確に低
下させることができる。
スコア調節手段は、所定の罰点をスコアに加算すること
により、簡単なデータ処理でノイズのスコアを的確に低
下させることができる。
【0081】請求項9記載の発明の音声認識方法は、認
識候補の語句の情報を予め用意しておき、入力された音
声信号から認識候補の語句を認識する音声認識方法で
は、音声信号の振幅が所定の許容範囲を逸脱したエラー
状態を検出し、このエラー状態が所定時間まで連続する
とエラー発生を確定するようにしたことにより、音声信
号から語句を認識するとき、音声信号の振幅が許容範囲
を逸脱するとエラー発生が検出されるので、例えば、不
慣れな話者がマイクロフォンを吹いたことをエラーとし
て検知することができ、このような場合に音声認識が良
好に実行されなかったことを話者に報知するようなこと
ができる。
識候補の語句の情報を予め用意しておき、入力された音
声信号から認識候補の語句を認識する音声認識方法で
は、音声信号の振幅が所定の許容範囲を逸脱したエラー
状態を検出し、このエラー状態が所定時間まで連続する
とエラー発生を確定するようにしたことにより、音声信
号から語句を認識するとき、音声信号の振幅が許容範囲
を逸脱するとエラー発生が検出されるので、例えば、不
慣れな話者がマイクロフォンを吹いたことをエラーとし
て検知することができ、このような場合に音声認識が良
好に実行されなかったことを話者に報知するようなこと
ができる。
【0082】請求項10記載の発明の音声認識方法は、
認識候補の語句の情報を予め用意しておき、入力された
音声信号から認識候補の語句を認識する音声認識方法で
は、音声信号の振幅を所定時間まで累積し、この振幅の
累積値が所定の許容範囲を逸脱するとエラー発生を確定
するようにしたことにより、音声信号から語句を認識す
るとき、音声信号の振幅の所定時間での累積値が許容範
囲を逸脱するとエラー発生が検出されるので、例えば、
不慣れな話者がマイクロフォンを吹いたことをエラーと
して検知することができ、このような場合に音声認識が
良好に実行されなかったことを話者に報知するようなこ
とができる。
認識候補の語句の情報を予め用意しておき、入力された
音声信号から認識候補の語句を認識する音声認識方法で
は、音声信号の振幅を所定時間まで累積し、この振幅の
累積値が所定の許容範囲を逸脱するとエラー発生を確定
するようにしたことにより、音声信号から語句を認識す
るとき、音声信号の振幅の所定時間での累積値が許容範
囲を逸脱するとエラー発生が検出されるので、例えば、
不慣れな話者がマイクロフォンを吹いたことをエラーと
して検知することができ、このような場合に音声認識が
良好に実行されなかったことを話者に報知するようなこ
とができる。
【0083】請求項11記載の発明の情報記憶媒体は、
音声信号の振幅が所定の許容範囲を逸脱したエラー状態
を検出すること、このエラー状態が所定時間まで連続す
るとエラー発生を確定すること、をコンピュータに実行
させるプログラムが書き込まれていることにより、この
プログラムを音声認識装置のコンピュータが読み取って
対応する動作を実行すると、その音声認識装置が音声信
号から語句を認識するときに、音声信号の振幅が許容範
囲を逸脱したエラー発生が検出されるので、例えば、不
慣れな話者がマイクロフォンを吹いたことをエラーとし
て検知することができ、このような場合に音声認識が良
好に実行されなかったことを話者に報知するようなこと
ができる。
音声信号の振幅が所定の許容範囲を逸脱したエラー状態
を検出すること、このエラー状態が所定時間まで連続す
るとエラー発生を確定すること、をコンピュータに実行
させるプログラムが書き込まれていることにより、この
プログラムを音声認識装置のコンピュータが読み取って
対応する動作を実行すると、その音声認識装置が音声信
号から語句を認識するときに、音声信号の振幅が許容範
囲を逸脱したエラー発生が検出されるので、例えば、不
慣れな話者がマイクロフォンを吹いたことをエラーとし
て検知することができ、このような場合に音声認識が良
好に実行されなかったことを話者に報知するようなこと
ができる。
【0084】請求項12記載の発明の情報記憶媒体は、
音声信号の振幅を所定時間まで累積すること、この振幅
の累積値が所定の許容範囲を逸脱するとエラー発生を確
定すること、をコンピュータに実行させるプログラムが
書き込まれていることにより、このプログラムを音声認
識装置のコンピュータが読み取って対応する動作を実行
すると、その音声認識装置が音声信号から語句を認識す
るとき、音声信号の振幅の所定時間での累積値が許容範
囲を逸脱したエラー発生が検出されるので、例えば、不
慣れな話者がマイクロフォンを吹いたことをエラーとし
て検知することができ、このような場合に音声認識が良
好に実行されなかったことを話者に報知するようなこと
ができる。
音声信号の振幅を所定時間まで累積すること、この振幅
の累積値が所定の許容範囲を逸脱するとエラー発生を確
定すること、をコンピュータに実行させるプログラムが
書き込まれていることにより、このプログラムを音声認
識装置のコンピュータが読み取って対応する動作を実行
すると、その音声認識装置が音声信号から語句を認識す
るとき、音声信号の振幅の所定時間での累積値が許容範
囲を逸脱したエラー発生が検出されるので、例えば、不
慣れな話者がマイクロフォンを吹いたことをエラーとし
て検知することができ、このような場合に音声認識が良
好に実行されなかったことを話者に報知するようなこと
ができる。
【図1】本発明の実施の第一の形態の音声認識装置の論
理的構造を示す模式図である。
理的構造を示す模式図である。
【図2】音声認識装置の物理的構造を示すブロック図で
ある。
ある。
【図3】音声認識装置の外観を示す斜視図である。
【図4】音声認識装置のソフトウェアのモジュール構造
を示す模式図である。
を示す模式図である。
【図5】語句である単語の状態遷移モデルを示す模式図
である。
である。
【図6】入力信号とパターンマッチングとの関係を示す
模式図である。
模式図である。
【図7】音声信号を示す特性図である。
【図8】音声認識方法の処理動作を示すフローチャート
である。
である。
【図9】音声認識方法の一部であるエラー検出方法の処
理動作を示すフローチャートである。
理動作を示すフローチャートである。
【図10】本発明の実施の第二の形態の音声認識装置の
論理的構造を示す模式図である。
論理的構造を示す模式図である。
【図11】音声認識装置のソフトウェアのモジュール構
造を示す模式図である。
造を示す模式図である。
【図12】音声認識方法の一部であるエラー検出方法の
処理動作を示すフローチャートである。
処理動作を示すフローチャートである。
1,51 音声認識装置 2 コンピュータ 4〜7,9 情報記憶媒体 14 入力デバイス 21 認識候補辞書 22 音声入力手段 25 語句認識手段 24 スコア算出手段 30 エラー検出手段 31 エラー確定手段 32 エラー報知手段 54 振幅累積手段 55 エラー確定手段
Claims (12)
- 【請求項1】 認識候補の語句の情報を予め記憶した認
識候補辞書と、音声信号の入力を受け付ける音声入力手
段と、入力された音声信号から認識候補の語句を認識す
る語句認識手段と、音声信号の振幅が所定の許容範囲を
逸脱したエラー状態を検出するエラー検出手段と、エラ
ー状態が所定時間まで連続するとエラー発生を確定する
エラー確定手段と、を有することを特徴とする音声認識
装置。 - 【請求項2】 認識候補の語句の情報を予め記憶した認
識候補辞書と、音声信号の入力を受け付ける音声入力手
段と、入力された音声信号から認識候補の語句を認識す
る語句認識手段と、音声信号の振幅を所定時間まで累積
する振幅累積手段と、振幅の累積値が所定の許容範囲を
逸脱するとエラー発生を確定するエラー確定手段と、を
有することを特徴とする音声認識装置。 - 【請求項3】 認識候補辞書は、語句の情報として音声
の特徴量を記憶しており、語句認識手段は、音声信号を
単位時間毎に分析して特徴量を抽出し、この特徴量に認
識候補の特徴量をマッチングさせて語句を認識し、エラ
ー確定手段は、音声信号の分析の単位時間までエラー状
態が連続するとエラー発生を確定することを特徴とする
請求項1記載の音声認識装置。 - 【請求項4】 認識候補辞書は、語句の情報として音声
の特徴量を記憶しており、語句認識手段は、音声信号を
単位時間毎に分析して特徴量を抽出し、この特徴量に認
識候補の特徴量をマッチングさせて語句を認識し、振幅
累積手段は、音声信号の分析の単位時間まで振幅を累積
することを特徴とする請求項2記載の音声認識装置。 - 【請求項5】 エラー発生を報知出力するエラー報知手
段を設けたことを特徴とする請求項1ないし4の何れか
一記載の音声認識装置。 - 【請求項6】 エラー発生が確定されたエラー状態の単
位時間のスコアを低下させるスコア調節手段を設け、語
句認識手段は、音声信号と認識候補との特徴量をマッチ
ングさせてスコアを累積し、この累積スコアが所定の閾
値を超過すると認識候補の語句を認識結果として確定す
ることを特徴とする請求項3または4記載の音声認識装
置。 - 【請求項7】 スコア調節手段は、認識候補の語句の音
声が“ハ行”の子音か破裂音の場合にスコアを低下させ
ることを特徴とする請求項6記載の音声認識装置。 - 【請求項8】 スコア調節手段は、所定の罰点をスコア
に加算することを特徴とする請求項6または7記載の音
声認識装置。 - 【請求項9】 認識候補の語句の情報を予め用意してお
き、入力された音声信号から認識候補の語句を認識する
音声認識方法において、音声信号の振幅が所定の許容範
囲を逸脱したエラー状態を検出し、このエラー状態が所
定時間まで連続するとエラー発生を確定するようにした
ことを特徴とする音声認識方法。 - 【請求項10】 認識候補の語句の情報を予め用意して
おき、入力された音声信号から認識候補の語句を認識す
る音声認識方法において、音声信号の振幅を所定時間ま
で累積し、この振幅の累積値が所定の許容範囲を逸脱す
るとエラー発生を確定するようにしたことを特徴とする
音声認識方法。 - 【請求項11】 認識候補の語句の情報を予め記憶した
認識候補辞書と、音声信号の入力を受け付ける入力デバ
イスと、各種のプログラムが予め書き込まれた情報記憶
媒体と、プログラムに従って各種のデータ処理を実行す
るコンピュータとを有し、音声信号から語句を認識する
音声認識装置において、音声信号の振幅が所定の許容範
囲を逸脱したエラー状態を検出すること、このエラー状
態が所定時間まで連続するとエラー発生を確定するこ
と、を前記コンピュータに実行させるプログラムが書き
込まれていることを特徴とする情報記憶媒体。 - 【請求項12】 認識候補の語句の情報を予め記憶した
認識候補辞書と、音声信号の入力を受け付ける入力デバ
イスと、各種のプログラムが予め書き込まれた情報記憶
媒体と、プログラムに従って各種のデータ処理を実行す
るコンピュータとを有し、音声信号から語句を認識する
音声認識装置において、音声信号の振幅を所定時間まで
累積すること、この振幅の累積値が所定の許容範囲を逸
脱するとエラー発生を確定すること、を前記コンピュー
タに実行させるプログラムが書き込まれていることを特
徴とする情報記憶媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8225747A JPH1069293A (ja) | 1996-08-28 | 1996-08-28 | 音声認識装置および方法、情報記憶媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8225747A JPH1069293A (ja) | 1996-08-28 | 1996-08-28 | 音声認識装置および方法、情報記憶媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH1069293A true JPH1069293A (ja) | 1998-03-10 |
Family
ID=16834207
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8225747A Pending JPH1069293A (ja) | 1996-08-28 | 1996-08-28 | 音声認識装置および方法、情報記憶媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH1069293A (ja) |
-
1996
- 1996-08-28 JP JP8225747A patent/JPH1069293A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
| JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
| EP1355295B1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
| US6553342B1 (en) | Tone based speech recognition | |
| EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
| US20030200086A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
| CN100587806C (zh) | 语音识别方法和语音识别装置 | |
| JP6996570B2 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
| JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
| EP1376537B1 (en) | Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech | |
| JP2010117528A (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
| JP3523382B2 (ja) | 音声認識装置及び音声認識方法 | |
| JP2001195087A (ja) | 音声認識システム | |
| JP3493849B2 (ja) | 音声認識装置 | |
| JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
| US6438521B1 (en) | Speech recognition method and apparatus and computer-readable memory | |
| JPH1069293A (ja) | 音声認識装置および方法、情報記憶媒体 | |
| JP4226273B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
| JP2006010739A (ja) | 音声認識装置 | |
| JPH07295588A (ja) | 発話速度推定方法 | |
| JP4798606B2 (ja) | 音声認識装置、およびプログラム | |
| JP3110025B2 (ja) | 発声変形検出装置 | |
| JP2003345384A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
| JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
| JP3533773B2 (ja) | 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置 |