JPH1063289A

JPH1063289A - 音声認識装置および方法、情報記憶媒体

Info

Publication number: JPH1063289A
Application number: JP8218702A
Authority: JP
Inventors: Takashi Ariyoshi; 敬有吉
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1996-08-20
Filing date: 1996-08-20
Publication date: 1998-03-06
Anticipated expiration: 2016-08-20
Also published as: JP3611223B2; US6029130A

Abstract

(57)【要約】【課題】ワードスポッティングにより語句を音声認識
する場合に、音声でない部分が語句の一部として認識さ
れることを防止する。【解決手段】音声の入力信号の特徴量を音声分析手段
２２が抽出し、これと認識候補辞書２３に格納されてい
る語句の特徴量とを類似度算出手段２４がマッチングさ
せて類似度を累積する。この時、信号強度を強度検出手
段２５が検出し、この信号強度に対応して端部制御手段
２６がマッチングの端部の確度を調節する。例えば、信
号強度が増加しない部分が始端部となることや、信号強
度が減少しない部分が終端部となることが抑制されるの
で、音声から語句を高精度に認識できるようになる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力信号から語句
を認識するワードスポッティング方式の音声認識装置お
よび方法、音声認識装置のプログラムが書き込まれた情
報記憶媒体、に関する。

【０００２】

【従来の技術】現在、人間が発声した音声を認識する音
声認識装置が開発されている。このような音声認識装置
では、人間が所定の語句の音声を発声すると、その入力
信号から語句の音声を認識する。このような音声認識装
置を各種装置に適用すれば、その装置はキーボードの手
動操作などを要することなく各種の情報を取り込むこと
ができるので、例えば、人間が両手を使用する作業環境
でも所望の情報を入力することができる。

【０００３】このような音声認識の一つの手法であるワ
ードスポッティングでは、音声を特徴量のパターンのマ
ッチングにより認識する。つまり、認識候補の語句の音
声の特徴量を予め用意しておき、入力信号を分析して特
徴量を抽出し、この入力信号の特徴量に認識候補の特徴
量をマッチングさせて類似度を累積する。この累積類似
度が所定の閾値を超過すると認識候補の語句を認識結果
として確定するので、入力信号から所定の語句の音声を
認識することができる。

【０００４】

【発明が解決しようとする課題】上述のようなワードス
ポッティングでは、入力信号から所定の語句の音声を認
識することができるが、マッチングの始端部と終端部と
をフリーとするため、音声でない位置にマッチングの端
部が位置することがある。

【０００５】例えば、事務所内や自動車内の騒音のスペ
クトルは低域が大きく、鼻音や一部の母音のスペクトル
と類似していることがある。このように認識候補の語句
の音声と特徴量が類似した騒音が入力信号に含まれる
と、この騒音まで語句の音声の一部とした誤認識が発生
しやすい。このような誤認識は、認識対象の音声が小さ
く騒音が大きいほど顕著となるので、環境が悪化すると
音声認識の精度が低下する。

【０００６】このような課題を解決するため、特公平6-
105400号公報に開示された音声認識装置では、音声認識
の評価結果のみに基づいてマッチング処理の終端部を決
定せず、ここに入力信号の強度と時間も考慮している。
つまり、音声認識の評価結果が所定の条件を満足した状
態で、信号強度が所定の閾値より減少した状態が所定の
時間まで継続した場合にマッチング処理を終了してい
る。

【０００７】しかし、これではマッチング処理の終端部
の誤りしか防止できず、始端部の誤りは防止することが
できない。また、音声の強度に基づいてマッチングの終
了を決定しているので、例えば、認識対象の語句の音声
に騒音等が連続すると、マッチング処理を良好に終了す
ることができない。さらに、このように音声の絶対強度
に基づいて処理を実行すると、入力信号の全体的な強度
や周囲の騒音の強度も結果に影響する。

【０００８】

【課題を解決するための手段】請求項１記載の発明の音
声認識装置は、信号の入力を受け付ける音声入力手段
と、入力信号を単位時間毎に分析して特徴量を抽出する
音声分析手段と、認識候補の語句の音声の特徴量を予め
記憶した認識候補辞書と、入力信号の特徴量に認識候補
の特徴量をマッチングさせて類似度を累積する類似度算
出手段と、累積類似度が所定の閾値を超過すると認識候
補の語句を認識結果として確定する結果確定手段と、入
力信号の強度を検出する強度検出手段と、入力信号の特
徴量に認識候補の特徴量をマッチングさせる場合の端部
の確度を信号強度に対応して調節する端部制御手段とを
有する。従って、音声入力手段に認識対象の語句の音声
が含まれる信号が入力されると、この信号が音声分析手
段により単位時間毎に分析されて特徴量が抽出される。
認識候補の語句の音声の特徴量が認識候補辞書により予
め記憶されているので、この認識候補の特徴量が類似度
算出手段により入力信号の特徴量にマッチングされて類
似度が累積される。この累積類似度が所定の閾値を超過
すると結果確定手段により認識候補の語句が認識結果と
して確定されるので、入力信号から特定の語句が認識さ
れる。上述のように入力信号の特徴量に認識候補の特徴
量をマッチングさせるとき、強度検出手段により信号強
度が検出され、この信号強度に対応して端部制御手段に
よりマッチングの端部の確度が調節される。例えば、マ
ッチングの端部の累積類似度を入力信号の強度に対応し
て増減させれば、入力信号が低強度の部分が端部となる
ことを抑制することができるので、入力信号の音声でな
い部分に認識候補がマッチングされる可能性が低下す
る。なお、ここで云う確度は、マッチングの処理中の端
部の確からしさを意味しており、マッチングの演算処理
に“確度”に直接に相当するパラメータが存在すること
を意味しない。つまり、端部の確度の調節は、マッチン
グの処理中に所定の操作を実行することにより、入力信
号の不適な位置に認識結果の端部が位置することを抑制
することを意味している。

【０００９】請求項２記載の発明では、請求項１記載の
音声認識装置において、端部制御手段は、入力信号の特
徴量に認識候補の特徴量をマッチングさせる場合の端部
の累積類似度を入力信号の強度に対応して増減させる。
従って、入力信号にマッチングされる認識候補の端部の
累積類似度が信号強度に対応して増減されるので、例え
ば、入力信号が低強度の部分が端部となることを抑制す
ることができ、入力信号の音声でない部分に認識候補が
マッチングされる可能性が低下する。

【００１０】請求項３記載の発明では、請求項２記載の
音声認識装置において、端部制御手段は、入力信号の強
度に対応した罰点を算出して端部の累積類似度に加算す
る。従って、入力信号にマッチングされる認識候補の端
部の累積類似度が信号強度に対応した罰点の加算により
増減されるので、例えば、入力信号が低強度の部分が端
部となることが抑制され、入力信号の音声でない部分に
認識候補がマッチングされる可能性が低下する。

【００１１】請求項４記載の発明では、請求項１記載の
音声認識装置において、端部制御手段は、入力信号の特
徴量に認識候補の特徴量をマッチングさせる場合の端部
の累積類似度を入力信号の強度変化に対応して増減させ
る。従って、入力信号にマッチングされる認識候補の端
部の累積類似度が入力信号の強度変化に対応して増減さ
れるので、例えば、信号強度が増加しない部分が始端部
となることを抑制することや、信号強度が減少しない部
分が終端部となることを抑制することができ、入力信号
の音声でない部分に認識候補がマッチングされる可能性
が低下する。

【００１２】請求項５記載の発明では、請求項４記載の
音声認識装置において、端部制御手段は、入力信号の連
続する複数の部分の強度の差分に対応した罰点を算出し
て端部の累積類似度に加算する。従って、入力信号にマ
ッチングされる認識候補の端部の累積類似度が信号強度
の変化に対応した罰点の加算により増減されるので、例
えば、信号強度が増加しない部分が始端部となる可能性
が低下するとともに、信号強度が減少しない部分が終端
部となる可能性が低下し、入力信号の音声でない部分に
認識候補がマッチングされる可能性が低下する。

【００１３】請求項６記載の発明では、請求項５記載の
音声認識装置において、端部制御手段は、信号強度を対
数に変換してから差分を算出する。従って、入力信号の
複数の部分の強度の差分を対数に変換してから算出する
ので、同一の会話の音声信号の全体的な強度が相違して
も、この強度の差分の算出結果が同一となる。

【００１４】請求項７記載の発明の音声認識方法は、認
識候補の語句の音声の特徴量を予め用意しておき、入力
信号を単位時間毎に分析して特徴量を抽出し、この入力
信号の特徴量に認識候補の特徴量をマッチングさせて類
似度を累積し、この累積類似度が所定の閾値を超過する
と認識候補の語句を認識結果として確定する音声認識方
法において、入力信号の強度を検出し、入力信号の特徴
量に認識候補の特徴量をマッチングさせる場合の端部の
確度を信号強度に対応して調節するようにした。従っ
て、認識対象の語句の音声が含まれる信号が入力される
と、この入力信号が単位時間毎に分析されて特徴量が抽
出され、予め用意された認識候補の語句の音声の特徴量
が入力信号の特徴量にマッチングされて類似度が累積さ
れる。この累積類似度が所定の閾値を超過すると認識候
補の語句が認識結果として確定されるので、入力信号か
ら特定の語句が認識される。上述のように入力信号の特
徴量に認識候補の特徴量をマッチングさせるとき、信号
強度が検出され、これに対応してマッチングの端部の確
度が調節される。例えば、マッチングの端部の累積類似
度を入力信号の強度に対応して増減させれば、入力信号
が低強度の部分が端部となることを抑制することがで
き、入力信号の音声でない部分に認識候補がマッチング
される可能性が低下する。

【００１５】請求項８記載の発明では、請求項７記載の
音声認識方法において、入力信号の特徴量に認識候補の
特徴量をマッチングさせる場合の端部の累積類似度を入
力信号の強度に対応して増減させることにより、端部の
確度を調節するようにした。従って、入力信号にマッチ
ングされる認識候補の端部の累積類似度が信号強度に対
応して増減されるので、例えば、入力信号が低強度の部
分が端部となることを抑制することができ、入力信号の
音声でない部分に認識候補がマッチングされる可能性が
低下する。

【００１６】請求項９記載の発明では、請求項７記載の
音声認識方法において、入力信号の特徴量に認識候補の
特徴量をマッチングさせる場合の端部の累積類似度を入
力信号の強度変化に対応して増減させることにより、端
部の確度を調節するようにした。従って、入力信号にマ
ッチングされる認識候補の端部の累積類似度が入力信号
の強度変化に対応して増減されるので、例えば、信号強
度が増加しない部分が始端部となることを抑制すること
や、信号強度が減少しない部分が終端部となることを抑
制することができ、入力信号の音声でない部分に認識候
補がマッチングされる可能性が低下する。

【００１７】請求項１０記載の発明の情報記憶媒体は、
認識候補の語句の音声の特徴量を予め記憶した認識候補
辞書と、信号の入力を受け付ける入力デバイスと、各種
のプログラムが予め書き込まれた情報記憶媒体と、この
情報記憶媒体に書き込まれたプログラムに従って各種の
データ処理を実行するコンピュータとを有し、入力信号
から語句を認識する音声認識装置において、入力信号を
単位時間毎に分析して特徴量を抽出すること、この入力
信号の特徴量に認識候補の特徴量をマッチングさせて類
似度を累積すること、この累積類似度が所定の閾値を超
過すると認識候補の語句を認識結果として確定するこ
と、入力信号の強度を検出すること、入力信号の特徴量
に認識候補の特徴量をマッチングさせる場合の端部の確
度を信号強度に対応して調節すること、を前記コンピュ
ータに実行させるプログラムが書き込まれている。従っ
て、この情報記憶媒体のプログラムをコンピュータに読
み取らせて動作させると、このコンピュータは入力信号
から特定の語句を音声認識する。つまり、認識対象の語
句の音声が含まれる信号が入力されると、この入力信号
が単位時間毎に分析されて特徴量が抽出され、予め用意
された認識候補の語句の音声の特徴量が入力信号の特徴
量にマッチングされて類似度が累積され、この累積類似
度が所定の閾値を超過すると認識候補の語句が認識結果
として確定される。上述のように入力信号の特徴量に認
識候補の特徴量をマッチングさせるとき、信号強度が検
出され、これに対応してマッチングの端部の確度が調節
される。例えば、マッチングの端部の累積類似度を入力
信号の強度に対応して増減させれば、入力信号が低強度
の部分が端部となることを抑制することができ、入力信
号の音声でない部分に認識候補がマッチングされる可能
性が低下する。

【００１８】請求項１１記載の発明の情報記憶媒体は、
認識候補の語句の音声の特徴量を予め記憶した認識候補
辞書と、信号の入力を受け付ける入力デバイスと、各種
のプログラムが予め書き込まれた情報記憶媒体と、この
情報記憶媒体に書き込まれたプログラムに従って各種の
データ処理を実行するコンピュータと、処理結果をデー
タ確定する結果確定装置とを有し、入力信号を単位時間
毎に分析して特徴量を抽出し、この入力信号の特徴量に
認識候補の特徴量をマッチングさせて類似度を累積し、
この累積類似度が所定の閾値を超過すると認識候補の語
句を認識結果として確定する音声認識装置において、入
力信号の強度を検出すること、入力信号の特徴量に認識
候補の特徴量をマッチングさせる場合の端部の確度を信
号強度に対応して調節すること、を前記コンピュータに
実行させるプログラムが書き込まれている。従って、上
述した音声認識装置は、認識対象の語句の音声が含まれ
る信号が入力されると、この入力信号を単位時間毎に分
析して特徴量を抽出し、予め用意された認識候補の語句
の音声の特徴量を入力信号の特徴量にマッチングさせて
類似度を累積し、この累積類似度が所定の閾値を超過す
ると認識候補の語句を認識結果として確定することによ
り、認識対象の語句の音声が含まれる信号から特定の語
句を認識する。この音声認識装置のコンピュータに情報
記憶媒体のプログラムを読み取らせて動作させると、上
述のように入力信号の特徴量に認識候補の特徴量をマッ
チングさせるとき、信号強度が検出され、これに対応し
てマッチングの端部の確度が調節される。例えば、マッ
チングの端部の累積類似度を入力信号の強度に対応して
増減させれば、入力信号が低強度の部分が端部となるこ
とを抑制することができ、入力信号の音声でない部分に
認識候補がマッチングされる可能性が低下する。

【００１９】請求項１２記載の発明では、請求項１０ま
たは１１記載の情報記憶媒体において、入力信号の特徴
量に認識候補の特徴量をマッチングさせる場合の端部の
確度を信号強度に対応して調節するプログラムが、端部
の累積類似度を信号強度に対応して増減させるプログラ
ムとして書き込まれている。従って、この情報記憶媒体
のプログラムをコンピュータに読み取らせて動作させる
と、入力信号にマッチングされる認識候補の端部の累積
類似度が信号強度に対応して増減されるので、例えば、
入力信号が低強度の部分が端部となることを抑制するこ
とができ、入力信号の音声でない部分に認識候補がマッ
チングされる可能性が低下する。

【００２０】請求項１３記載の発明では、請求項１０ま
たは１１記載の情報記憶媒体において、入力信号の特徴
量に認識候補の特徴量をマッチングさせる場合の端部の
確度を信号強度に対応して調節するプログラムが、端部
の累積類似度を入力信号の強度変化に対応して増減させ
るプログラムとして書き込まれている。従って、この情
報記憶媒体のプログラムをコンピュータに読み取らせて
動作させると、入力信号にマッチングされる認識候補の
端部の累積類似度が信号強度に対応した罰点の加算によ
り増減されるので、例えば、入力信号が低強度の部分が
端部となることが抑制され、入力信号の音声でない部分
に認識候補がマッチングされる可能性が低下する。

【００２１】

【発明の実施の形態】本発明の実施の一形態を図面に基
づいて以下に説明する。まず、本実施の形態の音声認識
装置１は、図２および図３に示すように、そのハードウ
ェアとしてデータ処理装置であるコンピュータシステム
を有している。このコンピュータシステムからなる音声
認識装置１は、コンピュータの主体としてＣＰＵ(Centr
al Processing Unit）２を有しており、このＣＰＵ２に
は、バスライン３により、ＲＯＭ(Read Only Memory)
４、ＲＡＭ(Random Access Memory)５、ＨＤ(Hard Disk
…図示せず）を内蔵したＨＤＤ(HD Drive)６、ＦＤ(Flo
ppy Disk）７が装填されるＦＤＤ(FD Drive)８、ＣＤ(C
ompact Disk)−ＲＯＭ９が装填されるＣＤ−ＲＯＭドラ
イブ１０、マウス１１が接続されたキーボード１２、デ
ィスプレイ１３、入力デバイスであるマイクロフォン１
４、通信Ｉ／Ｆ(Interface）１５、等が接続されてい
る。

【００２２】この音声認識装置１は、前記ＣＰＵ２に各
種の処理動作を実行させるプログラム等が予め設定され
ており、このプログラム等のソフトウェアは、例えば、
情報記憶媒体である前記ＦＤ７や前記ＣＤ−ＲＯＭ９に
予め書き込まれている。そして、このソフトウェアが情
報記憶媒体である前記ＨＤＤ６に予めインストールされ
ており、これが起動時に情報記憶媒体である前記ＲＡＭ
５に複写されて前記ＣＰＵ２に読み取られる。

【００２３】このように前記ＣＰＵ２がプログラムを読
み取って各種の処理動作を実行することにより、各種機
能が各種手段として実現されている。このような各種手
段として、本実施の形態の音声認識装置１は、図１に示
すように、音声入力手段２１、音声分析手段２２、認識
候補辞書２３、類似度算出手段２４、強度検出手段２
５、端部制御手段２６、結果確定手段２７、結果出力手
段２８、等を有している。

【００２４】前記音声入力手段２１は、前記マイクロフ
ォン１４等により音声の入力を受け付け、この入力音声
をデジタルの電気信号にＡ／Ｄ（Analog／Digital)変換
する。前記音声分析手段２２は、所定のプログラムに対
応した前記ＣＰＵ２の演算処理等により、入力信号を単
位時間であるフレーム毎に分析して特徴量を抽出する。

【００２５】このように入力音声をデジタルの電気信号
に変換してから特徴量を抽出することには、既存の各種
手法が利用できるが、ここでは入力音声を16(kHz)で16
(bit)のデジタル信号に変換し、抽出する特徴量として
ＬＰＣ(Linear Predictive Coding)メルケプストラムを
算出する。この分析の条件は、窓関数Ｈamming窓窓周期 20(ms) フレーム周期 20(ms) ＬＰＣ分析次数２０メル尺度化定数０．５メルケプストラム次数 10 である。

【００２６】前記認識候補辞書２３は、例えば、前記Ｒ
ＡＭ５にデータファイルとして格納されており、図４に
示すように、認識候補の語句である単語の音声の特徴量
を、音素単位の状態遷移モデルと単語単位の音素ネット
ワークとして予め記憶している。なお、ここで言う音素
とは、/ａ/，/ｉ/，…等の母音および/ｋ/，/ｓ/，…等
の子音からなる単独の音素や、/s−a/，/a−s/，…等の
音声の連続部分に対応する音素であり、ここでは約 200
種類に設定されている。各音素は最大で二状態の状態遷
移モデルとして表現されており、各状態は平均特徴量と
継続時間長との情報を有している。

【００２７】前記類似度算出手段２４は、図５に示すよ
うに、入力信号の特徴量に認識候補の特徴量をマッチン
グさせ、その類似度をフレーム単位で算出して順次累積
する。なお、図５では説明を簡略化するため、状態分岐
が無い単語の場合を図示している。各フレーム毎に入力
信号の特徴量と各音素の各状態の特徴量との局所的な類
似度が算出され、各状態に対して音素ネットワークに従
ったマッチングパスが選択され、このように選択した最
適なマッチングパスに従って局所的な類似度が累積さ
れ、そのフレームまでの累積類似度が算出される。状態
ｊにおけるマッチングパス選択の例を図６に示す。な
お、ここでは入力フレームｉと状態ｊとに対するマッチ
ングパスの選択の漸化式が、下記のように設定されてい
る。

【００２８】

【数１】

【００２９】この数式において、Ｓ(i，j)は格子点(i，
j)まで累積した類似度、ｓ_S(i，j）は格子点(i，j)での
局所的なスペクトルの類似度、ｓ_L(i，j）は格子点(i，
j)での状態の継続長の類似度である。これらの類似度を
算出する数式は、ｓ_S(i，j)＝Ｗ_S(Ｂ−ｄ_S(i，j)) ｓ_L(i，j)＝−Ｗ_Lｄ_L(i，j) として設定されている。この数式において、Ｗ_S はスペ
クトルの類似度に対する重み係数であり、各状態毎に
“0.2〜1.0”に設定されている。Ｗ_L は継続長の類似度
に対する重み係数であり、各状態毎に“0.0〜0.1”に設
定されている。Ｂはスペクトルの類似度の中立点であ
り、各状態毎に“0.5〜1.5”に設定されている。ｄ
_S(i，j）は入力信号と認識候補との局所的なスペクトル
のユークリッド距離であり、ｄ_L(i，j)は入力信号と認
識候補との状態の継続長のユークリッド距離である。

【００３０】ただし、上述のように前記類似度算出手段
２４が入力信号の特徴量に認識候補の特徴量をマッチン
グさせて類似度を累積する際、そのマッチングの始端部
と終端部との類似度が前記端部制御手段２６により信号
強度に対応して調節される。つまり、前記強度検出手段
２５が入力信号の強度を対数に変換して検出すると、前
記端部制御手段２６は、入力信号の強度に対応してマッ
チングの端部の罰点を算出し、この罰点を端部の累積類
似度に加算することにより、この累積類似度を増減させ
て端部の確度を調節する。

【００３１】より詳細には、前記強度検出手段２５は、
最初に入力信号のフレームｉの強度を対数に変換して強
度“ｐ(ｉ)＝log₂(強度)”を算出し、これに基づいてフ
レームｉを始端部とした場合の罰点Ｐ_S(ｉ)≦０と終端
部とした場合の罰点Ｐ_E(ｉ)≦０とを、ｐ₂≦ｐ(ｉ) → Ｐ_S(ｉ)＝Ｐ_E(ｉ)＝０ｐ₁≦ｐ(ｉ)＜ｐ₂ → Ｐ_S(ｉ)＝Ｐ_E(ｉ)＝−Ｐ_P(ｐ₂−ｐ(ｉ))／(ｐ₂−ｐ₁) ｐ(ｉ)＜ｐ₁ → Ｐ_S(ｉ)＝Ｐ_E(ｉ)＝−Ｐ_P として算出する。

【００３２】上記数式のＰ_P，ｐ₁，ｐ₂ は正の定数であ
り、通常の音声の端部では罰点が発生せず、明白に非音
声の区間では明白に相違する音韻間の距離程度に罰点が
発生するように、例えば、“Ｐ_P＝３，ｐ₁＝10，ｐ₂＝1
4 ”程度に設定される。このようにフレームｉを端部と
した場合の罰点Ｐ_S(ｉ)，Ｐ_E(ｉ)を算出すれば、図７に
示すように、この罰点Ｐ_S(ｉ)，Ｐ_E(ｉ)は、音声の存在
する区間のみ“０”となる。

【００３３】そこで、フレームｉを始端部とする累積類
似度Ｓ(i−1，k）は、始端部の罰点Ｐ_S(ｉ)≦０によ
り、Ｓ(i−1，k)＝Ｐ_S(ｉ) ｓ_L(i−1，k)＝０ｋ＝始端部ノードとして算出される。また、フレームｉを終端部とする単
語全体の累積類似度Ｓim(ｉ)は、終端部の罰点Ｐ_E(ｉ)
≦０により以下のように算出される。

【００３４】

【数２】

【００３５】上述のように、前記類似度算出手段２４の
マッチングの始端部と終端部との類似度を、前記端部制
御手段２６が信号強度に対応した罰点の加算により調節
するので、入力信号が低強度の部分がマッチングの端部
となることが抑制されることになる。

【００３６】前記結果確定手段２７は、上述のように前
記端部制御手段２６により端部の確度が調節された状態
で前記類似度算出手段２４が入力信号と認識候補との累
積類似度Ｓim(ｉ)を算出すると、この累積類似度Ｓim
(ｉ)が所定の閾値Ｔｈを超過すると所定時間“ｉ〜ｉ＋
Ｎ：Ｎ＝const,15〜30”まで待機し、より高い累積類似
度Ｓim(ｉ)が出現しなければ、その認識候補の単語を認
識結果として確定する。なお、より高い累積類似度Ｓim
(ｉ)が待機中に出現した場合には、これが認識結果の候
補として更新され、待機状態に再度移行する。前記結果
出力手段２８は、上述のように確定された認識候補の単
語を、例えば、前記ディスプレイ１３に表示出力する。

【００３７】上述した音声認識装置１の各種手段は、必
要により前記ディスプレイ１３や前記マイクロフォン１
４等のハードウェアを利用して実現されるが、その主体
は前記ＲＡＭ５等に書き込まれたソフトウェアに対応し
て前記ＣＰＵ２が動作することにより実現されている。

【００３８】このように前記ＲＡＭ５に書き込まれたソ
フトウェアは、前記ＣＰＵ２が読取自在なソフトウェア
からなる前記認識候補辞書２３、前記ＣＰＵ２が読取自
在で対応する動作を実行する制御プログラム、等からな
る。そして、この制御プログラムは、前記マイクロフォ
ン１４に入力された音声の信号を単位時間であるフレー
ム毎に分析して特徴量であるＬＰＣメルケプストラムを
抽出すること、この入力信号の特徴量に認識候補の特徴
量をマッチングさせて類似度を累積すること、入力信号
の強度を対数に変換して検出すること、この信号強度に
対応してマッチングの端部の罰点を算出すること、この
罰点をマッチングの端部の累積類似度に加算すること、
マッチングの累積類似度が所定の閾値Ｔｈを超過すると
認識候補の単語を認識結果として確定すること、確定さ
れた認識結果を前記ディスプレイ１３に表示出力させる
こと、として書き込まれている。

【００３９】このような構成において、本実施の形態の
音声認識装置１は、認識対象の単語が含まれる音声がマ
イクロフォン１４に入力されると、この入力信号から認
識候補辞書２３に格納されている単語を認識し、この認
識結果をディスプレイ１３に表示出力する。このような
音声認識装置１の音声認識方法を、図８および図９を参
照して以下に順次詳述する。

【００４０】まず、図８に示すように、マイクロフォン
１４に入力された信号は、デジタル信号にＡ／Ｄ変換さ
れてからフレーム毎に特徴量であるＬＰＣメルケプスト
ラムが算出され、これと並行してフレーム毎に入力信号
の対数強度が検出される。つぎに、入力信号の特徴量に
認識候補の特徴量がマッチングされ、その類似度がフレ
ーム単位で算出されて順次累積される。同時に、入力信
号の強度に対応してマッチングの端部の罰点が算出さ
れ、この罰点が端部の累積類似度に加算される。

【００４１】より詳細には、図９に示すように、フレー
ムｉをマッチングの端部とした場合の罰点Ｐ_S(ｉ)，Ｐ_E
(ｉ)が算出され、このフレームｉの各状態ｊでの局所的
な類似度ｓ_S(i，j）が算出される。この各状態ｊに対し
て音素ネットワークのマッチングパスが選択され、この
マッチングパスでの累積類似度Ｓ(i，j)が算出され、終
端部では単語全体の累積類似度Ｓim(ｉ)が算出される。
このように算出された累積類似度Ｓim(ｉ)には、その始
端部での累積類似度に始端部の罰点が加算されており、
終端部での累積類似度に終端部の罰点が加算されてい
る。

【００４２】図８に示すように、上述のように累積類似
度が端部の罰点を加味して算出されると、この累積類似
度が所定の閾値と比較される。この閾値を累積類似度が
超過してから所定時間が経過すると、認識候補の単語が
認識結果として確定され、このように確定された認識候
補の単語がディスプレイ１３に表示出力される。

【００４３】本実施の形態の音声認識装置１の音声認識
方法では、上述のように入力信号に所定の単語の認識候
補をマッチングさせる場合に、このマッチングの端部の
確度を信号強度に対応して調節するので、入力信号の低
強度の部分が始端部や終端部となることが抑制される。
このため、入力信号の音声でない部分まで認識候補がマ
ッチングされる可能性が低く、単語の認識精度が良好で
ある。特に、認識すべき音声に類似した騒音が存在して
も、この騒音より認識すべき音声が高強度であれば、こ
の音声は高精度に認識される。

【００４４】しかも、ここではマッチング処理での端部
のパス選択を、信号強度に対応して抑制するだけで禁止
はしないので、単語全体の累積類似度が充分に高けれ
ば、端部の信号強度が低くとも単語は認識される。ま
た、信号強度が全体的に変化した場合、マッチングの端
部の確度は影響されるが、単語全体の累積類似度は充分
に確保されるので、単語の認識精度は良好である。

【００４５】なお、本発明は上記形態に限定されるもの
ではなく、各種の変形を許容する。例えば、上記形態で
は音声認識装置１をコンピュータシステムの実験装置と
して想定し、入力信号から認識した単語をディスプレイ
１３に表示することを例示した。しかし、上述のような
音声認識装置１の各種手段２２〜２７等の部分をＡＳＩ
Ｃ(Application Specific Integrated Circuit）として
製作し、これを各種製品に組み込んで音声制御に利用す
ることも可能である。

【００４６】例えば、このようなＡＳＩＣをカーナビゲ
ーションシステムに組み込めば、ユーザは自動車の運転
中に発声でカーナビゲーションシステムを安全に操作す
ることができる。自動車の室内は騒音が顕著であるが、
本発明の音声認識装置１は、騒音下での音声の認識精度
が良好なので、ユーザは装置を良好に操作することがで
きる。また、上述のようなＡＳＩＣをアーケードタイプ
のゲームマシンに組み込むことも可能であり、この場合
も騒音が顕著なアーケードにおいてユーザの発声に対応
してゲーム進行を制御することができる。

【００４７】また、上記形態では入力信号から抽出する
特徴量をＬＰＣメルケプストラムとすることを例示した
が、この特徴量には各種方式が適用可能である。また、
認識する語句を単語とすることを例示したが、これを熟
語や特定の一連の言葉とすることも可能である。

【００４８】さらに、上記形態では信号強度を対数に変
換して検出することを例示したが、これも各種の検出方
法が適用可能である。また、マッチングの始端部と終端
部との両方の確度を信号強度に対応して調節することを
例示したが、このような信号強度に対応した確度の調節
を実行する端部を一方のみとすることも可能である。

【００４９】さらに、上記形態では１フレームの信号強
度から端部の罰点を算出することを例示したが、これで
はピークノイズ等の影響が懸念されるので、実際には周
辺の数フレームの信号強度を平均化することや、入力信
号を平滑化回路により平滑化してから信号強度を検出す
ることが好ましい。

【００５０】さらに、上記形態ではマッチングの端部の
累積類似度を信号強度に対応して増減させるため、入力
信号の絶対強度に対応した罰点を算出して累積類似度に
加算することを例示したが、このような罰点を入力信号
の連続する複数の部分の強度の差分に対応して算出し、
この入力信号の強度変化に対応した罰点の加算によりマ
ッチングの端部の累積類似度を増減させることも可能で
ある。

【００５１】この場合、端部制御手段２６は、最初に入
力信号のフレーム“i−1”からフレームｉの強度の差分
を“△ｐ(ｉ)＝ｐ(ｉ)−ｐ(i−1)”として算出し、これ
に基づいてフレームｉを始端部とした場合の罰点Ｐ
_S(ｉ)と、終端部とした場合の罰点Ｐ_E(ｉ)とを、ｐ₂≦△ｐ(ｉ) → Ｐ_S(ｉ)＝０ｐ₁≦△ｐ(ｉ)＜ｐ₂ → Ｐ_S(ｉ)＝−Ｐ_P(ｐ₂−△ｐ(ｉ))／(ｐ₂−ｐ₁) △ｐ(ｉ)＜ｐ₁ → Ｐ_S(ｉ)＝−Ｐ_P −ｐ₂≧△ｐ(ｉ) → Ｐ_E(ｉ)＝０ −ｐ₁≧△ｐ(ｉ)＞−ｐ₂ → Ｐ_E(ｉ)＝−Ｐ_P(ｐ₂＋△ｐ(ｉ))／(ｐ₂−ｐ₁) △ｐ(ｉ)＞−ｐ₁ → Ｐ_E(ｉ)＝−Ｐ_P として算出する。上記数式のＰ_P，ｐ₁，ｐ₂ も正の定数
であり、通常の音声の端部では罰点が発生せず、明白に
非音声の区間では明白に相違する音韻間の距離程度に罰
点が発生するように、例えば、“Ｐ_P＝４，ｐ₁＝２，ｐ
₂＝４ ”程度に設定される。

【００５２】このように入力信号の複数部分の強度の差
分からマッチングの端部の罰点Ｐ_S(ｉ)，Ｐ_E(ｉ)を算出
すると、図１０に示すように、始端部の罰点Ｐ_S(ｉ)は
音声の強度が増加する区間のみ“０”となり、終端部の
罰点Ｐ_E(ｉ)は音声の強度が低下する区間のみ“０”と
なる。つまり、信号強度が増加しない部分が始端部とな
ることが抑制されるとともに、信号強度が低下しない部
分が終端部となることが抑制されるので、入力信号の音
声でない騒音等の部分まで認識候補がマッチングされる
可能性が低下することになり、より良好に入力信号から
所定の単語を認識することができる。

【００５３】しかも、このように入力信号の強度を対数
に変換してから、複数の部分の強度の差分からマッチン
グの端部の罰点を算出すると、図１１に示すように、同
一内容の音声の強度が全体的に相違しても罰点は同一と
なる。つまり、話者とマイクロフォン１４との距離の相
違により信号強度が全体的に変化した場合でも、音声認
識の精度が影響されず、単語を良好に認識することがで
きる。

【００５４】ここで、上述した音声認識装置１の音声認
識方法の実験結果を以下に説明する。この実験の条件
は、録音環境：事務所内マイクロフォン：無指向性口から10(cm) 単語セット：地名30語話者：男性９名、女性11名認識用発声：孤立発声、30語×２とした。そして、マッチングの端部の確度を調節しない
場合、音声の絶対強度に対応して調節した場合、音声の
強度変化に対応して調節した場合、として音声認識の実
験を実行したところ、下記の表１に示すように、上記の
順番で認識精度が向上することが確認された。

【００５５】

【表１】

【００５６】なお、前述した形態ではマッチングの端部
の確度を信号強度に対応して調節するため、信号強度に
対応した罰点を端部の累積類似度に加算することを例示
したが、例えば、信号強度に対応してマッチングパスの
選択を制御することにより、マッチングの端部の確度を
信号強度に対応して調節することも可能である。つま
り、単語の端部でないフレームでは、そのフレームを端
部とするマッチングパスが選択されなければ良いので、
始端部では継続時間長の類似度ｓ_L(i−1，k)が負となる
信号強度ｐ(ｉ)の関数を設定し、終端部では累積類似度
の閾値を信号強度ｐ(ｉ)の関数として設定すれば良い。

【００５７】また、本実施の形態では、ＲＡＭ５等にソ
フトウェアとして格納されている制御プログラムに従っ
てＣＰＵ２が動作することにより、音声認識装置１の各
部が実現されることを例示した。しかし、このような各
部の各々を固有のハードウェアとして製作することも可
能であり、一部をソフトウェアとしてＲＡＭ５等に格納
するとともに一部をハードウェアとして製作することも
可能である。また、所定のソフトウェアが格納されたＲ
ＡＭ５等や各部のハードウェアを、例えば、ファームウ
ェアとして製作することも可能である。

【００５８】また、本実施の形態では、音声認識装置１
の起動時に、ＨＤＤ６に格納されているソフトウェアが
ＲＡＭ５に複写され、このようにＲＡＭ５に格納された
ソフトウェアをＣＰＵ２が読み取ることを想定したが、
このようなソフトウェアをＨＤＤ６に格納したままＣＰ
Ｕ２に利用させることや、ＲＡＭ５に予め書き込んでお
くことも可能である。

【００５９】さらに、前述のように単体で取り扱える情
報記憶媒体であるＦＤ７やＣＤ−ＲＯＭ９にソフトウェ
アを書き込んでおき、このＦＤ７等からＲＡＭ５等にソ
フトウェアをインストールすることも可能であるが、こ
のようなインストールを実行することなくＦＤ７等に書
き込まれたソフトウェアをＣＰＵ２が適宜読み取ってデ
ータ処理を実行することも可能である。

【００６０】また、このような音声認識装置１の各部を
実現する制御プログラムを、複数のソフトウェアの組み
合わせにより実現することも可能であり、その場合、単
体の製品となる情報記憶媒体には必要最小限のソフトウ
ェアのみを格納しておけば良い。例えば、オペレーティ
ングシステムが実装されている音声認識装置１に、ＣＤ
−ＲＯＭ９等の情報記憶媒体によりアプリケーションソ
フトを提供するような場合、音声認識装置１の各部を実
現するソフトウェアは、アプリケーションソフトとオペ
レーティングシステムとの組み合わせで実現されるの
で、オペレーティングシステムに依存する部分のソフト
ウェアはアプリケーションソフトの情報記憶媒体から省
略することができる。

【００６１】特に、本発明の音声認識装置は、従来の既
存の音声認識装置が累積類似度を算出する処理を制御す
れば実現できるので、この制御の部分のみオプションの
アプリケーションソフトとして形成するようなこともで
きる。その場合、ＣＤ−ＲＯＭ９等の情報記憶媒体に、
強度検出手段２５と端部制御手段２６とに対応したプロ
グラムのみ書き込んでおき、このプログラムを各手段２
１〜２４，２７〜２８を具備した既存の音声認識装置に
インストールすれば良い。

【００６２】また、このように情報記憶媒体に書き込ん
だソフトウェアをコンピュータに供給する手法は、その
情報記憶媒体をコンピュータに直接に装填することに限
定されない。例えば、上述のようなソフトウェアをホス
トコンピュータの情報記憶媒体に書き込み、このホスト
コンピュータを通信ネットワークにより端末コンピュー
タに接続し、ホストコンピュータからデータ通信により
端末コンピュータにソフトウェアを供給することも可能
である。

【００６３】この場合、端末コンピュータが自身の情報
記憶媒体にソフトウェアをダウンロードした状態でスタ
ンドアロンのデータ処理を実行することも可能である
が、ソフトウェアをダウンロードすることなくホストコ
ンピュータとのリアルタイムのデータ通信によりデータ
処理を実行することも可能である。この場合、ホストコ
ンピュータと端末コンピュータとを通信ネットワークに
より接続したシステム全体が、本発明の音声認識装置１
に相当することになる。

【００６４】

【発明の効果】請求項１記載の発明の音声認識装置は、
入力信号の強度を検出する強度検出手段と、入力信号の
特徴量に認識候補の特徴量をマッチングさせる場合の端
部の確度を信号強度に対応して調節する端部制御手段と
を有することにより、例えば、入力信号が低強度の部分
が端部となることを抑制するようなことができるので、
入力信号の音声でない部分に認識候補がマッチングされ
る可能性を低下させ、音声認識の精度を向上させること
ができる。

【００６５】請求項２記載の発明の音声認識装置では、
端部制御手段は、入力信号の特徴量に認識候補の特徴量
をマッチングさせる場合の端部の累積類似度を入力信号
の強度に対応して増減させることにより、入力信号が低
強度の部分が端部となることを抑制することができるの
で、入力信号の音声でない部分に認識候補がマッチング
される可能性を低下させることができ、音声認識の精度
を向上させることができる。

【００６６】請求項３記載の発明の音声認識装置では、
端部制御手段は、入力信号の強度に対応した罰点を算出
して端部の累積類似度に加算することにより、入力信号
が低強度の部分が端部となることが抑制されるので、入
力信号の音声でない部分に認識候補がマッチングされる
可能性が低下し、音声認識の精度が向上する。

【００６７】請求項４記載の発明の音声認識装置では、
端部制御手段は、入力信号の特徴量に認識候補の特徴量
をマッチングさせる場合の端部の累積類似度を入力信号
の強度変化に対応して増減させることにより、信号強度
が増加しない部分が始端部となることを抑制することが
でき、信号強度が減少しない部分が終端部となることも
抑制することができるので、入力信号の音声でない部分
に認識候補がマッチングされる可能性を低下させること
ができ、音声認識の精度を向上させることができる。

【００６８】請求項５記載の発明の音声認識装置では、
端部制御手段は、入力信号の連続する複数の部分の強度
の差分に対応した罰点を算出して端部の累積類似度に加
算することにより、信号強度が増加しない部分が始端部
となることが抑制され、信号強度が減少しない部分が終
端部となることが抑制されるので、入力信号の音声でな
い部分に認識候補がマッチングされる可能性が低下し、
音声認識の精度が向上する。

【００６９】請求項６記載の発明の音声認識装置では、
端部制御手段は、信号強度を対数に変換してから差分を
算出することにより、同一の会話の入力信号の全体的な
強度が相違しても差分の算出結果は同一となるので、信
号強度が全体的に変化する場合でも音声認識の精度を良
好に維持することができる。

【００７０】請求項７記載の発明の音声認識方法は、入
力信号の強度を検出し、入力信号の特徴量に認識候補の
特徴量をマッチングさせる場合の端部の確度を信号強度
に対応して調節するようにしたことにより、入力信号が
低強度の部分が端部となることを抑制し、入力信号の音
声でない部分に認識候補がマッチングされる可能性を低
下させることができ、音声認識の精度を向上させること
ができる。

【００７１】請求項８記載の発明の音声認識方法では、
入力信号の特徴量に認識候補の特徴量をマッチングさせ
る場合の端部の累積類似度を入力信号の強度に対応して
増減させることにより、端部の確度を調節するようにし
たことにより、入力信号が低強度の部分が端部となるこ
とが抑制されるので、入力信号の音声でない部分に認識
候補がマッチングされる可能性が低下し、音声認識の精
度が向上する。

【００７２】請求項９記載の発明の音声認識方法では、
入力信号の特徴量に認識候補の特徴量をマッチングさせ
る場合の端部の累積類似度を入力信号の強度変化に対応
して増減させることにより、端部の確度を調節するよう
にしたことにより、信号強度が増加しない部分が始端部
となることを抑制することができ、信号強度が減少しな
い部分が終端部となることも抑制することができるの
で、入力信号の音声でない部分に認識候補がマッチング
される可能性を低下させることができ、音声認識の精度
を向上させることができる。

【００７３】請求項１０記載の発明の情報記憶媒体は、
入力信号を単位時間毎に分析して特徴量を抽出するこ
と、この入力信号の特徴量に認識候補の特徴量をマッチ
ングさせて類似度を累積すること、この累積類似度が所
定の閾値を超過すると認識候補の語句を認識結果として
確定すること、入力信号の強度を検出すること、入力信
号の特徴量に認識候補の特徴量をマッチングさせる場合
の端部の確度を信号強度に対応して調節すること、をコ
ンピュータに実行させるプログラムが書き込まれている
ことにより、この情報記憶媒体のプログラムを音声認識
装置のコンピュータに読み取らせて動作させると、例え
ば、入力信号が低強度の部分が端部となることを抑制す
るようなことができるので、入力信号の音声でない部分
に認識候補がマッチングされる可能性を低下させ、音声
認識の精度を向上させることができる。

【００７４】請求項１１記載の発明の情報記憶媒体は、
入力信号の強度を検出すること、入力信号の特徴量に認
識候補の特徴量をマッチングさせる場合の端部の確度を
信号強度に対応して調節すること、をコンピュータに実
行させるプログラムが書き込まれていることにより、こ
の情報記憶媒体のプログラムを音声認識装置のコンピュ
ータに読み取らせて動作させると、例えば、入力信号が
低強度の部分が端部となることを抑制するようなことが
できるので、入力信号の音声でない部分に認識候補がマ
ッチングされる可能性を低下させ、音声認識の精度を向
上させることができる。

【００７５】請求項１２記載の発明の情報記憶媒体で
は、入力信号の特徴量に認識候補の特徴量をマッチング
させる場合の端部の確度を信号強度に対応して調節する
プログラムが、端部の累積類似度を信号強度に対応して
増減させるプログラムとして書き込まれていることによ
り、この情報記憶媒体のプログラムを音声認識装置のコ
ンピュータに読み取らせて動作させると、入力信号が低
強度の部分が端部となることを抑制することができるの
で、入力信号の音声でない部分に認識候補がマッチング
される可能性を低下させることができ、音声認識の精度
を向上させることができる。

【００７６】請求項１３記載の発明の情報記憶媒体で
は、入力信号の特徴量に認識候補の特徴量をマッチング
させる場合の端部の確度を信号強度に対応して調節する
プログラムが、端部の累積類似度を入力信号の強度変化
に対応して増減させるプログラムとして書き込まれてい
ることにより、この情報記憶媒体のプログラムを音声認
識装置のコンピュータに読み取らせて動作させると、信
号強度が増加しない部分が始端部となることを抑制する
ことができ、信号強度が減少しない部分が終端部となる
ことも抑制することができるので、入力信号の音声でな
い部分に認識候補がマッチングされる可能性を低下させ
ることができ、音声認識の精度を向上させることができ
る。

【図面の簡単な説明】

【図１】本発明の実施の一形態の音声認識装置の論理的
構造を示す模式図である。

【図２】音声認識装置の物理的構造を示すブロック図で
ある。

【図３】音声認識装置の外観を示す斜視図である。

【図４】語句である単語の状態遷移モデルを示す模式図
である。

【図５】入力信号とパターンマッチングとの関係を示す
模式図である。

【図６】マッチングパスが複数の状態を示す模式図であ
る。

【図７】入力信号と罰点との関係を示すタイムチャート
である。

【図８】音声認識方法のメインルーチンを示すフローチ
ャートである。

【図９】累積類似度の算出方法のサブルーチンを示すフ
ローチャートである。

【図１０】一変形例における入力信号と罰点との関係を
示すタイムチャートである。

【符号の説明】

１音声認識装置２コンピュータ４〜７，９情報記憶媒体１４入力デバイス２１音声入力手段２２音声分析手段２３認識候補辞書２４類似度算出手段２５強度検出手段２６端部制御手段２７結果確定手段

Claims

【特許請求の範囲】

【請求項１】信号の入力を受け付ける音声入力手段
と、入力信号を単位時間毎に分析して特徴量を抽出する
音声分析手段と、認識候補の語句の音声の特徴量を予め
記憶した認識候補辞書と、入力信号の特徴量に認識候補
の特徴量をマッチングさせて類似度を累積する類似度算
出手段と、累積類似度が所定の閾値を超過すると認識候
補の語句を認識結果として確定する結果確定手段と、入
力信号の強度を検出する強度検出手段と、入力信号の特
徴量に認識候補の特徴量をマッチングさせる場合の端部
の確度を信号強度に対応して調節する端部制御手段と、
を有することを特徴とする音声認識装置。
【請求項２】端部制御手段は、入力信号の特徴量に認
識候補の特徴量をマッチングさせる場合の端部の累積類
似度を入力信号の強度に対応して増減させることを特徴
とする請求項１記載の音声認識装置。
【請求項３】端部制御手段は、入力信号の強度に対応
した罰点を算出して端部の累積類似度に加算することを
特徴とする請求項２記載の音声認識装置。
【請求項４】端部制御手段は、入力信号の特徴量に認
識候補の特徴量をマッチングさせる場合の端部の累積類
似度を入力信号の強度変化に対応して増減させることを
特徴とする請求項１記載の音声認識装置。
【請求項５】端部制御手段は、入力信号の連続する複
数の部分の強度の差分に対応した罰点を算出して端部の
累積類似度に加算することを特徴とする請求項４記載の
音声認識装置。
【請求項６】端部制御手段は、信号強度を対数に変換
してから差分を算出することを特徴とする請求項５記載
の音声認識装置。
【請求項７】認識候補の語句の音声の特徴量を予め用
意しておき、入力信号を単位時間毎に分析して特徴量を
抽出し、この入力信号の特徴量に認識候補の特徴量をマ
ッチングさせて類似度を累積し、この累積類似度が所定
の閾値を超過すると認識候補の語句を認識結果として確
定する音声認識方法において、入力信号の強度を検出
し、入力信号の特徴量に認識候補の特徴量をマッチング
させる場合の端部の確度を信号強度に対応して調節する
ようにしたことを特徴とする音声認識方法。
【請求項８】入力信号の特徴量に認識候補の特徴量を
マッチングさせる場合の端部の累積類似度を入力信号の
強度に対応して増減させることにより、端部の確度を調
節するようにしたことを特徴とする請求項７記載の音声
認識方法。
【請求項９】入力信号の特徴量に認識候補の特徴量を
マッチングさせる場合の端部の累積類似度を入力信号の
強度変化に対応して増減させることにより、端部の確度
を調節するようにしたことを特徴とする請求項７記載の
音声認識方法。
【請求項１０】認識候補の語句の音声の特徴量を予め
記憶した認識候補辞書と、信号の入力を受け付ける入力
デバイスと、各種のプログラムが予め書き込まれた情報
記憶媒体と、この情報記憶媒体に書き込まれたプログラ
ムに従って各種のデータ処理を実行するコンピュータと
を有し、入力信号から語句を認識する音声認識装置にお
いて、入力信号を単位時間毎に分析して特徴量を抽出す
ること、この入力信号の特徴量に認識候補の特徴量をマ
ッチングさせて類似度を累積すること、この累積類似度
が所定の閾値を超過すると認識候補の語句を認識結果と
して確定すること、入力信号の強度を検出すること、入
力信号の特徴量に認識候補の特徴量をマッチングさせる
場合の端部の確度を信号強度に対応して調節すること、
を前記コンピュータに実行させるプログラムが書き込ま
れていることを特徴とする情報記憶媒体。
【請求項１１】認識候補の語句の音声の特徴量を予め
記憶した認識候補辞書と、信号の入力を受け付ける入力
デバイスと、各種のプログラムが予め書き込まれた情報
記憶媒体と、この情報記憶媒体に書き込まれたプログラ
ムに従って各種のデータ処理を実行するコンピュータ
と、処理結果をデータ確定する結果確定装置とを有し、
入力信号を単位時間毎に分析して特徴量を抽出し、この
入力信号の特徴量に認識候補の特徴量をマッチングさせ
て類似度を累積し、この累積類似度が所定の閾値を超過
すると認識候補の語句を認識結果として確定する音声認
識装置において、入力信号の強度を検出すること、入力
信号の特徴量に認識候補の特徴量をマッチングさせる場
合の端部の確度を信号強度に対応して調節すること、を
前記コンピュータに実行させるプログラムが書き込まれ
ていることを特徴とする情報記憶媒体。
【請求項１２】入力信号の特徴量に認識候補の特徴量
をマッチングさせる場合の端部の確度を信号強度に対応
して調節するプログラムが、端部の累積類似度を信号強
度に対応して増減させるプログラムとして書き込まれて
いることを特徴とする請求項１０または１１記載の情報
記憶媒体。
【請求項１３】入力信号の特徴量に認識候補の特徴量
をマッチングさせる場合の端部の確度を信号強度に対応
して調節するプログラムが、端部の累積類似度を入力信
号の強度変化に対応して増減させるプログラムとして書
き込まれていることを特徴とする請求項１０または１１
記載の情報記憶媒体。