JPH1063289A - 音声認識装置および方法、情報記憶媒体 - Google Patents

音声認識装置および方法、情報記憶媒体

Info

Publication number
JPH1063289A
JPH1063289A JP8218702A JP21870296A JPH1063289A JP H1063289 A JPH1063289 A JP H1063289A JP 8218702 A JP8218702 A JP 8218702A JP 21870296 A JP21870296 A JP 21870296A JP H1063289 A JPH1063289 A JP H1063289A
Authority
JP
Japan
Prior art keywords
input signal
recognition
feature amount
matching
recognition candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8218702A
Other languages
English (en)
Other versions
JP3611223B2 (ja
Inventor
Takashi Ariyoshi
敬 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP21870296A priority Critical patent/JP3611223B2/ja
Priority to US08/915,102 priority patent/US6029130A/en
Publication of JPH1063289A publication Critical patent/JPH1063289A/ja
Application granted granted Critical
Publication of JP3611223B2 publication Critical patent/JP3611223B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ワードスポッティングにより語句を音声認識
する場合に、音声でない部分が語句の一部として認識さ
れることを防止する。 【解決手段】 音声の入力信号の特徴量を音声分析手段
22が抽出し、これと認識候補辞書23に格納されてい
る語句の特徴量とを類似度算出手段24がマッチングさ
せて類似度を累積する。この時、信号強度を強度検出手
段25が検出し、この信号強度に対応して端部制御手段
26がマッチングの端部の確度を調節する。例えば、信
号強度が増加しない部分が始端部となることや、信号強
度が減少しない部分が終端部となることが抑制されるの
で、音声から語句を高精度に認識できるようになる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力信号から語句
を認識するワードスポッティング方式の音声認識装置お
よび方法、音声認識装置のプログラムが書き込まれた情
報記憶媒体、に関する。
【0002】
【従来の技術】現在、人間が発声した音声を認識する音
声認識装置が開発されている。このような音声認識装置
では、人間が所定の語句の音声を発声すると、その入力
信号から語句の音声を認識する。このような音声認識装
置を各種装置に適用すれば、その装置はキーボードの手
動操作などを要することなく各種の情報を取り込むこと
ができるので、例えば、人間が両手を使用する作業環境
でも所望の情報を入力することができる。
【0003】このような音声認識の一つの手法であるワ
ードスポッティングでは、音声を特徴量のパターンのマ
ッチングにより認識する。つまり、認識候補の語句の音
声の特徴量を予め用意しておき、入力信号を分析して特
徴量を抽出し、この入力信号の特徴量に認識候補の特徴
量をマッチングさせて類似度を累積する。この累積類似
度が所定の閾値を超過すると認識候補の語句を認識結果
として確定するので、入力信号から所定の語句の音声を
認識することができる。
【0004】
【発明が解決しようとする課題】上述のようなワードス
ポッティングでは、入力信号から所定の語句の音声を認
識することができるが、マッチングの始端部と終端部と
をフリーとするため、音声でない位置にマッチングの端
部が位置することがある。
【0005】例えば、事務所内や自動車内の騒音のスペ
クトルは低域が大きく、鼻音や一部の母音のスペクトル
と類似していることがある。このように認識候補の語句
の音声と特徴量が類似した騒音が入力信号に含まれる
と、この騒音まで語句の音声の一部とした誤認識が発生
しやすい。このような誤認識は、認識対象の音声が小さ
く騒音が大きいほど顕著となるので、環境が悪化すると
音声認識の精度が低下する。
【0006】このような課題を解決するため、特公平6-
105400号公報に開示された音声認識装置では、音声認識
の評価結果のみに基づいてマッチング処理の終端部を決
定せず、ここに入力信号の強度と時間も考慮している。
つまり、音声認識の評価結果が所定の条件を満足した状
態で、信号強度が所定の閾値より減少した状態が所定の
時間まで継続した場合にマッチング処理を終了してい
る。
【0007】しかし、これではマッチング処理の終端部
の誤りしか防止できず、始端部の誤りは防止することが
できない。また、音声の強度に基づいてマッチングの終
了を決定しているので、例えば、認識対象の語句の音声
に騒音等が連続すると、マッチング処理を良好に終了す
ることができない。さらに、このように音声の絶対強度
に基づいて処理を実行すると、入力信号の全体的な強度
や周囲の騒音の強度も結果に影響する。
【0008】
【課題を解決するための手段】請求項1記載の発明の音
声認識装置は、信号の入力を受け付ける音声入力手段
と、入力信号を単位時間毎に分析して特徴量を抽出する
音声分析手段と、認識候補の語句の音声の特徴量を予め
記憶した認識候補辞書と、入力信号の特徴量に認識候補
の特徴量をマッチングさせて類似度を累積する類似度算
出手段と、累積類似度が所定の閾値を超過すると認識候
補の語句を認識結果として確定する結果確定手段と、入
力信号の強度を検出する強度検出手段と、入力信号の特
徴量に認識候補の特徴量をマッチングさせる場合の端部
の確度を信号強度に対応して調節する端部制御手段とを
有する。従って、音声入力手段に認識対象の語句の音声
が含まれる信号が入力されると、この信号が音声分析手
段により単位時間毎に分析されて特徴量が抽出される。
認識候補の語句の音声の特徴量が認識候補辞書により予
め記憶されているので、この認識候補の特徴量が類似度
算出手段により入力信号の特徴量にマッチングされて類
似度が累積される。この累積類似度が所定の閾値を超過
すると結果確定手段により認識候補の語句が認識結果と
して確定されるので、入力信号から特定の語句が認識さ
れる。上述のように入力信号の特徴量に認識候補の特徴
量をマッチングさせるとき、強度検出手段により信号強
度が検出され、この信号強度に対応して端部制御手段に
よりマッチングの端部の確度が調節される。例えば、マ
ッチングの端部の累積類似度を入力信号の強度に対応し
て増減させれば、入力信号が低強度の部分が端部となる
ことを抑制することができるので、入力信号の音声でな
い部分に認識候補がマッチングされる可能性が低下す
る。なお、ここで云う確度は、マッチングの処理中の端
部の確からしさを意味しており、マッチングの演算処理
に“確度”に直接に相当するパラメータが存在すること
を意味しない。つまり、端部の確度の調節は、マッチン
グの処理中に所定の操作を実行することにより、入力信
号の不適な位置に認識結果の端部が位置することを抑制
することを意味している。
【0009】請求項2記載の発明では、請求項1記載の
音声認識装置において、端部制御手段は、入力信号の特
徴量に認識候補の特徴量をマッチングさせる場合の端部
の累積類似度を入力信号の強度に対応して増減させる。
従って、入力信号にマッチングされる認識候補の端部の
累積類似度が信号強度に対応して増減されるので、例え
ば、入力信号が低強度の部分が端部となることを抑制す
ることができ、入力信号の音声でない部分に認識候補が
マッチングされる可能性が低下する。
【0010】請求項3記載の発明では、請求項2記載の
音声認識装置において、端部制御手段は、入力信号の強
度に対応した罰点を算出して端部の累積類似度に加算す
る。従って、入力信号にマッチングされる認識候補の端
部の累積類似度が信号強度に対応した罰点の加算により
増減されるので、例えば、入力信号が低強度の部分が端
部となることが抑制され、入力信号の音声でない部分に
認識候補がマッチングされる可能性が低下する。
【0011】請求項4記載の発明では、請求項1記載の
音声認識装置において、端部制御手段は、入力信号の特
徴量に認識候補の特徴量をマッチングさせる場合の端部
の累積類似度を入力信号の強度変化に対応して増減させ
る。従って、入力信号にマッチングされる認識候補の端
部の累積類似度が入力信号の強度変化に対応して増減さ
れるので、例えば、信号強度が増加しない部分が始端部
となることを抑制することや、信号強度が減少しない部
分が終端部となることを抑制することができ、入力信号
の音声でない部分に認識候補がマッチングされる可能性
が低下する。
【0012】請求項5記載の発明では、請求項4記載の
音声認識装置において、端部制御手段は、入力信号の連
続する複数の部分の強度の差分に対応した罰点を算出し
て端部の累積類似度に加算する。従って、入力信号にマ
ッチングされる認識候補の端部の累積類似度が信号強度
の変化に対応した罰点の加算により増減されるので、例
えば、信号強度が増加しない部分が始端部となる可能性
が低下するとともに、信号強度が減少しない部分が終端
部となる可能性が低下し、入力信号の音声でない部分に
認識候補がマッチングされる可能性が低下する。
【0013】請求項6記載の発明では、請求項5記載の
音声認識装置において、端部制御手段は、信号強度を対
数に変換してから差分を算出する。従って、入力信号の
複数の部分の強度の差分を対数に変換してから算出する
ので、同一の会話の音声信号の全体的な強度が相違して
も、この強度の差分の算出結果が同一となる。
【0014】請求項7記載の発明の音声認識方法は、認
識候補の語句の音声の特徴量を予め用意しておき、入力
信号を単位時間毎に分析して特徴量を抽出し、この入力
信号の特徴量に認識候補の特徴量をマッチングさせて類
似度を累積し、この累積類似度が所定の閾値を超過する
と認識候補の語句を認識結果として確定する音声認識方
法において、入力信号の強度を検出し、入力信号の特徴
量に認識候補の特徴量をマッチングさせる場合の端部の
確度を信号強度に対応して調節するようにした。従っ
て、認識対象の語句の音声が含まれる信号が入力される
と、この入力信号が単位時間毎に分析されて特徴量が抽
出され、予め用意された認識候補の語句の音声の特徴量
が入力信号の特徴量にマッチングされて類似度が累積さ
れる。この累積類似度が所定の閾値を超過すると認識候
補の語句が認識結果として確定されるので、入力信号か
ら特定の語句が認識される。上述のように入力信号の特
徴量に認識候補の特徴量をマッチングさせるとき、信号
強度が検出され、これに対応してマッチングの端部の確
度が調節される。例えば、マッチングの端部の累積類似
度を入力信号の強度に対応して増減させれば、入力信号
が低強度の部分が端部となることを抑制することがで
き、入力信号の音声でない部分に認識候補がマッチング
される可能性が低下する。
【0015】請求項8記載の発明では、請求項7記載の
音声認識方法において、入力信号の特徴量に認識候補の
特徴量をマッチングさせる場合の端部の累積類似度を入
力信号の強度に対応して増減させることにより、端部の
確度を調節するようにした。従って、入力信号にマッチ
ングされる認識候補の端部の累積類似度が信号強度に対
応して増減されるので、例えば、入力信号が低強度の部
分が端部となることを抑制することができ、入力信号の
音声でない部分に認識候補がマッチングされる可能性が
低下する。
【0016】請求項9記載の発明では、請求項7記載の
音声認識方法において、入力信号の特徴量に認識候補の
特徴量をマッチングさせる場合の端部の累積類似度を入
力信号の強度変化に対応して増減させることにより、端
部の確度を調節するようにした。従って、入力信号にマ
ッチングされる認識候補の端部の累積類似度が入力信号
の強度変化に対応して増減されるので、例えば、信号強
度が増加しない部分が始端部となることを抑制すること
や、信号強度が減少しない部分が終端部となることを抑
制することができ、入力信号の音声でない部分に認識候
補がマッチングされる可能性が低下する。
【0017】請求項10記載の発明の情報記憶媒体は、
認識候補の語句の音声の特徴量を予め記憶した認識候補
辞書と、信号の入力を受け付ける入力デバイスと、各種
のプログラムが予め書き込まれた情報記憶媒体と、この
情報記憶媒体に書き込まれたプログラムに従って各種の
データ処理を実行するコンピュータとを有し、入力信号
から語句を認識する音声認識装置において、入力信号を
単位時間毎に分析して特徴量を抽出すること、この入力
信号の特徴量に認識候補の特徴量をマッチングさせて類
似度を累積すること、この累積類似度が所定の閾値を超
過すると認識候補の語句を認識結果として確定するこ
と、入力信号の強度を検出すること、入力信号の特徴量
に認識候補の特徴量をマッチングさせる場合の端部の確
度を信号強度に対応して調節すること、を前記コンピュ
ータに実行させるプログラムが書き込まれている。従っ
て、この情報記憶媒体のプログラムをコンピュータに読
み取らせて動作させると、このコンピュータは入力信号
から特定の語句を音声認識する。つまり、認識対象の語
句の音声が含まれる信号が入力されると、この入力信号
が単位時間毎に分析されて特徴量が抽出され、予め用意
された認識候補の語句の音声の特徴量が入力信号の特徴
量にマッチングされて類似度が累積され、この累積類似
度が所定の閾値を超過すると認識候補の語句が認識結果
として確定される。上述のように入力信号の特徴量に認
識候補の特徴量をマッチングさせるとき、信号強度が検
出され、これに対応してマッチングの端部の確度が調節
される。例えば、マッチングの端部の累積類似度を入力
信号の強度に対応して増減させれば、入力信号が低強度
の部分が端部となることを抑制することができ、入力信
号の音声でない部分に認識候補がマッチングされる可能
性が低下する。
【0018】請求項11記載の発明の情報記憶媒体は、
認識候補の語句の音声の特徴量を予め記憶した認識候補
辞書と、信号の入力を受け付ける入力デバイスと、各種
のプログラムが予め書き込まれた情報記憶媒体と、この
情報記憶媒体に書き込まれたプログラムに従って各種の
データ処理を実行するコンピュータと、処理結果をデー
タ確定する結果確定装置とを有し、入力信号を単位時間
毎に分析して特徴量を抽出し、この入力信号の特徴量に
認識候補の特徴量をマッチングさせて類似度を累積し、
この累積類似度が所定の閾値を超過すると認識候補の語
句を認識結果として確定する音声認識装置において、入
力信号の強度を検出すること、入力信号の特徴量に認識
候補の特徴量をマッチングさせる場合の端部の確度を信
号強度に対応して調節すること、を前記コンピュータに
実行させるプログラムが書き込まれている。従って、上
述した音声認識装置は、認識対象の語句の音声が含まれ
る信号が入力されると、この入力信号を単位時間毎に分
析して特徴量を抽出し、予め用意された認識候補の語句
の音声の特徴量を入力信号の特徴量にマッチングさせて
類似度を累積し、この累積類似度が所定の閾値を超過す
ると認識候補の語句を認識結果として確定することによ
り、認識対象の語句の音声が含まれる信号から特定の語
句を認識する。この音声認識装置のコンピュータに情報
記憶媒体のプログラムを読み取らせて動作させると、上
述のように入力信号の特徴量に認識候補の特徴量をマッ
チングさせるとき、信号強度が検出され、これに対応し
てマッチングの端部の確度が調節される。例えば、マッ
チングの端部の累積類似度を入力信号の強度に対応して
増減させれば、入力信号が低強度の部分が端部となるこ
とを抑制することができ、入力信号の音声でない部分に
認識候補がマッチングされる可能性が低下する。
【0019】請求項12記載の発明では、請求項10ま
たは11記載の情報記憶媒体において、入力信号の特徴
量に認識候補の特徴量をマッチングさせる場合の端部の
確度を信号強度に対応して調節するプログラムが、端部
の累積類似度を信号強度に対応して増減させるプログラ
ムとして書き込まれている。従って、この情報記憶媒体
のプログラムをコンピュータに読み取らせて動作させる
と、入力信号にマッチングされる認識候補の端部の累積
類似度が信号強度に対応して増減されるので、例えば、
入力信号が低強度の部分が端部となることを抑制するこ
とができ、入力信号の音声でない部分に認識候補がマッ
チングされる可能性が低下する。
【0020】請求項13記載の発明では、請求項10ま
たは11記載の情報記憶媒体において、入力信号の特徴
量に認識候補の特徴量をマッチングさせる場合の端部の
確度を信号強度に対応して調節するプログラムが、端部
の累積類似度を入力信号の強度変化に対応して増減させ
るプログラムとして書き込まれている。従って、この情
報記憶媒体のプログラムをコンピュータに読み取らせて
動作させると、入力信号にマッチングされる認識候補の
端部の累積類似度が信号強度に対応した罰点の加算によ
り増減されるので、例えば、入力信号が低強度の部分が
端部となることが抑制され、入力信号の音声でない部分
に認識候補がマッチングされる可能性が低下する。
【0021】
【発明の実施の形態】本発明の実施の一形態を図面に基
づいて以下に説明する。まず、本実施の形態の音声認識
装置1は、図2および図3に示すように、そのハードウ
ェアとしてデータ処理装置であるコンピュータシステム
を有している。このコンピュータシステムからなる音声
認識装置1は、コンピュータの主体としてCPU(Centr
al Processing Unit)2を有しており、このCPU2に
は、バスライン3により、ROM(Read Only Memory)
4、RAM(Random Access Memory)5、HD(Hard Disk
…図示せず)を内蔵したHDD(HD Drive)6、FD(Flo
ppy Disk)7が装填されるFDD(FD Drive)8、CD(C
ompact Disk)−ROM9が装填されるCD−ROMドラ
イブ10、マウス11が接続されたキーボード12、デ
ィスプレイ13、入力デバイスであるマイクロフォン1
4、通信I/F(Interface)15、等が接続されてい
る。
【0022】この音声認識装置1は、前記CPU2に各
種の処理動作を実行させるプログラム等が予め設定され
ており、このプログラム等のソフトウェアは、例えば、
情報記憶媒体である前記FD7や前記CD−ROM9に
予め書き込まれている。そして、このソフトウェアが情
報記憶媒体である前記HDD6に予めインストールされ
ており、これが起動時に情報記憶媒体である前記RAM
5に複写されて前記CPU2に読み取られる。
【0023】このように前記CPU2がプログラムを読
み取って各種の処理動作を実行することにより、各種機
能が各種手段として実現されている。このような各種手
段として、本実施の形態の音声認識装置1は、図1に示
すように、音声入力手段21、音声分析手段22、認識
候補辞書23、類似度算出手段24、強度検出手段2
5、端部制御手段26、結果確定手段27、結果出力手
段28、等を有している。
【0024】前記音声入力手段21は、前記マイクロフ
ォン14等により音声の入力を受け付け、この入力音声
をデジタルの電気信号にA/D(Analog/Digital)変換
する。前記音声分析手段22は、所定のプログラムに対
応した前記CPU2の演算処理等により、入力信号を単
位時間であるフレーム毎に分析して特徴量を抽出する。
【0025】このように入力音声をデジタルの電気信号
に変換してから特徴量を抽出することには、既存の各種
手法が利用できるが、ここでは入力音声を16(kHz)で16
(bit)のデジタル信号に変換し、抽出する特徴量として
LPC(Linear Predictive Coding)メルケプストラムを
算出する。この分析の条件は、 窓関数 Hamming窓 窓周期 20(ms) フレーム周期 20(ms) LPC分析次数 20 メル尺度化定数 0.5 メルケプストラム次数 10 である。
【0026】前記認識候補辞書23は、例えば、前記R
AM5にデータファイルとして格納されており、図4に
示すように、認識候補の語句である単語の音声の特徴量
を、音素単位の状態遷移モデルと単語単位の音素ネット
ワークとして予め記憶している。なお、ここで言う音素
とは、/a/,/i/,…等の母音および/k/,/s/,…等
の子音からなる単独の音素や、/s−a/,/a−s/,…等の
音声の連続部分に対応する音素であり、ここでは約 200
種類に設定されている。各音素は最大で二状態の状態遷
移モデルとして表現されており、各状態は平均特徴量と
継続時間長との情報を有している。
【0027】前記類似度算出手段24は、図5に示すよ
うに、入力信号の特徴量に認識候補の特徴量をマッチン
グさせ、その類似度をフレーム単位で算出して順次累積
する。なお、図5では説明を簡略化するため、状態分岐
が無い単語の場合を図示している。各フレーム毎に入力
信号の特徴量と各音素の各状態の特徴量との局所的な類
似度が算出され、各状態に対して音素ネットワークに従
ったマッチングパスが選択され、このように選択した最
適なマッチングパスに従って局所的な類似度が累積さ
れ、そのフレームまでの累積類似度が算出される。状態
jにおけるマッチングパス選択の例を図6に示す。な
お、ここでは入力フレームiと状態jとに対するマッチ
ングパスの選択の漸化式が、下記のように設定されてい
る。
【0028】
【数1】
【0029】この数式において、S(i,j)は格子点(i,
j)まで累積した類似度、sS(i,j)は格子点(i,j)での
局所的なスペクトルの類似度、sL(i,j)は格子点(i,
j)での状態の継続長の類似度である。これらの類似度を
算出する数式は、 sS(i,j)=WS(B−dS(i,j)) sL(i,j)=−WLL(i,j) として設定されている。この数式において、WS はスペ
クトルの類似度に対する重み係数であり、各状態毎に
“0.2〜1.0”に設定されている。WL は継続長の類似度
に対する重み係数であり、各状態毎に“0.0〜0.1”に設
定されている。Bはスペクトルの類似度の中立点であ
り、各状態毎に“0.5〜1.5”に設定されている。d
S(i,j)は入力信号と認識候補との局所的なスペクトル
のユークリッド距離であり、dL(i,j)は入力信号と認
識候補との状態の継続長のユークリッド距離である。
【0030】ただし、上述のように前記類似度算出手段
24が入力信号の特徴量に認識候補の特徴量をマッチン
グさせて類似度を累積する際、そのマッチングの始端部
と終端部との類似度が前記端部制御手段26により信号
強度に対応して調節される。つまり、前記強度検出手段
25が入力信号の強度を対数に変換して検出すると、前
記端部制御手段26は、入力信号の強度に対応してマッ
チングの端部の罰点を算出し、この罰点を端部の累積類
似度に加算することにより、この累積類似度を増減させ
て端部の確度を調節する。
【0031】より詳細には、前記強度検出手段25は、
最初に入力信号のフレームiの強度を対数に変換して強
度“p(i)=log2(強度)”を算出し、これに基づいてフ
レームiを始端部とした場合の罰点PS(i)≦0 と終端
部とした場合の罰点PE(i)≦0 とを、 p2≦p(i) → PS(i)=PE(i)=0 p1≦p(i)<p2 → PS(i)=PE(i)=−PP(p2−p(i))/(p2−p1) p(i)<p1 → PS(i)=PE(i)=−PP として算出する。
【0032】上記数式のPP,p1,p2 は正の定数であ
り、通常の音声の端部では罰点が発生せず、明白に非音
声の区間では明白に相違する音韻間の距離程度に罰点が
発生するように、例えば、“PP=3,p1=10,p2=1
4 ”程度に設定される。このようにフレームiを端部と
した場合の罰点PS(i),PE(i)を算出すれば、図7に
示すように、この罰点PS(i),PE(i)は、音声の存在
する区間のみ“0”となる。
【0033】そこで、フレームiを始端部とする累積類
似度S(i−1,k)は、始端部の罰点PS(i)≦0 によ
り、 S(i−1,k)=PS(i) sL(i−1,k)=0 k=始端部ノード として算出される。また、フレームiを終端部とする単
語全体の累積類似度Sim(i)は、終端部の罰点PE(i)
≦0 により以下のように算出される。
【0034】
【数2】
【0035】上述のように、前記類似度算出手段24の
マッチングの始端部と終端部との類似度を、前記端部制
御手段26が信号強度に対応した罰点の加算により調節
するので、入力信号が低強度の部分がマッチングの端部
となることが抑制されることになる。
【0036】前記結果確定手段27は、上述のように前
記端部制御手段26により端部の確度が調節された状態
で前記類似度算出手段24が入力信号と認識候補との累
積類似度Sim(i)を算出すると、この累積類似度Sim
(i)が所定の閾値Thを超過すると所定時間“i〜i+
N:N=const,15〜30”まで待機し、より高い累積類似
度Sim(i)が出現しなければ、その認識候補の単語を認
識結果として確定する。なお、より高い累積類似度Sim
(i)が待機中に出現した場合には、これが認識結果の候
補として更新され、待機状態に再度移行する。前記結果
出力手段28は、上述のように確定された認識候補の単
語を、例えば、前記ディスプレイ13に表示出力する。
【0037】上述した音声認識装置1の各種手段は、必
要により前記ディスプレイ13や前記マイクロフォン1
4等のハードウェアを利用して実現されるが、その主体
は前記RAM5等に書き込まれたソフトウェアに対応し
て前記CPU2が動作することにより実現されている。
【0038】このように前記RAM5に書き込まれたソ
フトウェアは、前記CPU2が読取自在なソフトウェア
からなる前記認識候補辞書23、前記CPU2が読取自
在で対応する動作を実行する制御プログラム、等からな
る。そして、この制御プログラムは、前記マイクロフォ
ン14に入力された音声の信号を単位時間であるフレー
ム毎に分析して特徴量であるLPCメルケプストラムを
抽出すること、この入力信号の特徴量に認識候補の特徴
量をマッチングさせて類似度を累積すること、入力信号
の強度を対数に変換して検出すること、この信号強度に
対応してマッチングの端部の罰点を算出すること、この
罰点をマッチングの端部の累積類似度に加算すること、
マッチングの累積類似度が所定の閾値Thを超過すると
認識候補の単語を認識結果として確定すること、確定さ
れた認識結果を前記ディスプレイ13に表示出力させる
こと、として書き込まれている。
【0039】このような構成において、本実施の形態の
音声認識装置1は、認識対象の単語が含まれる音声がマ
イクロフォン14に入力されると、この入力信号から認
識候補辞書23に格納されている単語を認識し、この認
識結果をディスプレイ13に表示出力する。このような
音声認識装置1の音声認識方法を、図8および図9を参
照して以下に順次詳述する。
【0040】まず、図8に示すように、マイクロフォン
14に入力された信号は、デジタル信号にA/D変換さ
れてからフレーム毎に特徴量であるLPCメルケプスト
ラムが算出され、これと並行してフレーム毎に入力信号
の対数強度が検出される。つぎに、入力信号の特徴量に
認識候補の特徴量がマッチングされ、その類似度がフレ
ーム単位で算出されて順次累積される。同時に、入力信
号の強度に対応してマッチングの端部の罰点が算出さ
れ、この罰点が端部の累積類似度に加算される。
【0041】より詳細には、図9に示すように、フレー
ムiをマッチングの端部とした場合の罰点PS(i),PE
(i)が算出され、このフレームiの各状態jでの局所的
な類似度sS(i,j)が算出される。この各状態jに対し
て音素ネットワークのマッチングパスが選択され、この
マッチングパスでの累積類似度S(i,j)が算出され、終
端部では単語全体の累積類似度Sim(i)が算出される。
このように算出された累積類似度Sim(i)には、その始
端部での累積類似度に始端部の罰点が加算されており、
終端部での累積類似度に終端部の罰点が加算されてい
る。
【0042】図8に示すように、上述のように累積類似
度が端部の罰点を加味して算出されると、この累積類似
度が所定の閾値と比較される。この閾値を累積類似度が
超過してから所定時間が経過すると、認識候補の単語が
認識結果として確定され、このように確定された認識候
補の単語がディスプレイ13に表示出力される。
【0043】本実施の形態の音声認識装置1の音声認識
方法では、上述のように入力信号に所定の単語の認識候
補をマッチングさせる場合に、このマッチングの端部の
確度を信号強度に対応して調節するので、入力信号の低
強度の部分が始端部や終端部となることが抑制される。
このため、入力信号の音声でない部分まで認識候補がマ
ッチングされる可能性が低く、単語の認識精度が良好で
ある。特に、認識すべき音声に類似した騒音が存在して
も、この騒音より認識すべき音声が高強度であれば、こ
の音声は高精度に認識される。
【0044】しかも、ここではマッチング処理での端部
のパス選択を、信号強度に対応して抑制するだけで禁止
はしないので、単語全体の累積類似度が充分に高けれ
ば、端部の信号強度が低くとも単語は認識される。ま
た、信号強度が全体的に変化した場合、マッチングの端
部の確度は影響されるが、単語全体の累積類似度は充分
に確保されるので、単語の認識精度は良好である。
【0045】なお、本発明は上記形態に限定されるもの
ではなく、各種の変形を許容する。例えば、上記形態で
は音声認識装置1をコンピュータシステムの実験装置と
して想定し、入力信号から認識した単語をディスプレイ
13に表示することを例示した。しかし、上述のような
音声認識装置1の各種手段22〜27等の部分をASI
C(Application Specific Integrated Circuit)として
製作し、これを各種製品に組み込んで音声制御に利用す
ることも可能である。
【0046】例えば、このようなASICをカーナビゲ
ーションシステムに組み込めば、ユーザは自動車の運転
中に発声でカーナビゲーションシステムを安全に操作す
ることができる。自動車の室内は騒音が顕著であるが、
本発明の音声認識装置1は、騒音下での音声の認識精度
が良好なので、ユーザは装置を良好に操作することがで
きる。また、上述のようなASICをアーケードタイプ
のゲームマシンに組み込むことも可能であり、この場合
も騒音が顕著なアーケードにおいてユーザの発声に対応
してゲーム進行を制御することができる。
【0047】また、上記形態では入力信号から抽出する
特徴量をLPCメルケプストラムとすることを例示した
が、この特徴量には各種方式が適用可能である。また、
認識する語句を単語とすることを例示したが、これを熟
語や特定の一連の言葉とすることも可能である。
【0048】さらに、上記形態では信号強度を対数に変
換して検出することを例示したが、これも各種の検出方
法が適用可能である。また、マッチングの始端部と終端
部との両方の確度を信号強度に対応して調節することを
例示したが、このような信号強度に対応した確度の調節
を実行する端部を一方のみとすることも可能である。
【0049】さらに、上記形態では1フレームの信号強
度から端部の罰点を算出することを例示したが、これで
はピークノイズ等の影響が懸念されるので、実際には周
辺の数フレームの信号強度を平均化することや、入力信
号を平滑化回路により平滑化してから信号強度を検出す
ることが好ましい。
【0050】さらに、上記形態ではマッチングの端部の
累積類似度を信号強度に対応して増減させるため、入力
信号の絶対強度に対応した罰点を算出して累積類似度に
加算することを例示したが、このような罰点を入力信号
の連続する複数の部分の強度の差分に対応して算出し、
この入力信号の強度変化に対応した罰点の加算によりマ
ッチングの端部の累積類似度を増減させることも可能で
ある。
【0051】この場合、端部制御手段26は、最初に入
力信号のフレーム“i−1”からフレームiの強度の差分
を“△p(i)=p(i)−p(i−1)”として算出し、これ
に基づいてフレームiを始端部とした場合の罰点P
S(i)と、終端部とした場合の罰点PE(i)とを、 p2≦△p(i) → PS(i)=0 p1≦△p(i)<p2 → PS(i)=−PP(p2−△p(i))/(p2−p1) △p(i)<p1 → PS(i)=−PP −p2≧△p(i) → PE(i)=0 −p1≧△p(i)>−p2 → PE(i)=−PP(p2+△p(i))/(p2−p1) △p(i)>−p1 → PE(i)=−PP として算出する。上記数式のPP,p1,p2 も正の定数
であり、通常の音声の端部では罰点が発生せず、明白に
非音声の区間では明白に相違する音韻間の距離程度に罰
点が発生するように、例えば、“PP=4,p1=2,p
2=4 ”程度に設定される。
【0052】このように入力信号の複数部分の強度の差
分からマッチングの端部の罰点PS(i),PE(i)を算出
すると、図10に示すように、始端部の罰点PS(i)は
音声の強度が増加する区間のみ“0”となり、終端部の
罰点PE(i)は音声の強度が低下する区間のみ“0”と
なる。つまり、信号強度が増加しない部分が始端部とな
ることが抑制されるとともに、信号強度が低下しない部
分が終端部となることが抑制されるので、入力信号の音
声でない騒音等の部分まで認識候補がマッチングされる
可能性が低下することになり、より良好に入力信号から
所定の単語を認識することができる。
【0053】しかも、このように入力信号の強度を対数
に変換してから、複数の部分の強度の差分からマッチン
グの端部の罰点を算出すると、図11に示すように、同
一内容の音声の強度が全体的に相違しても罰点は同一と
なる。つまり、話者とマイクロフォン14との距離の相
違により信号強度が全体的に変化した場合でも、音声認
識の精度が影響されず、単語を良好に認識することがで
きる。
【0054】ここで、上述した音声認識装置1の音声認
識方法の実験結果を以下に説明する。この実験の条件
は、 録音環境: 事務所内 マイクロフォン: 無指向性 口から10(cm) 単語セット: 地名30語 話者: 男性9名、女性11名 認識用発声: 孤立発声、30語×2 とした。そして、マッチングの端部の確度を調節しない
場合、音声の絶対強度に対応して調節した場合、音声の
強度変化に対応して調節した場合、として音声認識の実
験を実行したところ、下記の表1に示すように、上記の
順番で認識精度が向上することが確認された。
【0055】
【表1】
【0056】なお、前述した形態ではマッチングの端部
の確度を信号強度に対応して調節するため、信号強度に
対応した罰点を端部の累積類似度に加算することを例示
したが、例えば、信号強度に対応してマッチングパスの
選択を制御することにより、マッチングの端部の確度を
信号強度に対応して調節することも可能である。つま
り、単語の端部でないフレームでは、そのフレームを端
部とするマッチングパスが選択されなければ良いので、
始端部では継続時間長の類似度sL(i−1,k)が負となる
信号強度p(i)の関数を設定し、終端部では累積類似度
の閾値を信号強度p(i)の関数として設定すれば良い。
【0057】また、本実施の形態では、RAM5等にソ
フトウェアとして格納されている制御プログラムに従っ
てCPU2が動作することにより、音声認識装置1の各
部が実現されることを例示した。しかし、このような各
部の各々を固有のハードウェアとして製作することも可
能であり、一部をソフトウェアとしてRAM5等に格納
するとともに一部をハードウェアとして製作することも
可能である。また、所定のソフトウェアが格納されたR
AM5等や各部のハードウェアを、例えば、ファームウ
ェアとして製作することも可能である。
【0058】また、本実施の形態では、音声認識装置1
の起動時に、HDD6に格納されているソフトウェアが
RAM5に複写され、このようにRAM5に格納された
ソフトウェアをCPU2が読み取ることを想定したが、
このようなソフトウェアをHDD6に格納したままCP
U2に利用させることや、RAM5に予め書き込んでお
くことも可能である。
【0059】さらに、前述のように単体で取り扱える情
報記憶媒体であるFD7やCD−ROM9にソフトウェ
アを書き込んでおき、このFD7等からRAM5等にソ
フトウェアをインストールすることも可能であるが、こ
のようなインストールを実行することなくFD7等に書
き込まれたソフトウェアをCPU2が適宜読み取ってデ
ータ処理を実行することも可能である。
【0060】また、このような音声認識装置1の各部を
実現する制御プログラムを、複数のソフトウェアの組み
合わせにより実現することも可能であり、その場合、単
体の製品となる情報記憶媒体には必要最小限のソフトウ
ェアのみを格納しておけば良い。例えば、オペレーティ
ングシステムが実装されている音声認識装置1に、CD
−ROM9等の情報記憶媒体によりアプリケーションソ
フトを提供するような場合、音声認識装置1の各部を実
現するソフトウェアは、アプリケーションソフトとオペ
レーティングシステムとの組み合わせで実現されるの
で、オペレーティングシステムに依存する部分のソフト
ウェアはアプリケーションソフトの情報記憶媒体から省
略することができる。
【0061】特に、本発明の音声認識装置は、従来の既
存の音声認識装置が累積類似度を算出する処理を制御す
れば実現できるので、この制御の部分のみオプションの
アプリケーションソフトとして形成するようなこともで
きる。その場合、CD−ROM9等の情報記憶媒体に、
強度検出手段25と端部制御手段26とに対応したプロ
グラムのみ書き込んでおき、このプログラムを各手段2
1〜24,27〜28を具備した既存の音声認識装置に
インストールすれば良い。
【0062】また、このように情報記憶媒体に書き込ん
だソフトウェアをコンピュータに供給する手法は、その
情報記憶媒体をコンピュータに直接に装填することに限
定されない。例えば、上述のようなソフトウェアをホス
トコンピュータの情報記憶媒体に書き込み、このホスト
コンピュータを通信ネットワークにより端末コンピュー
タに接続し、ホストコンピュータからデータ通信により
端末コンピュータにソフトウェアを供給することも可能
である。
【0063】この場合、端末コンピュータが自身の情報
記憶媒体にソフトウェアをダウンロードした状態でスタ
ンドアロンのデータ処理を実行することも可能である
が、ソフトウェアをダウンロードすることなくホストコ
ンピュータとのリアルタイムのデータ通信によりデータ
処理を実行することも可能である。この場合、ホストコ
ンピュータと端末コンピュータとを通信ネットワークに
より接続したシステム全体が、本発明の音声認識装置1
に相当することになる。
【0064】
【発明の効果】請求項1記載の発明の音声認識装置は、
入力信号の強度を検出する強度検出手段と、入力信号の
特徴量に認識候補の特徴量をマッチングさせる場合の端
部の確度を信号強度に対応して調節する端部制御手段と
を有することにより、例えば、入力信号が低強度の部分
が端部となることを抑制するようなことができるので、
入力信号の音声でない部分に認識候補がマッチングされ
る可能性を低下させ、音声認識の精度を向上させること
ができる。
【0065】請求項2記載の発明の音声認識装置では、
端部制御手段は、入力信号の特徴量に認識候補の特徴量
をマッチングさせる場合の端部の累積類似度を入力信号
の強度に対応して増減させることにより、入力信号が低
強度の部分が端部となることを抑制することができるの
で、入力信号の音声でない部分に認識候補がマッチング
される可能性を低下させることができ、音声認識の精度
を向上させることができる。
【0066】請求項3記載の発明の音声認識装置では、
端部制御手段は、入力信号の強度に対応した罰点を算出
して端部の累積類似度に加算することにより、入力信号
が低強度の部分が端部となることが抑制されるので、入
力信号の音声でない部分に認識候補がマッチングされる
可能性が低下し、音声認識の精度が向上する。
【0067】請求項4記載の発明の音声認識装置では、
端部制御手段は、入力信号の特徴量に認識候補の特徴量
をマッチングさせる場合の端部の累積類似度を入力信号
の強度変化に対応して増減させることにより、信号強度
が増加しない部分が始端部となることを抑制することが
でき、信号強度が減少しない部分が終端部となることも
抑制することができるので、入力信号の音声でない部分
に認識候補がマッチングされる可能性を低下させること
ができ、音声認識の精度を向上させることができる。
【0068】請求項5記載の発明の音声認識装置では、
端部制御手段は、入力信号の連続する複数の部分の強度
の差分に対応した罰点を算出して端部の累積類似度に加
算することにより、信号強度が増加しない部分が始端部
となることが抑制され、信号強度が減少しない部分が終
端部となることが抑制されるので、入力信号の音声でな
い部分に認識候補がマッチングされる可能性が低下し、
音声認識の精度が向上する。
【0069】請求項6記載の発明の音声認識装置では、
端部制御手段は、信号強度を対数に変換してから差分を
算出することにより、同一の会話の入力信号の全体的な
強度が相違しても差分の算出結果は同一となるので、信
号強度が全体的に変化する場合でも音声認識の精度を良
好に維持することができる。
【0070】請求項7記載の発明の音声認識方法は、入
力信号の強度を検出し、入力信号の特徴量に認識候補の
特徴量をマッチングさせる場合の端部の確度を信号強度
に対応して調節するようにしたことにより、入力信号が
低強度の部分が端部となることを抑制し、入力信号の音
声でない部分に認識候補がマッチングされる可能性を低
下させることができ、音声認識の精度を向上させること
ができる。
【0071】請求項8記載の発明の音声認識方法では、
入力信号の特徴量に認識候補の特徴量をマッチングさせ
る場合の端部の累積類似度を入力信号の強度に対応して
増減させることにより、端部の確度を調節するようにし
たことにより、入力信号が低強度の部分が端部となるこ
とが抑制されるので、入力信号の音声でない部分に認識
候補がマッチングされる可能性が低下し、音声認識の精
度が向上する。
【0072】請求項9記載の発明の音声認識方法では、
入力信号の特徴量に認識候補の特徴量をマッチングさせ
る場合の端部の累積類似度を入力信号の強度変化に対応
して増減させることにより、端部の確度を調節するよう
にしたことにより、信号強度が増加しない部分が始端部
となることを抑制することができ、信号強度が減少しな
い部分が終端部となることも抑制することができるの
で、入力信号の音声でない部分に認識候補がマッチング
される可能性を低下させることができ、音声認識の精度
を向上させることができる。
【0073】請求項10記載の発明の情報記憶媒体は、
入力信号を単位時間毎に分析して特徴量を抽出するこ
と、この入力信号の特徴量に認識候補の特徴量をマッチ
ングさせて類似度を累積すること、この累積類似度が所
定の閾値を超過すると認識候補の語句を認識結果として
確定すること、入力信号の強度を検出すること、入力信
号の特徴量に認識候補の特徴量をマッチングさせる場合
の端部の確度を信号強度に対応して調節すること、をコ
ンピュータに実行させるプログラムが書き込まれている
ことにより、この情報記憶媒体のプログラムを音声認識
装置のコンピュータに読み取らせて動作させると、例え
ば、入力信号が低強度の部分が端部となることを抑制す
るようなことができるので、入力信号の音声でない部分
に認識候補がマッチングされる可能性を低下させ、音声
認識の精度を向上させることができる。
【0074】請求項11記載の発明の情報記憶媒体は、
入力信号の強度を検出すること、入力信号の特徴量に認
識候補の特徴量をマッチングさせる場合の端部の確度を
信号強度に対応して調節すること、をコンピュータに実
行させるプログラムが書き込まれていることにより、こ
の情報記憶媒体のプログラムを音声認識装置のコンピュ
ータに読み取らせて動作させると、例えば、入力信号が
低強度の部分が端部となることを抑制するようなことが
できるので、入力信号の音声でない部分に認識候補がマ
ッチングされる可能性を低下させ、音声認識の精度を向
上させることができる。
【0075】請求項12記載の発明の情報記憶媒体で
は、入力信号の特徴量に認識候補の特徴量をマッチング
させる場合の端部の確度を信号強度に対応して調節する
プログラムが、端部の累積類似度を信号強度に対応して
増減させるプログラムとして書き込まれていることによ
り、この情報記憶媒体のプログラムを音声認識装置のコ
ンピュータに読み取らせて動作させると、入力信号が低
強度の部分が端部となることを抑制することができるの
で、入力信号の音声でない部分に認識候補がマッチング
される可能性を低下させることができ、音声認識の精度
を向上させることができる。
【0076】請求項13記載の発明の情報記憶媒体で
は、入力信号の特徴量に認識候補の特徴量をマッチング
させる場合の端部の確度を信号強度に対応して調節する
プログラムが、端部の累積類似度を入力信号の強度変化
に対応して増減させるプログラムとして書き込まれてい
ることにより、この情報記憶媒体のプログラムを音声認
識装置のコンピュータに読み取らせて動作させると、信
号強度が増加しない部分が始端部となることを抑制する
ことができ、信号強度が減少しない部分が終端部となる
ことも抑制することができるので、入力信号の音声でな
い部分に認識候補がマッチングされる可能性を低下させ
ることができ、音声認識の精度を向上させることができ
る。
【図面の簡単な説明】
【図1】本発明の実施の一形態の音声認識装置の論理的
構造を示す模式図である。
【図2】音声認識装置の物理的構造を示すブロック図で
ある。
【図3】音声認識装置の外観を示す斜視図である。
【図4】語句である単語の状態遷移モデルを示す模式図
である。
【図5】入力信号とパターンマッチングとの関係を示す
模式図である。
【図6】マッチングパスが複数の状態を示す模式図であ
る。
【図7】入力信号と罰点との関係を示すタイムチャート
である。
【図8】音声認識方法のメインルーチンを示すフローチ
ャートである。
【図9】累積類似度の算出方法のサブルーチンを示すフ
ローチャートである。
【図10】一変形例における入力信号と罰点との関係を
示すタイムチャートである。
【符号の説明】
1 音声認識装置 2 コンピュータ 4〜7,9 情報記憶媒体 14 入力デバイス 21 音声入力手段 22 音声分析手段 23 認識候補辞書 24 類似度算出手段 25 強度検出手段 26 端部制御手段 27 結果確定手段

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 信号の入力を受け付ける音声入力手段
    と、入力信号を単位時間毎に分析して特徴量を抽出する
    音声分析手段と、認識候補の語句の音声の特徴量を予め
    記憶した認識候補辞書と、入力信号の特徴量に認識候補
    の特徴量をマッチングさせて類似度を累積する類似度算
    出手段と、累積類似度が所定の閾値を超過すると認識候
    補の語句を認識結果として確定する結果確定手段と、入
    力信号の強度を検出する強度検出手段と、入力信号の特
    徴量に認識候補の特徴量をマッチングさせる場合の端部
    の確度を信号強度に対応して調節する端部制御手段と、
    を有することを特徴とする音声認識装置。
  2. 【請求項2】 端部制御手段は、入力信号の特徴量に認
    識候補の特徴量をマッチングさせる場合の端部の累積類
    似度を入力信号の強度に対応して増減させることを特徴
    とする請求項1記載の音声認識装置。
  3. 【請求項3】 端部制御手段は、入力信号の強度に対応
    した罰点を算出して端部の累積類似度に加算することを
    特徴とする請求項2記載の音声認識装置。
  4. 【請求項4】 端部制御手段は、入力信号の特徴量に認
    識候補の特徴量をマッチングさせる場合の端部の累積類
    似度を入力信号の強度変化に対応して増減させることを
    特徴とする請求項1記載の音声認識装置。
  5. 【請求項5】 端部制御手段は、入力信号の連続する複
    数の部分の強度の差分に対応した罰点を算出して端部の
    累積類似度に加算することを特徴とする請求項4記載の
    音声認識装置。
  6. 【請求項6】 端部制御手段は、信号強度を対数に変換
    してから差分を算出することを特徴とする請求項5記載
    の音声認識装置。
  7. 【請求項7】 認識候補の語句の音声の特徴量を予め用
    意しておき、入力信号を単位時間毎に分析して特徴量を
    抽出し、この入力信号の特徴量に認識候補の特徴量をマ
    ッチングさせて類似度を累積し、この累積類似度が所定
    の閾値を超過すると認識候補の語句を認識結果として確
    定する音声認識方法において、入力信号の強度を検出
    し、入力信号の特徴量に認識候補の特徴量をマッチング
    させる場合の端部の確度を信号強度に対応して調節する
    ようにしたことを特徴とする音声認識方法。
  8. 【請求項8】 入力信号の特徴量に認識候補の特徴量を
    マッチングさせる場合の端部の累積類似度を入力信号の
    強度に対応して増減させることにより、端部の確度を調
    節するようにしたことを特徴とする請求項7記載の音声
    認識方法。
  9. 【請求項9】 入力信号の特徴量に認識候補の特徴量を
    マッチングさせる場合の端部の累積類似度を入力信号の
    強度変化に対応して増減させることにより、端部の確度
    を調節するようにしたことを特徴とする請求項7記載の
    音声認識方法。
  10. 【請求項10】 認識候補の語句の音声の特徴量を予め
    記憶した認識候補辞書と、信号の入力を受け付ける入力
    デバイスと、各種のプログラムが予め書き込まれた情報
    記憶媒体と、この情報記憶媒体に書き込まれたプログラ
    ムに従って各種のデータ処理を実行するコンピュータと
    を有し、入力信号から語句を認識する音声認識装置にお
    いて、入力信号を単位時間毎に分析して特徴量を抽出す
    ること、この入力信号の特徴量に認識候補の特徴量をマ
    ッチングさせて類似度を累積すること、この累積類似度
    が所定の閾値を超過すると認識候補の語句を認識結果と
    して確定すること、入力信号の強度を検出すること、入
    力信号の特徴量に認識候補の特徴量をマッチングさせる
    場合の端部の確度を信号強度に対応して調節すること、
    を前記コンピュータに実行させるプログラムが書き込ま
    れていることを特徴とする情報記憶媒体。
  11. 【請求項11】 認識候補の語句の音声の特徴量を予め
    記憶した認識候補辞書と、信号の入力を受け付ける入力
    デバイスと、各種のプログラムが予め書き込まれた情報
    記憶媒体と、この情報記憶媒体に書き込まれたプログラ
    ムに従って各種のデータ処理を実行するコンピュータ
    と、処理結果をデータ確定する結果確定装置とを有し、
    入力信号を単位時間毎に分析して特徴量を抽出し、この
    入力信号の特徴量に認識候補の特徴量をマッチングさせ
    て類似度を累積し、この累積類似度が所定の閾値を超過
    すると認識候補の語句を認識結果として確定する音声認
    識装置において、入力信号の強度を検出すること、入力
    信号の特徴量に認識候補の特徴量をマッチングさせる場
    合の端部の確度を信号強度に対応して調節すること、を
    前記コンピュータに実行させるプログラムが書き込まれ
    ていることを特徴とする情報記憶媒体。
  12. 【請求項12】 入力信号の特徴量に認識候補の特徴量
    をマッチングさせる場合の端部の確度を信号強度に対応
    して調節するプログラムが、端部の累積類似度を信号強
    度に対応して増減させるプログラムとして書き込まれて
    いることを特徴とする請求項10または11記載の情報
    記憶媒体。
  13. 【請求項13】 入力信号の特徴量に認識候補の特徴量
    をマッチングさせる場合の端部の確度を信号強度に対応
    して調節するプログラムが、端部の累積類似度を入力信
    号の強度変化に対応して増減させるプログラムとして書
    き込まれていることを特徴とする請求項10または11
    記載の情報記憶媒体。
JP21870296A 1996-08-20 1996-08-20 音声認識装置及び方法 Expired - Fee Related JP3611223B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP21870296A JP3611223B2 (ja) 1996-08-20 1996-08-20 音声認識装置及び方法
US08/915,102 US6029130A (en) 1996-08-20 1997-08-20 Integrated endpoint detection for improved speech recognition method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21870296A JP3611223B2 (ja) 1996-08-20 1996-08-20 音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JPH1063289A true JPH1063289A (ja) 1998-03-06
JP3611223B2 JP3611223B2 (ja) 2005-01-19

Family

ID=16724084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21870296A Expired - Fee Related JP3611223B2 (ja) 1996-08-20 1996-08-20 音声認識装置及び方法

Country Status (2)

Country Link
US (1) US6029130A (ja)
JP (1) JP3611223B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863496A (zh) * 2019-11-27 2021-05-28 阿里巴巴集团控股有限公司 一种语音端点检测方法以及装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321197B1 (en) * 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
US7334191B1 (en) * 2000-05-09 2008-02-19 International Business Machines Corporation Segmentation and detection of representative frames in video sequences
US6985859B2 (en) * 2001-03-28 2006-01-10 Matsushita Electric Industrial Co., Ltd. Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
CN101206858B (zh) * 2007-12-12 2011-07-13 北京中星微电子有限公司 一种孤立词语音端点检测的方法及系统
US9607613B2 (en) * 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
WO2018226779A1 (en) 2017-06-06 2018-12-13 Google Llc End of query detection
CN109410935A (zh) * 2018-11-01 2019-03-01 平安科技(深圳)有限公司 一种基于语音识别的目的地搜索方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
JPS5876893A (ja) * 1981-10-30 1983-05-10 日本電気株式会社 音声認識装置
JPS58132298A (ja) * 1982-02-01 1983-08-06 日本電気株式会社 窓制限付パタンマツチング装置
JPS6024597A (ja) * 1983-07-21 1985-02-07 日本電気株式会社 音声登録方式
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
US4882755A (en) * 1986-08-21 1989-11-21 Oki Electric Industry Co., Ltd. Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature
US5220609A (en) * 1987-03-13 1993-06-15 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US4918731A (en) * 1987-07-17 1990-04-17 Ricoh Company, Ltd. Speech recognition method and apparatus
JPH06105400A (ja) * 1992-09-17 1994-04-15 Olympus Optical Co Ltd 3次元空間再現システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863496A (zh) * 2019-11-27 2021-05-28 阿里巴巴集团控股有限公司 一种语音端点检测方法以及装置
CN112863496B (zh) * 2019-11-27 2024-04-02 阿里巴巴集团控股有限公司 一种语音端点检测方法以及装置

Also Published As

Publication number Publication date
JP3611223B2 (ja) 2005-01-19
US6029130A (en) 2000-02-22

Similar Documents

Publication Publication Date Title
US20030200086A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP6024180B2 (ja) 音声認識装置、音声認識方法、及びプログラム
EP0911805B1 (en) Speech recognition method and speech recognition apparatus
US6317711B1 (en) Speech segment detection and word recognition
US20030200090A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US20120330656A1 (en) Voice activity detection
US20030069729A1 (en) Method of assessing degree of acoustic confusability, and system therefor
JPH1063289A (ja) 音声認識装置および方法、情報記憶媒体
US11495235B2 (en) System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
US20060206326A1 (en) Speech recognition method
JP2009210617A (ja) 発話区間検出システム、方法及びプログラム
KR20010034367A (ko) 음성 인식에서 무음을 사용한 시스템
US5907824A (en) Pattern matching system which uses a number of possible dynamic programming paths to adjust a pruning threshold
JP3847879B2 (ja) 標準モデル決定方法
EP1376537B1 (en) Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
JP2005070367A (ja) 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器
JP5532880B2 (ja) 音声認識装置
US20030182110A1 (en) Method of speech recognition using variables representing dynamic aspects of speech
JP3906327B2 (ja) 音声入力モード変換システム
EP1369847B1 (en) Speech recognition method and system
JP2008107408A (ja) 音声認識装置
JP2007127738A (ja) 音声認識装置、およびプログラム
Tyagi et al. Comparative study of different features on OLLO logatome recognition task
JPH11338492A (ja) 話者認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041015

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071029

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091029

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101029

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111029

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121029

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees