JP3611223B2 - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法 Download PDF

Info

Publication number
JP3611223B2
JP3611223B2 JP21870296A JP21870296A JP3611223B2 JP 3611223 B2 JP3611223 B2 JP 3611223B2 JP 21870296 A JP21870296 A JP 21870296A JP 21870296 A JP21870296 A JP 21870296A JP 3611223 B2 JP3611223 B2 JP 3611223B2
Authority
JP
Japan
Prior art keywords
input signal
recognition
similarity
speech
intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21870296A
Other languages
English (en)
Other versions
JPH1063289A (ja
Inventor
敬 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP21870296A priority Critical patent/JP3611223B2/ja
Priority to US08/915,102 priority patent/US6029130A/en
Publication of JPH1063289A publication Critical patent/JPH1063289A/ja
Application granted granted Critical
Publication of JP3611223B2 publication Critical patent/JP3611223B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

【0001】
【発明の属する技術分野】
本発明は、入力信号から語句を認識するワードスポッティング方式の音声認識装置および方法に関する。
【0002】
【従来の技術】
現在、人間が発声した音声を認識する音声認識装置が開発されている。このような音声認識装置では、人間が所定の語句の音声を発声すると、その入力信号から語句の音声を認識する。このような音声認識装置を各種装置に適用すれば、その装置はキーボードの手動操作などを要することなく各種の情報を取り込むことができるので、例えば、人間が両手を使用する作業環境でも所望の情報を入力することができる。
【0003】
このような音声認識の一つの手法であるワードスポッティングでは、音声を特徴量のパターンのマッチングにより認識する。つまり、認識候補の語句の音声の特徴量を予め用意しておき、入力信号を分析して特徴量を抽出し、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する。この累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定するので、入力信号から所定の語句の音声を認識することができる。
【0004】
【発明が解決しようとする課題】
上述のようなワードスポッティングでは、入力信号から所定の語句の音声を認識することができるが、マッチングの始端部と終端部とをフリーとするため、音声でない位置にマッチングの端部が位置することがある。
【0005】
例えば、事務所内や自動車内の騒音のスペクトルは低域が大きく、鼻音や一部の母音のスペクトルと類似していることがある。このように認識候補の語句の音声と特徴量が類似した騒音が入力信号に含まれると、この騒音まで語句の音声の一部とした誤認識が発生しやすい。このような誤認識は、認識対象の音声が小さく騒音が大きいほど顕著となるので、環境が悪化すると音声認識の精度が低下する。
【0006】
このような課題を解決するため、特公平6−105400号公報に開示された音声認識装置では、音声認識の評価結果のみに基づいてマッチング処理の終端部を決定せず、ここに入力信号の強度と時間も考慮している。つまり、音声認識の評価結果が所定の条件を満足した状態で、信号強度が所定の閾値より減少した状態が所定の時間まで継続した場合にマッチング処理を終了している。
【0007】
しかし、これではマッチング処理の終端部の誤りしか防止できず、始端部の誤りは防止することができない。また、音声の強度に基づいてマッチングの終了を決定しているので、例えば、認識対象の語句の音声に騒音等が連続すると、マッチング処理を良好に終了することができない。さらに、このように音声の絶対強度に基づいて処理を実行すると、入力信号の全体的な強度や周囲の騒音の強度も結果に影響する。
【0008】
【課題を解決するための手段】
請求項1記載の発明の音声認識装置は、信号の入力を受け付ける音声入力手段と、入力信号を単位時間毎に分析して特徴量を抽出する音声分析手段と、認識候補の語句の音声の特徴量を予め記憶した認識候補辞書と、入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する類似度算出手段と、累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する結果確定手段と、入力信号の強度を検出する強度検出手段と、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度が低強度の部分で減少させる端部制御手段とを有する。従って、音声入力手段に認識対象の語句の音声が含まれる信号が入力されると、この信号が音声分析手段により単位時間毎に分析されて特徴量が抽出される。認識候補の語句の音声の特徴量が認識候補辞書により予め記憶されているので、この認識候補の特徴量が類似度算出手段により入力信号の特徴量にマッチングされて類似度が累積される。この累積類似度が所定の閾値を超過すると結果確定手段により認識候補の語句が認識結果として確定されるので、入力信号から特定の語句が認識される。上述のように入力信号の特徴量に認識候補の特徴量をマッチングさせるとき、強度検出手段により信号強度が検出され、この信号強度に対応して端部制御手段によりマッチングの端部の累積類似度を入力信号の強度が低強度の部分で減少させれば、入力信号が低強度の部分が端部となることを抑制することができるので、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【0010】
請求項記載の発明では、請求項記載の音声認識装置において、端部制御手段は、入力信号の強度に対応した罰点を算出して端部の累積類似度に加算する。従って、入力信号にマッチングされる認識候補の端部の累積類似度が信号強度に対応した罰点の加算により増減されるので、例えば、入力信号が低強度の部分が端部となることが抑制され、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【0011】
請求項3記載の発明の音声認識装置は、信号の入力を受け付ける音声入力手段と、入力信号を単位時間毎に分析して特徴量を抽出する音声分析手段と、認識候補の語句の音声の特徴量を予め記憶した認識候補辞書と、入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する類似度算出手段と、累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する結果確定手段と、入力信号の強度を検出する強度検出手段と、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させる端部制御手段とを有する。従って、入力信号にマッチングされる認識候補の端部の累積類似度が入力信号の強度変化がない部分で減少させられるので、例えば、信号強度が増加しない部分が始端部となることを抑制することや、信号強度が減少しない部分が終端部となることを抑制することができ、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【0012】
請求項記載の発明では、請求項記載の音声認識装置において、端部制御手段は、入力信号の連続する複数の部分の強度の差分に対応した罰点を算出して端部の累積類似度に加算する。従って、入力信号にマッチングされる認識候補の端部の累積類似度が信号強度の変化に対応した罰点の加算により増減されるので、例えば、信号強度が増加しない部分が始端部となる可能性が低下するとともに、信号強度が減少しない部分が終端部となる可能性が低下し、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【0013】
請求項記載の発明では、請求項記載の音声認識装置において、端部制御手段は、信号強度を対数に変換してから差分を算出する。従って、入力信号の複数の部分の強度の差分を対数に変換してから算出するので、同一の会話の音声信号の全体的な強度が相違しても、この強度の差分の算出結果が同一となる。
【0014】
請求項6記載の発明の音声認識方法は、認識候補の語句の音声の特徴量を予め用意しておき、入力信号を単位時間毎に分析して特徴量を抽出し、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積し、この累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する音声認識方法において、入力信号の強度を検出し、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号が低強度の部分で減少させるようにした。従って、認識対象の語句の音声が含まれる信号が入力されると、この入力信号が単位時間毎に分析されて特徴量が抽出され、予め用意された認識候補の語句の音声の特徴量が入力信号の特徴量にマッチングされて類似度が累積される。この累積類似度が所定の閾値を超過すると認識候補の語句が認識結果として確定されるので、入力信号から特定の語句が認識される。上述のように入力信号の特徴量に認識候補の特徴量をマッチングさせるとき、信号強度が検出され、これに対応してマッチングの端部の累積類似度を入力信号が低強度の部分で減少させれば、入力信号が低強度の部分が端部となることを抑制することができ、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【0016】
請求項7記載の発明の音声認識方法は、認識候補の語句の音声の特徴量を予め用意しておき、入力信号を単位時間毎に分析して特徴量を抽出し、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積し、この累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する音声認識方法において、入力信号の強度を検出し、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させることにより、端部の確度を調節するようにした。従って、入力信号にマッチングされる認識候補の端部の累積類似度が入力信号の強度変化がない部分で減少させられるので、例えば、信号強度が増加しない部分が始端部となることを抑制することや、信号強度が減少しない部分が終端部となることを抑制することができ、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【0021】
【発明の実施の形態】
本発明の実施の一形態を図面に基づいて以下に説明する。まず、本実施の形態の音声認識装置1は、図2および図3に示すように、そのハードウェアとしてデータ処理装置であるコンピュータシステムを有している。このコンピュータシステムからなる音声認識装置1は、コンピュータの主体としてCPU(Central Processing Unit)2を有しており、このCPU2には、バスライン3により、ROM(Read Only Memory)4、RAM(Random Access Memory)5、HD(Hard Disk…図示せず)を内蔵したHDD(HD Drive)6、FD(Floppy Disk)7が装填されるFDD(FD Drive)8、CD(Compact Disk)−ROM9が装填されるCD−ROMドライブ10、マウス11が接続されたキーボード12、ディスプレイ13、入力デバイスであるマイクロフォン14、通信I/F(Interface)15、等が接続されている。
【0022】
この音声認識装置1は、前記CPU2に各種の処理動作を実行させるプログラム等が予め設定されており、このプログラム等のソフトウェアは、例えば、情報記憶媒体である前記FD7や前記CD−ROM9に予め書き込まれている。そして、このソフトウェアが情報記憶媒体である前記HDD6に予めインストールされており、これが起動時に情報記憶媒体である前記RAM5に複写されて前記CPU2に読み取られる。
【0023】
このように前記CPU2がプログラムを読み取って各種の処理動作を実行することにより、各種機能が各種手段として実現されている。このような各種手段として、本実施の形態の音声認識装置1は、図1に示すように、音声入力手段21、音声分析手段22、認識候補辞書23、類似度算出手段24、強度検出手段25、端部制御手段26、結果確定手段27、結果出力手段28、等を有している。
【0024】
前記音声入力手段21は、前記マイクロフォン14等により音声の入力を受け付け、この入力音声をデジタルの電気信号にA/D(Analog/Digital)変換する。前記音声分析手段22は、所定のプログラムに対応した前記CPU2の演算処理等により、入力信号を単位時間であるフレーム毎に分析して特徴量を抽出する。
【0025】
このように入力音声をデジタルの電気信号に変換してから特徴量を抽出することには、既存の各種手法が利用できるが、ここでは入力音声を16(kHz)で16(bit)のデジタル信号に変換し、抽出する特徴量としてLPC(Linear Predictive Coding)メルケプストラムを算出する。この分析の条件は、
窓関数 Hamming窓
窓周期 20(ms)
フレーム周期 20(ms)
LPC分析次数 20
メル尺度化定数 0.5
メルケプストラム次数 10
である。
【0026】
前記認識候補辞書23は、例えば、前記RAM5にデータファイルとして格納されており、図4に示すように、認識候補の語句である単語の音声の特徴量を、音素単位の状態遷移モデルと単語単位の音素ネットワークとして予め記憶している。なお、ここで言う音素とは、/a/,/i/,…等の母音および/k/,/s/,…等の子音からなる単独の音素や、/s−a/,/a−s/,…等の音声の連続部分に対応する音素であり、ここでは約 200種類に設定されている。各音素は最大で二状態の状態遷移モデルとして表現されており、各状態は平均特徴量と継続時間長との情報を有している。
【0027】
前記類似度算出手段24は、図5に示すように、入力信号の特徴量に認識候補の特徴量をマッチングさせ、その類似度をフレーム単位で算出して順次累積する。なお、図5では説明を簡略化するため、状態分岐が無い単語の場合を図示している。各フレーム毎に入力信号の特徴量と各音素の各状態の特徴量との局所的な類似度が算出され、各状態に対して音素ネットワークに従ったマッチングパスが選択され、このように選択した最適なマッチングパスに従って局所的な類似度が累積され、そのフレームまでの累積類似度が算出される。状態jにおけるマッチングパス選択の例を図6に示す。なお、ここでは入力フレームiと状態jとに対するマッチングパスの選択の漸化式が、下記のように設定されている。
【0028】
【数1】
Figure 0003611223
【0029】
この数式において、S(i,j)は格子点(i,j)まで累積した類似度、s(i,j)は格子点(i,j)での局所的なスペクトルの類似度、s(i,j)は格子点(i,j)での状態の継続長の類似度である。これらの類似度を算出する数式は、
(i,j)=W(B−d(i,j))
(i,j)=−W(i,j)
として設定されている。この数式において、W はスペクトルの類似度に対する重み係数であり、各状態毎に“0.2〜1.0”に設定されている。W は継続長の類似度に対する重み係数であり、各状態毎に“0.0〜0.1”に設定されている。Bはスペクトルの類似度の中立点であり、各状態毎に“0.5〜1.5”に設定されている。d(i,j)は入力信号と認識候補との局所的なスペクトルのユークリッド距離であり、d(i,j)は入力信号と認識候補との状態の継続長のユークリッド距離である。
【0030】
ただし、上述のように前記類似度算出手段24が入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する際、そのマッチングの始端部と終端部との類似度が前記端部制御手段26により信号強度に対応して調節される。つまり、前記強度検出手段25が入力信号の強度を対数に変換して検出すると、前記端部制御手段26は、入力信号の強度に対応してマッチングの端部の罰点を算出し、この罰点を端部の累積類似度に加算することにより、この累積類似度を増減させて端部の確度を調節する。
【0031】
より詳細には、前記強度検出手段25は、最初に入力信号のフレームiの強度を対数に変換して強度“p(i)=log(強度)”を算出し、これに基づいてフレームiを始端部とした場合の罰点P(i)≦0 と終端部とした場合の罰点P(i)≦0 とを、
≦p(i) → P(i)=P(i)=0
≦p(i)<p → P(i)=P(i)=−P(p−p(i))/(p−p
p(i)<p → P(i)=P(i)=−P
として算出する。
【0032】
上記数式のP,p,p は正の定数であり、通常の音声の端部では罰点が発生せず、明白に非音声の区間では明白に相違する音韻間の距離程度に罰点が発生するように、例えば、“P=3,p=10,p=14 ”程度に設定される。このようにフレームiを端部とした場合の罰点P(i),P(i)を算出すれば、図7に示すように、この罰点P(i),P(i)は、音声の存在する区間のみ“0”となる。
【0033】
そこで、フレームiを始端部とする累積類似度S(i−1,k)は、始端部の罰点P(i)≦0 により、
S(i−1,k)=P(i)
(i−1,k)=0
k=始端部ノード
として算出される。また、フレームiを終端部とする単語全体の累積類似度Sim(i)は、終端部の罰点P(i)≦0 により以下のように算出される。
【0034】
【数2】
Figure 0003611223
【0035】
上述のように、前記類似度算出手段24のマッチングの始端部と終端部との類似度を、前記端部制御手段26が信号強度に対応した罰点の加算により調節するので、入力信号が低強度の部分がマッチングの端部となることが抑制されることになる。
【0036】
前記結果確定手段27は、上述のように前記端部制御手段26により端部の確度が調節された状態で前記類似度算出手段24が入力信号と認識候補との累積類似度Sim(i)を算出すると、この累積類似度Sim(i)が所定の閾値Thを超過すると所定時間“i〜i+N:N=const,15〜30”まで待機し、より高い累積類似度Sim(i)が出現しなければ、その認識候補の単語を認識結果として確定する。なお、より高い累積類似度Sim(i)が待機中に出現した場合には、これが認識結果の候補として更新され、待機状態に再度移行する。前記結果出力手段28は、上述のように確定された認識候補の単語を、例えば、前記ディスプレイ13に表示出力する。
【0037】
上述した音声認識装置1の各種手段は、必要により前記ディスプレイ13や前記マイクロフォン14等のハードウェアを利用して実現されるが、その主体は前記RAM5等に書き込まれたソフトウェアに対応して前記CPU2が動作することにより実現されている。
【0038】
このように前記RAM5に書き込まれたソフトウェアは、前記CPU2が読取自在なソフトウェアからなる前記認識候補辞書23、前記CPU2が読取自在で対応する動作を実行する制御プログラム、等からなる。そして、この制御プログラムは、前記マイクロフォン14に入力された音声の信号を単位時間であるフレーム毎に分析して特徴量であるLPCメルケプストラムを抽出すること、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積すること、入力信号の強度を対数に変換して検出すること、この信号強度に対応してマッチングの端部の罰点を算出すること、この罰点をマッチングの端部の累積類似度に加算すること、マッチングの累積類似度が所定の閾値Thを超過すると認識候補の単語を認識結果として確定すること、確定された認識結果を前記ディスプレイ13に表示出力させること、として書き込まれている。
【0039】
このような構成において、本実施の形態の音声認識装置1は、認識対象の単語が含まれる音声がマイクロフォン14に入力されると、この入力信号から認識候補辞書23に格納されている単語を認識し、この認識結果をディスプレイ13に表示出力する。このような音声認識装置1の音声認識方法を、図8および図9を参照して以下に順次詳述する。
【0040】
まず、図8に示すように、マイクロフォン14に入力された信号は、デジタル信号にA/D変換されてからフレーム毎に特徴量であるLPCメルケプストラムが算出され、これと並行してフレーム毎に入力信号の対数強度が検出される。つぎに、入力信号の特徴量に認識候補の特徴量がマッチングされ、その類似度がフレーム単位で算出されて順次累積される。同時に、入力信号の強度に対応してマッチングの端部の罰点が算出され、この罰点が端部の累積類似度に加算される。
【0041】
より詳細には、図9に示すように、フレームiをマッチングの端部とした場合の罰点P(i),P(i)が算出され、このフレームiの各状態jでの局所的な類似度s(i,j)が算出される。この各状態jに対して音素ネットワークのマッチングパスが選択され、このマッチングパスでの累積類似度S(i,j)が算出され、終端部では単語全体の累積類似度Sim(i)が算出される。このように算出された累積類似度Sim(i)には、その始端部での累積類似度に始端部の罰点が加算されており、終端部での累積類似度に終端部の罰点が加算されている。
【0042】
図8に示すように、上述のように累積類似度が端部の罰点を加味して算出されると、この累積類似度が所定の閾値と比較される。この閾値を累積類似度が超過してから所定時間が経過すると、認識候補の単語が認識結果として確定され、このように確定された認識候補の単語がディスプレイ13に表示出力される。
【0043】
本実施の形態の音声認識装置1の音声認識方法では、上述のように入力信号に所定の単語の認識候補をマッチングさせる場合に、このマッチングの端部の確度を信号強度に対応して調節するので、入力信号の低強度の部分が始端部や終端部となることが抑制される。このため、入力信号の音声でない部分まで認識候補がマッチングされる可能性が低く、単語の認識精度が良好である。特に、認識すべき音声に類似した騒音が存在しても、この騒音より認識すべき音声が高強度であれば、この音声は高精度に認識される。
【0044】
しかも、ここではマッチング処理での端部のパス選択を、信号強度に対応して抑制するだけで禁止はしないので、単語全体の累積類似度が充分に高ければ、端部の信号強度が低くとも単語は認識される。また、信号強度が全体的に変化した場合、マッチングの端部の確度は影響されるが、単語全体の累積類似度は充分に確保されるので、単語の認識精度は良好である。
【0045】
なお、本発明は上記形態に限定されるものではなく、各種の変形を許容する。例えば、上記形態では音声認識装置1をコンピュータシステムの実験装置として想定し、入力信号から認識した単語をディスプレイ13に表示することを例示した。しかし、上述のような音声認識装置1の各種手段22〜27等の部分をASIC(Application Specific Integrated Circuit)として製作し、これを各種製品に組み込んで音声制御に利用することも可能である。
【0046】
例えば、このようなASICをカーナビゲーションシステムに組み込めば、ユーザは自動車の運転中に発声でカーナビゲーションシステムを安全に操作することができる。自動車の室内は騒音が顕著であるが、本発明の音声認識装置1は、騒音下での音声の認識精度が良好なので、ユーザは装置を良好に操作することができる。また、上述のようなASICをアーケードタイプのゲームマシンに組み込むことも可能であり、この場合も騒音が顕著なアーケードにおいてユーザの発声に対応してゲーム進行を制御することができる。
【0047】
また、上記形態では入力信号から抽出する特徴量をLPCメルケプストラムとすることを例示したが、この特徴量には各種方式が適用可能である。また、認識する語句を単語とすることを例示したが、これを熟語や特定の一連の言葉とすることも可能である。
【0048】
さらに、上記形態では信号強度を対数に変換して検出することを例示したが、これも各種の検出方法が適用可能である。また、マッチングの始端部と終端部との両方の確度を信号強度に対応して調節することを例示したが、このような信号強度に対応した確度の調節を実行する端部を一方のみとすることも可能である。
【0049】
さらに、上記形態では1フレームの信号強度から端部の罰点を算出することを例示したが、これではピークノイズ等の影響が懸念されるので、実際には周辺の数フレームの信号強度を平均化することや、入力信号を平滑化回路により平滑化してから信号強度を検出することが好ましい。
【0050】
さらに、上記形態ではマッチングの端部の累積類似度を信号強度に対応して増減させるため、入力信号の絶対強度に対応した罰点を算出して累積類似度に加算することを例示したが、このような罰点を入力信号の連続する複数の部分の強度の差分に対応して算出し、この入力信号の強度変化に対応した罰点の加算によりマッチングの端部の累積類似度を増減させることも可能である。
【0051】
この場合、端部制御手段26は、最初に入力信号のフレーム“i−1”からフレームiの強度の差分を“△p(i)=p(i)−p(i−1)”として算出し、これに基づいてフレームiを始端部とした場合の罰点P(i)と、終端部とした場合の罰点P(i)とを、
≦△p(i) → P(i)=0
≦△p(i)<p → P(i)=−P(p−△p(i))/(p−p
△p(i)<p → P(i)=−P
−p≧△p(i) → P(i)=0
−p≧△p(i)>−p → P(i)=−P(p+△p(i))/(p−p
△p(i)>−p → P(i)=−P
として算出する。上記数式のP,p,p も正の定数であり、通常の音声の端部では罰点が発生せず、明白に非音声の区間では明白に相違する音韻間の距離程度に罰点が発生するように、例えば、“P=4,p=2,p=4 ”程度に設定される。
【0052】
このように入力信号の複数部分の強度の差分からマッチングの端部の罰点P(i),P(i)を算出すると、図10に示すように、始端部の罰点P(i)は音声の強度が増加する区間のみ“0”となり、終端部の罰点P(i)は音声の強度が低下する区間のみ“0”となる。つまり、信号強度が増加しない部分が始端部となることが抑制されるとともに、信号強度が低下しない部分が終端部となることが抑制されるので、入力信号の音声でない騒音等の部分まで認識候補がマッチングされる可能性が低下することになり、より良好に入力信号から所定の単語を認識することができる。
【0053】
しかも、このように入力信号の強度を対数に変換してから、複数の部分の強度の差分からマッチングの端部の罰点を算出すると、同一内容の音声の強度が全体的に相違しても罰点は同一となる。つまり、話者とマイクロフォン14との距離の相違により信号強度が全体的に変化した場合でも、音声認識の精度が影響されず、単語を良好に認識することができる。
【0054】
ここで、上述した音声認識装置1の音声認識方法の実験結果を以下に説明する。この実験の条件は、
録音環境: 事務所内
マイクロフォン: 無指向性 口から10(cm)
単語セット: 地名30語
話者: 男性9名、女性11名
認識用発声: 孤立発声、30語×2
とした。そして、マッチングの端部の確度を調節しない場合、音声の絶対強度に対応して調節した場合、音声の強度変化に対応して調節した場合、として音声認識の実験を実行したところ、下記の表1に示すように、上記の順番で認識精度が向上することが確認された。
【0055】
【表1】
Figure 0003611223
【0056】
なお、前述した形態ではマッチングの端部の確度を信号強度に対応して調節するため、信号強度に対応した罰点を端部の累積類似度に加算することを例示したが、例えば、信号強度に対応してマッチングパスの選択を制御することにより、マッチングの端部の確度を信号強度に対応して調節することも可能である。つまり、単語の端部でないフレームでは、そのフレームを端部とするマッチングパスが選択されなければ良いので、始端部では継続時間長の類似度s(i−1,k)が負となる信号強度p(i)の関数を設定し、終端部では累積類似度の閾値を信号強度p(i)の関数として設定すれば良い。
【0057】
また、本実施の形態では、RAM5等にソフトウェアとして格納されている制御プログラムに従ってCPU2が動作することにより、音声認識装置1の各部が実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして製作することも可能であり、一部をソフトウェアとしてRAM5等に格納するとともに一部をハードウェアとして製作することも可能である。また、所定のソフトウェアが格納されたRAM5等や各部のハードウェアを、例えば、ファームウェアとして製作することも可能である。
【0058】
また、本実施の形態では、音声認識装置1の起動時に、HDD6に格納されているソフトウェアがRAM5に複写され、このようにRAM5に格納されたソフトウェアをCPU2が読み取ることを想定したが、このようなソフトウェアをHDD6に格納したままCPU2に利用させることや、RAM5に予め書き込んでおくことも可能である。
【0059】
さらに、前述のように単体で取り扱える情報記憶媒体であるFD7やCD−ROM9にソフトウェアを書き込んでおき、このFD7等からRAM5等にソフトウェアをインストールすることも可能であるが、このようなインストールを実行することなくFD7等に書き込まれたソフトウェアをCPU2が適宜読み取ってデータ処理を実行することも可能である。
【0060】
また、このような音声認識装置1の各部を実現する制御プログラムを、複数のソフトウェアの組み合わせにより実現することも可能であり、その場合、単体の製品となる情報記憶媒体には必要最小限のソフトウェアのみを格納しておけば良い。例えば、オペレーティングシステムが実装されている音声認識装置1に、CD−ROM9等の情報記憶媒体によりアプリケーションソフトを提供するような場合、音声認識装置1の各部を実現するソフトウェアは、アプリケーションソフトとオペレーティングシステムとの組み合わせで実現されるので、オペレーティングシステムに依存する部分のソフトウェアはアプリケーションソフトの情報記憶媒体から省略することができる。
【0061】
特に、本発明の音声認識装置は、従来の既存の音声認識装置が累積類似度を算出する処理を制御すれば実現できるので、この制御の部分のみオプションのアプリケーションソフトとして形成するようなこともできる。その場合、CD−ROM9等の情報記憶媒体に、強度検出手段25と端部制御手段26とに対応したプログラムのみ書き込んでおき、このプログラムを各手段21〜24,27〜28を具備した既存の音声認識装置にインストールすれば良い。
【0062】
また、このように情報記憶媒体に書き込んだソフトウェアをコンピュータに供給する手法は、その情報記憶媒体をコンピュータに直接に装填することに限定されない。例えば、上述のようなソフトウェアをホストコンピュータの情報記憶媒体に書き込み、このホストコンピュータを通信ネットワークにより端末コンピュータに接続し、ホストコンピュータからデータ通信により端末コンピュータにソフトウェアを供給することも可能である。
【0063】
この場合、端末コンピュータが自身の情報記憶媒体にソフトウェアをダウンロードした状態でスタンドアロンのデータ処理を実行することも可能であるが、ソフトウェアをダウンロードすることなくホストコンピュータとのリアルタイムのデータ通信によりデータ処理を実行することも可能である。この場合、ホストコンピュータと端末コンピュータとを通信ネットワークにより接続したシステム全体が、本発明の音声認識装置1に相当することになる。
【0064】
【発明の効果】
請求項1記載の発明の音声認識装置は、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度が低強度の部分で減少させることにより、例えば、入力信号が低強度の部分が端部となることを抑制するようなことができるので、入力信号の音声でない部分に認識候補がマッチングされる可能性を低下させ、音声認識の精度を向上させることができる。
【0066】
請求項記載の発明の音声認識装置では、端部制御手段は、入力信号の強度に対応した罰点を算出して端部の累積類似度に加算することにより、入力信号が低強度の部分が端部となることが抑制されるので、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下し、音声認識の精度が向上する。
【0067】
請求項3記載の発明の音声認識装置では、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させることにより、信号強度が増加しない部分が始端部となることを抑制することができ、信号強度が減少しない部分が終端部となることも抑制することができるので、入力信号の音声でない部分に認識候補がマッチングされる可能性を低下させることができ、音声認識の精度を向上させることができる。
【0068】
請求項記載の発明の音声認識装置では、端部制御手段は、入力信号の連続する複数の部分の強度の差分に対応した罰点を算出して端部の累積類似度に加算することにより、信号強度が増加しない部分が始端部となることが抑制され、信号強度が減少しない部分が終端部となることが抑制されるので、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下し、音声認識の精度が向上する。
【0069】
請求項記載の発明の音声認識装置では、端部制御手段は、信号強度を対数に変換してから差分を算出することにより、同一の会話の入力信号の全体的な強度が相違しても差分の算出結果は同一となるので、信号強度が全体的に変化する場合でも音声認識の精度を良好に維持することができる。
【0070】
請求項6記載の発明の音声認識方法は、入力信号の強度を検出し、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度が低強度の部分で減少させるようにしたことにより、入力信号が低強度の部分が端部となることを抑制し、入力信号の音声でない部分に認識候補がマッチングされる可能性を低下させることができ、音声認識の精度を向上させることができる。
【0072】
請求項7記載の発明の音声認識方法では、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させることにより、端部の確度を調節するようにしたことにより、信号強度が増加しない部分が始端部となることを抑制することができ、信号強度が減少しない部分が終端部となることも抑制することができるので、入力信号の音声でない部分に認識候補がマッチングされる可能性を低下させることができ、音声認識の精度を向上させることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の音声認識装置の論理的構造を示す模式図である。
【図2】音声認識装置の物理的構造を示すブロック図である。
【図3】音声認識装置の外観を示す斜視図である。
【図4】語句である単語の状態遷移モデルを示す模式図である。
【図5】入力信号とパターンマッチングとの関係を示す模式図である。
【図6】マッチングパスが複数の状態を示す模式図である。
【図7】入力信号と罰点との関係を示すタイムチャートである。
【図8】音声認識方法のメインルーチンを示すフローチャートである。
【図9】累積類似度の算出方法のサブルーチンを示すフローチャートである。
【図10】一変形例における入力信号と罰点との関係を示すタイムチャートである。
【符号の説明】
1 音声認識装置
2 コンピュータ
4〜7,9 情報記憶媒体
14 入力デバイス
21 音声入力手段
22 音声分析手段
23 認識候補辞書
24 類似度算出手段
25 強度検出手段
26 端部制御手段
27 結果確定手段

Claims (7)

  1. 信号の入力を受け付ける音声入力手段と、入力信号を単位時間毎に分析して特徴量を抽出する音声分析手段と、認識候補の語句の音声の特徴量を予め記憶した認識候補辞書と、入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する類似度算出手段と、累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する結果確定手段と、入力信号の強度を検出する強度検出手段と、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度が低強度の部分で減少させる端部制御手段と、を有することを特徴とする音声認識装置。
  2. 端部制御手段は、入力信号の強度に対応した罰点を算出して端部の累積類似度に加算することを特徴とする請求項1記載の音声認識装置。
  3. 信号の入力を受け付ける音声入力手段と、入力信号を単位時間毎に分析して特徴量を抽出する音声分析手段と、認識候補の語句の音声の特徴量を予め記憶した認識候補辞書と、入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する類似度算出手段と、累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する結果確定手段と、入力信号の強度を検出する強度検出手段と、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させる端部制御手段と、を有することを特徴とする音声認識装置。
  4. 端部制御手段は、入力信号の連続する複数の部分の強度の差分に対応した罰点を算出して端部の累積類似度に加算することを特徴とする請求項3記載の音声認識装置。
  5. 端部制御手段は、信号強度を対数に変換してから差分を算出することを特徴とする請求項4記載の音声認識装置。
  6. 認識候補の語句の音声の特徴量を予め用意しておき、入力信号を単位時間毎に分析して特徴量を抽出し、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積し、この累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する音声認識方法において、入力信号の強度を検出し、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号が低強度の部分で減少させるようにしたことを特徴とする音声認識方法。
  7. 認識候補の語句の音声の特徴量を予め用意しておき、入力信号を単位時間毎に分析して特徴量を抽出し、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積し、この累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する音声認識方法において、入力信号の強度を検出し、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させるようにしたことを特徴とする音声認識方法。
JP21870296A 1996-08-20 1996-08-20 音声認識装置及び方法 Expired - Fee Related JP3611223B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP21870296A JP3611223B2 (ja) 1996-08-20 1996-08-20 音声認識装置及び方法
US08/915,102 US6029130A (en) 1996-08-20 1997-08-20 Integrated endpoint detection for improved speech recognition method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21870296A JP3611223B2 (ja) 1996-08-20 1996-08-20 音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JPH1063289A JPH1063289A (ja) 1998-03-06
JP3611223B2 true JP3611223B2 (ja) 2005-01-19

Family

ID=16724084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21870296A Expired - Fee Related JP3611223B2 (ja) 1996-08-20 1996-08-20 音声認識装置及び方法

Country Status (2)

Country Link
US (1) US6029130A (ja)
JP (1) JP3611223B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321197B1 (en) * 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
US7334191B1 (en) * 2000-05-09 2008-02-19 International Business Machines Corporation Segmentation and detection of representative frames in video sequences
US6985859B2 (en) * 2001-03-28 2006-01-10 Matsushita Electric Industrial Co., Ltd. Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
CN101206858B (zh) * 2007-12-12 2011-07-13 北京中星微电子有限公司 一种孤立词语音端点检测的方法及系统
US9607613B2 (en) * 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
EP4083998A1 (en) 2017-06-06 2022-11-02 Google LLC End of query detection
CN109410935A (zh) * 2018-11-01 2019-03-01 平安科技(深圳)有限公司 一种基于语音识别的目的地搜索方法及装置
CN112863496B (zh) * 2019-11-27 2024-04-02 阿里巴巴集团控股有限公司 一种语音端点检测方法以及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
JPS5876893A (ja) * 1981-10-30 1983-05-10 日本電気株式会社 音声認識装置
JPS58132298A (ja) * 1982-02-01 1983-08-06 日本電気株式会社 窓制限付パタンマツチング装置
JPS6024597A (ja) * 1983-07-21 1985-02-07 日本電気株式会社 音声登録方式
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
US4882755A (en) * 1986-08-21 1989-11-21 Oki Electric Industry Co., Ltd. Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature
US5220609A (en) * 1987-03-13 1993-06-15 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US4918731A (en) * 1987-07-17 1990-04-17 Ricoh Company, Ltd. Speech recognition method and apparatus
JPH06105400A (ja) * 1992-09-17 1994-04-15 Olympus Optical Co Ltd 3次元空間再現システム

Also Published As

Publication number Publication date
US6029130A (en) 2000-02-22
JPH1063289A (ja) 1998-03-06

Similar Documents

Publication Publication Date Title
US4829578A (en) Speech detection and recognition apparatus for use with background noise of varying levels
JP3611223B2 (ja) 音声認識装置及び方法
JP6024180B2 (ja) 音声認識装置、音声認識方法、及びプログラム
EP1355296B1 (en) Keyword detection in a speech signal
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP4433704B2 (ja) 音声認識装置および音声認識用プログラム
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JP2745535B2 (ja) 音声認識装置
JPH09230885A (ja) パターン位置決定方法及び装置
EP1376537B1 (en) Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech
JP5532880B2 (ja) 音声認識装置
JPH11184491A (ja) 音声認識装置
JP2797861B2 (ja) 音声検出方法および音声検出装置
JP3106543B2 (ja) 音声信号処理装置
JPS60114900A (ja) 有音・無音判定法
JP3493849B2 (ja) 音声認識装置
JP5157474B2 (ja) 音処理装置およびプログラム
JP2006010739A (ja) 音声認識装置
JPH09258765A (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
JP5157475B2 (ja) 音処理装置およびプログラム
JP2506730B2 (ja) 音声認識方法
JPH11338492A (ja) 話者認識装置
JP3254933B2 (ja) 音声認識方法
JP3125928B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041015

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071029

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091029

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101029

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111029

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121029

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees