JP2001195082A

JP2001195082A - 音声認識装置

Info

Publication number: JP2001195082A
Application number: JP2000002096A
Authority: JP
Inventors: Chiharu Kawai; 千晴河合; Hiroshi Katayama; 浩片山; Takehiro Nakai; 丈裕中井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2000-01-11
Filing date: 2000-01-11
Publication date: 2001-07-19
Anticipated expiration: 2020-01-11
Also published as: JP4393648B2; US6701292B1

Abstract

(57)【要約】【課題】入力音声と標準パターンの比較にフレーム間
距離を用いた場合に雑音の影響を抑制して認識率を向上
させる音声認識装置を提供する。【解決手段】入力された音声を認識する音声認識装置
であって、入力音声のフレーム毎に特徴ベクトルを算出
する分析部と、補正距離を予め記憶する補正値記憶部
と、フレームの特徴ベクトルと各音素特徴ベクトルとの
ベクトル間距離を各音素毎に計算するベクトル間距離計
算部と、全ての音素についての距離の平均値を算出する
平均値計算部と、各音素標準パターンについて、（各ベ
クトル距離−平均値＋補正距離）で得られる補正された
ベクトル間距離を計算する補正部と、補正されたベクト
ル間距離を累積して、累積ベクトル間距離と各単語標準
パターンとを比較して、音声認識する識別部とを具備し
て構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
する。特に、雑音環境下での認識率の改善及び音声認識
における演算量の削減に関する。

【０００２】

【従来の技術】近年、音声認識を用いた製品の提供が盛
んになりつつある。現状の音声認識技術では、静かな環
境で使うなどの様々な制約が課せられないと、良い性能
が得られないという問題がある。これらの制約は、音声
認識の普及を妨げる大きな要因になっており、雑音下の
音声認識率の向上が求められている。

【０００３】従来、雑音環境下での認識率を改善する音
声認識方法の１つとして、特開平５−２１０３９６号公
報に記載された方法（従来例１）がある。この従来例１
は、ベクトル間類似度を同じフレームにおける最大類似
度で補正する方法である。以下、この方法について説明
をする。入力された音声信号の特徴分析を行い、特徴ベ
クトルの時系列に変換する。特徴ベクトル時系列の１フ
レームの特徴ベクトルと予め登録しておいた標準パター
ンを構成する特徴ベクトルとのベクトル間の距離から確
率分布に従って、ベクトル間類似度を求める。各フレー
ムについてのベクトル間類似度の最大値を求める。

【０００４】各フレームについて、ベクトル間類似度の
最大値から、補正値を求めて、該補正値で補正して、フ
レーム補正類似度を求める。フレーム補正類似度を累積
した累積補正類似度を算出する。累積補正類似度と閾値
とを比較して、累積類似度が閾値よりも大きい時に、累
積類似度に該当する音声が入力されたものと診断する。
このように、各フレームについてベクトル間類似度を最
大類似度に従って補正するため、雑音の影響が相殺され
て認識率が向上する。

【０００５】また、ワードスポッティングにおける認識
率を改善する音声認識方法の１つとして、特開昭６３−
２５４４９８公報に記載された方法（従来例２）があ
る。この従来例２は、類似度の１位と２位との差もしく
は１位と２位の比を用いる方法である。以下、この方法
の説明をする。入力音声から特徴パラメータを抽出す
る。特徴パラメータと各標準パターンを構成する特徴パ
ラメータとの類似度を求める。類似度を累積した標準パ
ターン毎の累積類似度を算出する。

【０００６】このとき、累積区間の開始時点と終了時点
を少しずつずらすワードスポッティングにより累積類似
度を求める。累積類似度を大きい順にソートし、第１
位、第２位を決定する。第１位と第２位との差もしくは
第１位と第２位の比（第１位／第２位）と、閾値との比
較を行い、類似度間の計算結果が閾値を越える場合に、
入力音声が第１位の累積類似度に対応する単語であると
判断する。このように、類似度間の計算結果と閾値とを
比較することにより、確からしい認識結果のみを単語と
して認識するので、認識率が向上する。

【０００７】

【発明が解決しようとする課題】従来例１では、入力音
声と標準パターンの比較に、確率分布により求められる
フレーム間類似度を用いており、この場合は最大類似度
により雑音をある程度推定することができる。しかし、
フレーム間類似度の代わりに、ベクトル間距離を使用し
た場合、ベクトル間距離の最小値は音素の種類等により
異なるので、ベクトル間距離の最小値により雑音による
影響を推定することが難しい。そのため、入力音声と標
準パターンとの比較に、フレーム間距離を用いた場合に
従来例１を適用できないという問題点がある。

【０００８】従来例２では、雑音を音声と誤って判断し
ないように閾値が厳しく設定されるため、雑音などの影
響で入力音声と標準パターンの類似度が低くなる場合、
音声を検出できないことが多い。

【０００９】図１４は、ワードスポティングの問題点を
示す図である。図１４に示すように、ワードスポティン
グでは、音声が存在する可能性のある様々な始端及び終
端からなるＡ１，Ａ２，Ａ３，Ａ４やＢ１，Ｂ２，Ｂ
３，Ｂ４やＣ１，Ｃ２，Ｃ３，Ｃ４等の全ての音声区間
について、フレーム間累積類似度やフレーム間距離の累
積演算を、ＤＰ(Dynamic Programming)マッチング法や
ＨＭＭ法等を用いて行う。例えば、図１４では、入力音
声と一致する音声区間Ｃ２の類似度が最大となる。しか
し、音声が存在する可能性のある全ての音声区間に対し
て、累積演算を行うため、ワードスポティングでは、演
算量が多いという問題点がある。この問題点を回避する
ために終端フリーの方法がある。しかし、終端フリーで
は、以下の問題点がある。

【００１０】図１５は、終端フリーの問題点を示す図で
ある。図１５に示すように、終端フリーの場合は、始端
を特定して、始端から一定時間長までの区間に対して、
始端から該区間に含まれる区間までを各音声区間とし
て、累積演算が行われる。例えば、ワードスポティング
では、音声区間Ａ１…Ａ４，Ｂ１…Ｂ４，Ｃ１…Ｃ４に
対して、終端フリーでは、音声区間Ａ，Ｂ，Ｃとなり演
算量を削減することできる。しかし、始端から一定時間
長の音声が入力されるまでは、音声区間が確定しないた
めに遅延が生じるという問題点がある。例えば、音声区
間Ｃでは、遅延τが生じる。

【００１１】本発明の目的は、入力音声と標準パターン
の比較にフレーム間距離を用いた場合に雑音の影響を抑
制して認識率を向上させる音声認識装置を提供すること
である。

【００１２】本発明の他の目的は、雑音などの影響で入
力音声と標準パターンのフレーム間類似度が低く又はフ
レーム間距離が大きくなった場合にも音声を検出できる
音声認識装置を提供することである。

【００１３】更に、本発明の他の目的は、ワードスポテ
ィング時の演算量を減らすと共に終端フリー時の遅延量
を少なくすることのできる音声認識装置を提供すること
である。

【００１４】

【課題を解決するための手段】本発明の側面によれば、
入力された音声を認識する音声認識装置であって、複数
の音素標準パターンの音素特徴ベクトルを予め記憶する
音素標準特徴パターン記憶部と、入力音声のフレーム毎
に特徴ベクトルを算出する分析部と、前記フレームの前
記特徴ベクトルと前記各音素特徴ベクトルとのベクトル
間距離を音素毎に計算するベクトル間距離計算部と、前
記全ての音素についての前記ベクトル間距離の平均値を
前記フレーム毎に算出する平均値計算部と、前記音素毎
に計算されたベクトル距離から前記フレーム毎に算出さ
れた前記平均値を減算し、その減算したベクトル距離を
補正する補正部と、前記音素の並び情報を定義する単語
標準パターンを記憶する単語標準パターン記憶部と、前
記補正されたベクトル間距離を累積して、累積ベクトル
間距離と前記単語標準パターンとを比較して、音声認識
する識別部と、を具備したことを特徴とする音声認識装
置が提供される。

【００１５】本発明の他の側面によれば、入力された音
声を認識する音声認識装置であって、入力音声の特徴ベ
クトルを算出する分析部と、単語標準パターンの特徴ベ
クトルを予め記憶する単語標準パターン記憶部と、前記
入力音声の各区間の前記特徴ベクトルと前記単語標準パ
ターンとを比較して、前記各区間の入力音声について、
前記各単語標準パターンとの各第１類似度を計算する類
似度算出部と、前記各第１類似度又は第１類似度間の計
算結果と第１閾値とを比較して、該第１類似度に該当す
る単語標準パターンの単語が入力音声に該当する単語で
あるか否かを判定する第１判定部と、第２類似度又は第
２類似度間の計算結果を記憶する候補記憶部と、前記第
１判定部により該当する単語であると判定されなかった
前記第１類似度又は第１類似度間の計算結果が前記第１
閾値よりも小さな値である第２閾値よりも大きく且つ前
記第２類似度又は第２類似度間の計算結果よりも大きい
とき、第１類似度又は第１類似度間の計算結果を前記第
２類似度又は第２類似度間の計算結果として、前記候補
記憶部に記憶する候補判定部と、前記第１判定部により
所定時間内に該当する単語であると判定されなかった場
合、前記候補記憶部に記憶された第２類似度又は第２類
似度間の計算結果に基いて、第２類似度に該当する単語
標準パターンの単語が入力音声に該当する単語であると
判定する第２判定部とを具備したことを特徴とする音声
認識装置が提供される。

【００１６】本発明の更に他の側面によれば、入力され
た音声を認識する音声認識装置であって、複数の音素の
音素標準特徴ベクトルを予め記憶する音素標準パターン
記憶部と、入力音声のフレーム毎に特徴ベクトルを計算
する分析部と、各フレームについて、各音素とのベクト
ル間距離を記憶する距離記憶部と、前記フレームの前記
特徴ベクトルと前記各音素標準特徴ベクトルとの間のベ
クトル間距離を各音素毎に算出して、前記距離記憶部に
記憶するベクトル間距離計算部と、各単語について前記
音素の並び情報を定義する単語標準パターンを記憶する
単語標準パターン記憶部と、最新ベクトル間距離から旧
ベクトル間距離へと後ろ向きに前記距離記憶部から前記
ベクトル間距離を読み出して、前記各単語について、後
ろ向きに累積距離を計算する累積距離計算部と、前記累
積距離計算部が計算した累積距離に基いて、該累積距離
に該当する単語が入力された音声であるかを判定する判
定部とを具備したことを特徴とする音声認識装置が提供
される。

【００１７】

【発明の実施の形態】本発明の実施形態の説明をする前
に本発明の原理を説明する。図１は、本発明の原理図で
ある。図１に示すように、音声認識装置は、分析部２、
音素標準特徴パターン記憶部４、ベクトル間距離計算部
６、平均値計算部８、補正値記憶部１０、補正部１２、
単語標準パターン記憶部１４及び識別部１６を具備す
る。

【００１８】環境雑音下で音声が入力される。分析部２
は入力された音声の各フレームの特徴ベクトルを算出し
て、ベクトル間距離計算部６に出力する。音素標準特徴
パターン記憶部４には、各音素の音素標準特徴ベクトル
が記憶されている。ベクトル間距離計算部６は、特徴ベ
クトルと音素標準特徴ベクトルとの間のベクトル間距離
を計算する。平均値計算部８は、各音声フレームについ
て、各音素のベクトル間距離の平均値を算出する。この
平均値は、環境雑音がない状態で音声が入力された場合
の平均値と環境雑音による平均値とが加算されたもので
ある。

【００１９】例えば、環境雑音がない状態でのベクトル
間距離の平均値が補正距離として補正部記憶部１０に記
憶されている。補正部１２は、（各音素のベクトル間距
離−平均値計算部８が計算した平均値＋補正距離）を計
算する。（平均値計算部８が計算した平均値−補正距
離）は、環境雑音による平均値の推定値である。よっ
て、（各音素のベクトル間距離−平均値計算部８が計算
した平均値＋補正距離）は、雑音による影響がある程度
除去されたものとなる。識別部１６は、補正部１２によ
り補正されたベクトル間距離を累積して、累積距離と単
語標準パターン記憶部１４に記憶された各単語標準パタ
ーンとを比較して、音声認識する。このとき、補正部１
２により補正されたベクトル間距離は雑音による影響が
ある程度除去されたものなので、音声認識率が向上す
る。

【００２０】第１実施形態図２は、本発明の第１実施形態による音声認識装置の構
成図である。図２に示すように、音声認識装置は、マイ
ク２０、音声入力部２２、分析部２４、音素標準パター
ンファイル２６、ベクトル間距離計算部２８、補正値計
算部３０、補正値記憶部３２、平均距離計算部３４、距
離補正部３６、単語標準パターンファイル３８、距離累
積部４０、識別部４２及び音声検出部４４を具備する。

【００２１】マイク２０は、音声を入力する入力部であ
る。音声入力部２２は、マイク２０より入力された音声
信号の増幅とＡ／Ｄ変換を行なう。分析部２４は、一定
時間、例えば、１０〜２０ｍｓの音声フレーム毎に、入
力音声信号に対して、ケプストラム分析等の信号処理を
施して、所定次元、例えば、３４次元の特徴ベクトルを
算出する。音素標準パターンファイル２６は、母音など
の音素に対して、分析部２４と同様の信号処理を施して
得られた音素特徴ベクトルが音素標準パターンとして予
め登録されたファイルである。ベクトル間距離計算部２
８は、分析部２４により算出された各音声フレームの特
徴ベクトルと各音素標準パターンとのユークリッド距離
を計算する。

【００２２】図３は、環境雑音による影響を示す図であ
る。この図は、環境雑音無し場合と環境雑音有りの場合
に、「ア」が入力されたときの、入力音声「ア」と各音
素標準パターン「ア」…とのベクトル間距離を縦軸に、
時間を横軸にそれぞれ示している。尚、音素標準パター
ンは環境雑音無しの状態で入力された音声に基いて算出
されたものである。

【００２３】例えば、環境雑音無しの場合では、入力音
声「ア」と音素標準パターン「ア」とのベクトル間距離
の最小は、例えば、０．１である。ここで、ベクトル間
距離の最小が０でないのは、同一音でも話者等により相
違するため、音素標準パターンと入力音声の特徴ベクト
ルが一致するとは限らないことを考慮したものである。
また、例えば、入力音声「ア」と音素標準パターン
「ア」とのベクトル間距離が最小のときの、入力音声
「ア」と音素標準パターン「イ」，「ウ」…との音素ベ
クトル間距離は、０．５，０．８…である。

【００２４】一方、環境雑音有りの場合は、入力音声
「ア」と音素標準パターン「ア」とのベクトル間距離の
最小は、例えば、０．５である。環境雑音無しの場合の
対応するベクトル間距離は、上述のしたように、０．１
であるので、雑音による影響が０．４である。また、例
えば、入力音声「ア」と音素標準パターン「ア」とのベ
クトル間距離が最小のときの、入力音声「ア」と音素標
準パターン「イ」，「ウ」…との音素ベクトル間距離
は、０．７，１．１…なので、雑音による影響が０．
２，０．３…である。

【００２５】このように、雑音による影響は、音素標準
パターン及び入力音声により異なる。しかし、入力音声
のベクトルと音素標準パターンとのベクトル間距離の雑
音による影響を全音素標準パターンについて平均を取る
と、入力音声の違いによらず略一定の値を取ることが推
測される。この雑音による影響の平均値は、（入力音声
のベクトルと各音素標準パターンとのベクトル間距離の
平均値−環境雑音無しで入力された入力音声のベクトル
と各音素標準パターンとのベクトル間距離の平均値（補
正距離））であると推定される。

【００２６】そこで、補正値計算部２８は、環境雑音下
で入力された音声の雑音による影響を推定するための上
記補正距離を予め計算して、補正値記憶部３２に格納す
る。補正値記憶部３２は、補正距離を記憶するメモリで
ある。平均距離計算部３４は、ベクトル間距離計算部２
８により計算された入力音声フレームと各音素標準パタ
ーンとのベクトル間距離の全音素標準パターンについて
の平均値を計算し、距離補正部３６に出力する。距離補
正部３６は、ベクトル間距離計算部２８により計算され
た入力音声フレームと各音素標準パターンとのベクトル
間距離と平均値計算部３４より出力された平均値と補正
値記憶部３２に記憶された補正距離より（各ベクトル間
距離−平均値＋補正距離）を計算して、補正ベクトル間
距離を距離累積部４０に出力する。

【００２７】単語標準パターンファイル３８は、各単語
を構成する音素の並び情報が格納されたファイルであ
る。距離累積部４０は、ワードスポティング等により入
力音声の始点と終点とより単語区間を設定して、単語標
準パターンファイル３８に格納された各単語の音素の並
び情報に従って、距離補正部３６により出力される該単
語区間に含まれる補正ベクトル間距離をＤＰマッチング
法やＨＭＭ法を用いて累積加算して、各単語標準パター
ンの累積距離を算出する。識別部４２は、各単語標準パ
ターンの累積距離と閾値とを比較して、単語標準パター
ンの累積距離＜閾値ならば、入力音声が該単語標準パタ
ーンの単語に該当するものと判断する。音声検出部４４
は、識別部４２が音声認識した単語を図示しないスピー
カなどの出力装置に出力する。

【００２８】以下、図２の音声認識装置の動作説明をす
る。

【００２９】（ａ）補正距離の計算図４は、図２中の補正値計算部３０のフローチャートで
ある。ステップＳ２において、環境雑音無しの状態で音
素に該当する音声をマイク２０より入力する。音声入力
部２２は、入力された音声を増幅してＡ／Ｄ変換する。
分析部２４は、Ａ／Ｄ変換された音声からケプストラム
等の特徴ベクトルを算出する。ステップＳ４において、
ベクトル間距離計算部２８は、入力された音声のフレー
ムの特徴ベクトルと音素標準パターンファイル２６に格
納されている各音素標準パターンとのベクトル間距離を
計算する。ステップＳ６において、補正値計算部３０
は、その音素標準パターンについて、ベクトル間距離の
最小値を算出すると共に該最小値となるフレームを求め
る。ステップＳ８において、補正値計算部３０は、次の
音素標準パターンが有るか否かを判定する。次の音素標
準パターンが有れば、ステップＳ４に戻る。次の音素標
準パターンが無ければ、ステップＳ１０に進む。

【００３０】ステップＳ１０において、補正値計算部３
０は次の音素が有るか否かを判定する。次の音素が有れ
ば、ステップＳ２に戻る。次の音素が無ければ、ステッ
プＳ１２に進む。ステップＳ１２において、補正値計算
部３０は、入力された各音素に該当する入力音声に対し
て、全て音素標準パターンについてのベクトル間距離の
最小値となるフレームにおける全音素標準パターンとの
ベクトル間距離を求める。このベクトル間距離を全ての
音素に該当する入力音声について、求める。そして、こ
れら全てのベクトル間距離の平均値を求めて、これを補
正距離とする。ステップＳ１４において、補正値計算部
３０は、補正距離を補正値記憶部３２に格納する。

【００３１】（ｂ）音声認識空調音等の機械音や人間等の背景雑音などの環境雑音下
で、音声がマイク２０より入力されたとする。例えば、
「ＫＡＷＡＩ」と入力されたとする。マイク２０は、入
力された音声を電気信号に変換する。音声入力部２２
は、マイク２０より入力された音声信号を増幅してＡ／
Ｄ変換する。分析部２４は、一定時間、例えば、１０〜
２０ｍｓの音声フレーム毎に、入力音声信号に対して、
ケプストラム分析等の信号処理を施して、所定次元、例
えば、３４次元の特徴ベクトルを算出する。

【００３２】図５は、図２中のベクトル間距離計算部２
８、平均距離計算部３４及び距離補正部３６及び距離累
積部の処理結果を示す図である。ベクトル間距離計算部
２８は、分析部２４により算出された各音声フレームの
特徴ベクトルと各音素標準パターンとのベクトル間距離
（ユークリッド距離）を計算する。例えば、「ＫＡ」，
「ＷＡ」,「Ｉ」の音声入力に対して、「ＫＡ」，「Ｗ
Ａ」,「Ｉ」に該当する音素標準パターンとのベクトル
間距離は、図５中の補正前ベクトル間距離（ａ）に示す
ようになる。このとき、各音素標準パターンとのベクト
ル間距離は、環境雑音による影響を受けている。

【００３３】平均距離計算部３４は、各音声フレームに
ついて、ベクトル間距離計算部２８により計算された入
力音声フレームと各音素標準パターンとのベクトル間距
離の全音素標準パターンについての平均ベクトル間距離
を計算して、距離補正部３６に出力する。距離補正部３
６は、ベクトル間距離計算部２８により計算された入力
音声フレームと各音素標準パターンとのベクトル間距離
と、平均値計算部３４より出力された平均値と補正値記
憶部３２に記憶された補正距離より（ベクトル間距離−
平均値＋補正距離）を計算して、補正後ベクトル間距離
を距離累積部４０に出力する。

【００３４】この計算結果は、例えば、「ＫＡ」，「Ｗ
Ａ」,「Ｉ」に該当する音素標準パターンについては、
図５中の補正後ベクトル間距離（ｂ）に示すようにな
る。これにより、環境雑音下で入力された音声について
は、雑音の影響が除去されたベクトル間距離となってい
る。また、環境雑音が無い状態で音声が入力される場合
があるが、この場合は、平均ベクトル間距離と補正距離
とが略等しくなるので、補正後ベクトル間距離と補正前
ベクトル間距離が略等しくなり、音声認識率が低下する
ことがない。

【００３５】距離累積部４０は、ワードスポティング等
により入力音声単語の始端と終端とより単語区間を設定
して、単語標準パターンファイル３８に格納された各単
語の音素の並び情報に従って、距離補正部３６により出
力される該単語区間に含まれる補正ベクトル間距離をＤ
Ｐマッチング法やＨＭＭ法を用いて累積加算して、各単
語標準パターンの累積距離を算出する。

【００３６】例えば、単語「ＫＡＷＡＩ」に該当する累
積ベクトル間距離については、図５中の累積ベクトル間
距離に示すようになる。識別部４２は、各単語標準パタ
ーンの累積距離と閾値とを比較して、単語標準パターン
の累積距離＜閾値ならば、入力音声が単語標準パターン
の単語に該当するものと判断する。

【００３７】例えば、環境雑音下で入力された「ＫＡＷ
ＡＩ」の入力音声は、補正前ベクトル間距離の累積距離
では環境雑音によりベクトル間距離が大きくなり、閾値
を越えてしまうことがある。しかし、この場合でも、補
正後ベクトル距離の累積距離では環境雑音による影響が
ある程度除去されているので、閾値以下となることがあ
り、環境雑音下での音声認識率が向上する。しかも、環
境雑音が無しの状態で音声入力された場合であっても、
音声認識率が低下することがない。音声検出部４４は、
識別部４２が音声認識した単語を図示しないスピーカな
どの出力装置に出力する。

【００３８】以上説明した第１実施形態によれば、距離
ベクトルを使用した場合でも、環境雑音下での音声認識
率が向上する。

【００３９】第２実施形態図６は、本発明の第２実施形態による音声認識装置の構
成図であり、図２中の構成要素と実質的に同一の構成要
素には同一の符号を付している。図６に示すように、音
声認識装置は、マイク２０、音声入力部２２、分析部２
４、ベクトル間類似度計算部５０、音素標準パターンフ
ァイル５２、累積類似度計算部５４、単語標準パターン
ファイル５６、判定部５８、閾値レジスタ６０、候補閾
値レジスタ６２、候補判定部６４、候補バッファ６６、
制御部６８、音声応答部７０、タイマ７２及びスピーカ
７４を具備する。

【００４０】ベクトル間類似度計算部５０は、音素標準
パターンファイル５２に登録されている各音素標準パタ
ーンに対して定義された確率密度関数を音声フレームの
特徴ベクトルに適用して、各音素標準パターンのベクト
ル間類似度を計算する。例えば、ベクトル間類似度は、
０〜１までの実数であり、１に近い程、音声フレームが
音素標準パターンに類似していることを示す。尚、本実
施形態では、ベクトル間類似度を計算しているが、第１
実施形態と同様にベクトル間距離を計算しても勿論良
い。

【００４１】音素標準パターンファイル５２は、各音素
標準パターンの特徴ベクトル空間における確率密度関数
が予め登録されたファイルである。累積類似度計算部５
４は、単語標準パターンファイル５６に登録された各単
語標準パターンを参照して、各単語を構成する音素情報
から累積類似度を計算する。単語標準パターンファイル
５６は、各単語標準パターンの音素の並び情報が予め格
納されたファイルである。

【００４２】判定部５８は、閾値レジスタ６０に予め格
納された第１閾値と、α＝（単語標準パターンの第１位
累積類似度又は第１位累積類似度と第２位累積類似度と
の差や比等の累積類似度間の計算結果）とを比較する。
そして、第１閾値＜αならば、制御部６８に音声認識で
きた旨及び音声認識した単語を通知する。また、判定部
５８は第１閾値≧αならば、候補判定部６４にαを出力
する。尚、累積類似度の代わりに累積距離を使用する場
合は、累積距離又は累積距離間の計算結果＜閾値なら
ば、制御部６８に音声認識できた旨及び音声認識した単
語を通知する。

【００４３】候補閾値レジスタ６２は、候補閾値を格納
するレジスタである。候補閾値は、第１閾値よりも小さ
く且つ環境雑音の影響により累積類似度が小さくなって
音声認識率が低下することを防止することを考慮して予
め設定された値である。候補判定部６４は、（判定部５
８より入力されたα）＞候補閾値且つ（α＞β＝（候補
バッファ６６に格納されている第１位累積類似度又は第
１位累積類似度と第２位累積類似度との差や比等の累積
類似度間の計算結果）のとき、候補バッファ６６に格納
されているβを削除して、判定部５８より入力されたα
を候補バッファ６６にβとして格納する。これは、環境
雑音の影響により、判定部５８が音声認識できなかった
場合でも、候補閾値を越える第１位累積類似度の単語を
音声認識して、音声認識率を向上させるためである。

【００４４】制御部６８は、ユーザ等の話者に対する音
声入力要求をするよう音声応答部７０に行うこと、音声
入力要求を行ったときタイマ７２を起動すると共に候補
バッファ６６をクリアすること、判定部５８から音声認
識の通知を受けると、判定部５８により音声認識された
単語を出力するよう音声応答部７０に要求すること、タ
イマ７２がタイムアウトすると候補バッファ６６にβが
格納されていれば、該βを有する第１位累積類似度に該
当する単語を出力するよう要求することを実行する。音
声応答部７０は、制御部６８により指示された音声をス
ピーカ７４に出力する。タイマ７２は、制御部６８の指
示に従って、計時を開始して、一定時間経過（例えば、
話者が単語の入力を完了するまでの時間）するとタイム
アウトする。

【００４５】図７は、図６中の判定部５８及び候補判定
部６４のフローチャートである。図８は、図６中の制御
部６８のフローチャートである。以下、これらの図面を
参照して、図６の音声認識装置の動作説明をする。本例
では、自動販売機等に搭載される音声認識装置に適用し
た場合を例に説明する。

【００４６】（ａ）音声入力図８中のステップＳ４０において、制御部６８は、音声
応答部７０に音声入力の要求をするよう指示する。音声
応答部７０は、制御部６８の指示に従って、話者に対し
て、例えば、「ご希望のものを入力して下さい」等の音
声入力要求をスピーカ７４を通して出力する。ステップ
Ｓ４２において、制御部６８は、タイマ７２をセットす
る。タイマ７２は計時を開始する。ステップＳ４４にお
いて、制御部６８は、候補バッファ６６をクリアする。
話者は、音声入力要求に応じて、音声、例えば、「コー
ヒー」とマイク２０より入力する。このとき、話者の環
境により、環境雑音が入力した音声に混入することがあ
る。マイク２０は、入力された音声を電気信号に変換す
る。音声入力部２２は、マイク２０より入力された音声
信号を増幅してＡ／Ｄ変換する。

【００４７】（ｂ）音声認識分析部２４は、一定時間、例えば、１０〜２０ｍｓの音
声フレーム毎に、入力音声信号に対して、ケプストラム
分析等の信号処理を施して、所定次元、例えば、３４次
元の特徴ベクトルを算出する。ベクトル間類似度計算部
５０は、音声フレームの特徴ベクトルに音素標準パター
ンファイル５２に登録されている各音素標準パターンの
確率密度関数を適用して、各音素標準パターンのベクト
ル間類似度を計算する。このベクトル間類似度は、例え
ば、０〜１までの実数であって、１に近い程、音声フレ
ームが音素標準パターンに類似する。累積類似度計算部
５４は、単語標準パターンファイル５６に登録された各
単語標準パターンを参照して、各単語を構成する音素情
報から累積類似度を計算する。

【００４８】図７中のステップＳ２０において、判定部
５８は、累積類似度を累積類似度計算部５４より入力し
て、累積類似度を大きい順にソートして、第１位累積類
似度，第２位累積類似度を決定する。ステップＳ２２に
おいて、判定部５８は、α＝（第１位累積類似度、第１
位累積類似度と第２位累積類似度との差、あるいは第１
位累積類似度と第２位累積類似度との比）と、閾値レジ
スタ６０に格納されている閾値との比較を行う。α≧閾
値の場合、ステップＳ２４に進む。α＜閾値の場合、α
を候補判定部６４に出力して、ステップＳ２６に進む。
ステップＳ２４において、判定部５８は、制御部６８に
音声認識できた旨及び音声認識した単語を通知する。

【００４９】ステップＳ２６において、候補判定部６４
は、αと候補閾値レジスタ６２に格納されている候補閾
値との比較を行う。α≧候補閾値ならば、ステップＳ２
８に進む。α＜候補閾値ならば、ステップＳ２０に戻
る。ステップＳ２８において、候補判定部６４は、候補
バッファ６６にβ＝（第１位累積類似度、第１位累積類
似度と第２位累積類似度との差、あるいは第１位累積類
似度と第２位累積類似度との比）が格納されているか否
かを判定する。

【００５０】βが格納されていれば、ステップＳ３０に
進む。βが格納されていなければ、ステップＳ３２に進
む。ステップＳ３０において、候補判定部６４は、α，
βを比較する。α＞βならば、ステップＳ３２に進む。
α≦βならば、ステップＳ２０に戻る。ステップＳ３２
において、候補判定部６４は、判定部５８より入力され
たαをβとして、候補バッファ６６に格納して、ステッ
プＳ２０に戻る。これにより、候補バッファ６６には時
間の経過と共に第１位累積類似度に関するβが格納され
る。

【００５１】図８中のステップＳ４６において、制御部
６８は、判定部５８が音声認識できたか否かを判別す
る。判定部５８が音声認識できたならば、ステップＳ５
４に進む。判定部５８は音声認識できていない場合は、
ステップＳ４６に戻る。ステップＳ４８において、制御
部６８は、タイマ７２がタイムアウトしたか否かを判別
する。タイマ７２がタイムアウトしたならば、ステップ
Ｓ５０に進む。タイマ７２がタイムウウトしていなけれ
ば、ステップＳ４６に戻る。

【００５２】ステップＳ５０において、制御部６８は、
候補バッファ６６にβが格納されているか否かを判別す
る。累積類似度が格納されていれば、ステップＳ５２に
進む。βが格納されていなければ、音声が認識できなか
ったものとして終了する。ステップＳ５２において、制
御部６８は、候補バッファ６６に格納されているβに該
当する第１位累積類似度の単語を出力するよう音声応答
部７０に指示する。音声応答部７０は、制御部６８の指
示に従って、該当する単語をスピーカ７４より出力す
る。

【００５３】これにより、環境雑音の影響等に起因し
て、タイマ７２がセットされてからタイムアウトするま
での一定時間内に判定部５８が音声認識できなかった場
合は、候補閾値を越える最大の累積類似度に該当する単
語がスピーカ７４より出力される。一方、判定部５８が
音声認識できたならば、ステップＳ５４において、制御
部６８は、タイマ７２を停止する。ステップＳ５６にお
いて、αに該当する第１位累積類似度の単語を出力する
よう音声応答部７０に指示する。音声応答部７０は、制
御部６８の指示に従って、該当する単語をスピーカ７４
より出力する。

【００５４】図９は、環境雑音下で話者が「コーヒー」
と入力したとき、累積類似度と閾値とを比較して音声認
識する場合の音声認識結果を示す図である。この図の場
合、入力された音声「コーヒー」が環境雑音の影響によ
り、累積類似度＜第１閾値＝０．８５よりも小さく判定
部５８により音声認識することはできない。環境雑音の
影響により、最初は、「コーラ」の累積類似度の方が
「コーヒー」の累積類似度よりも大きく且つ候補閾値
０．５を越えるので、「コーラ」の累積類似度が候補バ
ッファ６６に格納される。しかし、最終的には、「コー
ヒー」の累積類似度の最大値が「コーラ」の累積類似度
の最大値を越えるので、「コーヒー」の累積類似度が候
補バッファ６６に格納される。そして、候補バッファ６
６に格納された累積類似度に該当する「コーヒー」が認
識結果となる。

【００５５】以上説明した第２実施形態によれば、環境
雑音等により判定部が音声認識をできない場合であって
も、一定時間内で一定の閾値を越える最大類似度の単語
を音声認識するので、環境雑音下での音声認識率が向上
する。

【００５６】第３実施形態図１０は、本発明の第３実施形態による音声認識装置の
構成図であり、図２中の構成要素と実質的に同一の構成
要素には同一の符号を付している。図１０に示すよう
に、音声認識装置は、マイク２０、音声入力部２２、分
析部２４、音素標準パターンファイル２６、ベクトル間
距離計算部８０、距離バッファ８１、累積距離計算部８
２、単語標準パターンファイル８４及び判定部８６を具
備する。

【００５７】ベクトル間距離計算部８０は、各音声フレ
ームの特徴ベクトルと音素標準パターンファイル２６に
登録されている各音素標準パターンとの各ベクトル間距
離を計算して、距離バッファ８１に書き込む。本実施形
態では、ベクトル間距離を計算する構成としているが、
勿論、ベクトル間類似度を計算してもよい。

【００５８】図１１は、図１０中の距離バッファ８１の
説明図である。図１１に示すように、Ｎ個の音声フレー
ムについて、各音素標準パターンのベクトル間距離を格
納する領域が確保されている。Ｎは単語の認識に必要と
される最大音声フレーム数である。例えば、音素標準パ
ターンがＭ個であるとすると、距離バッファ８１には、
Ｎ×Ｍ個のベクトル間距離を格納する領域９０＃ｉｊ
（ｉ＝１〜Ｎ，ｊ＝１〜Ｍ）が距離バッファ８２に確保
される。例えば、添え字ｉが１からＮまで、時間の新し
い順に距離ベクトルが対応するとすると、距離バッファ
８１には、領域９０＃ｉｊ（（ｉ＝Ｎ，ｊ＝１〜Ｍ），
（ｉ＝Ｎ−１，ｊ＝１〜Ｍ），…，（ｉ＝１，ｊ＝１〜
Ｍ））の順に距離ベクトルが書き込まれて、最新の領域
９０＃１ｊから９０＃Ｎｊの順にベクトル間距離が読み
出される。

【００５９】図１２は、単語標準パターンファイル８４
の説明図である。各単語標準パターン８４は、各単語標
準パターンの音素情報が音声の発生の順とは逆の順に格
納されている。例えば、単語標準パターン「ＫＡＷＡ
Ｉ」について、単語標準パターンファイル８４には、
「Ｉ」の音素情報、「ＷＡ」の音素情報、「ＫＡ」の音
素情報といった具合に、音声の発生の順とは逆の並びの
順になっている。

【００６０】累積距離計算部８２は、各フレーム周期毎
に、最新フレームをマッチングの始端フレーム、始端フ
レームから最大フレーム数までの区間に含まれる区間を
各音声区間とする。各音声区間について、単語標準パタ
ーンファイル８４に登録されている単語標準パターンの
各音素の並び情報に対応する各音素標準パターンのベク
トル間距離を最新フレームから順に読み出す。つまり、
距離バッファ８１の領域９０＃ｉｋ(ｊ)（ｊ＝１…，１
≦ｋ（ｊ）≦Ｍ）より時間的に後ろ向きに順次読み出
す。そして、各音声区間に応じて、ＤＰマッチング法や
ＨＭＭ法を用いて、読み出したベクトル間距離及び単語
標準パターンに対して、累積距離を計算する。

【００６１】このとき、単語標準パターンファイル８４
には、単語標準パターンの発生の順とは逆に音声情報が
並べられているので、累積距離計算部８２は、最新フレ
ームから順に距離ベクトルを読み出して累積計算を行っ
ても、正しい累積距離が計算される。判定部８６は、累
積距離計算部８２から出力される累積距離と閾値とを比
較して、累積距離が閾値よりも小さい場合に、該累積距
離に該当する単語が入力された音声であると認識する。

【００６２】次に、図１０の音声認識装置の動作説明を
する。

【００６３】マイク２０は、入力された音声を電気信号
に変換する。音声入力部２２は、マイク２０より入力さ
れた音声信号を増幅してＡ／Ｄ変換する。分析部２４
は、一定時間、例えば、１０〜２０ｍｓの音声フレーム
毎に、入力音声信号に対して、ケプストラム分析等の信
号処理を施して、所定次元、例えば、３４次元の特徴ベ
クトルを算出する。ベクトル間距離計算部８０は、分析
部２４により算出された各音声フレームの特徴ベクトル
と各音素標準パターンとのベクトル間距離（ユークリッ
ド距離）を計算する。そして、最新フレームのベクトル
間距離を距離バッファ８１に書き込む。

【００６４】累積距離計算部８２は、各フレーム周期毎
に、最新フレームをマッチングの始端フレーム、始端フ
レームから最大フレーム数までの区間に含まれる区間を
各音声区間とする。各音声区間について、単語標準パタ
ーンファイル８４に登録されている各単語標準パターン
に対して定義された音素の並びに対応する音素標準パタ
ーンのベクトル間距離を最新フレームから順に読み出
す。つまり、距離バッファ８１の領域９０＃ｉｋ(ｊ)
（ｊ＝１…，１≦ｋ（ｊ）≦Ｍ）より時間的に後ろ向き
に順次読み出す。そして、各音声区間に応じて、ＤＰマ
ッチング法やＨＭＭ法を用いて、読み出したベクトル間
距離及び単語標準パターンに対して、累積距離を計算す
る。

【００６５】このとき、図１３に示すように、最新フレ
ームを始端として始端を固定して、終端フリーで逆時間
方向に累積距離を計算するので、音声が存在する可能な
区間を音声区間とする図１４に示した普通のワードスポ
ットティングに比べて、演算量を削減できる。また、図
１５に示す最大フレーム数の音声が入力されないと音声
区間が確定されない終端フリーのように遅延τが発生す
ることがない。判定部８６は、各単語標準パターンの累
積距離と閾値とを比較して、単語標準パターンの累積距
離＜閾値ならば、入力音声が単語標準パターンの単語に
該当するものと判断する。

【００６６】以上説明した第３実施形態によれば、ワー
ドスポティングに比べて演算量を削減できる。しかも、
終端フリーの場合のように遅延が生じることがない。

【００６７】

【発明の効果】以上説明したように本発明によれば、入
力音声と標準パターンの比較にフレーム間距離を用いた
場合に雑音の影響を抑制して認識率を向上させることが
できる。また、雑音などの影響で入力音声と標準パター
ンのフレーム間類似度が低く又はフレーム間距離が大き
くなった場合にも音声を検出できる。更に、ワードスポ
ティング時の演算量を減らすと共に終端フリーでの遅延
量を少なくすることができる。

【図面の簡単な説明】

【図１】本発明の原理図である。

【図２】本発明の第１実施形態による音声認識装置の構
成図である。

【図３】環境雑音による影響を示す図である。

【図４】補正値計算部のフローチャートである。

【図５】図２中のベクトル間距離計算部、距離補正部及
び距離累積部の処理結果を示す図である。

【図６】本発明の第２実施形態による音声認識装置の構
成図である。

【図７】図６中の判定部及び候補判定部のフローチャー
トである。

【図８】図６中の制御部のフローチャートである。

【図９】図６の音声認識結果を示す図である。

【図１０】本発明の第３実施形態による音声認識装置の
構成図である。

【図１１】図１０中の距離バッファの説明図である。

【図１２】図１０中の単語標準パターンの説明図であ
る。

【図１３】図１０中の累積距離計算部の動作説明図であ
る。

【図１４】普通のワードスポッティングの問題点を説明
する図である。

【図１５】終端フリーの問題点を説明する図である。

【符号の説明】

２分析部４音素標準特徴パターン記憶部６ベクトル間距離計算部８平均値計算部１０補正値記憶部１２補正部１４単語標準パターン記憶部１６識別部

───────────────────────────────────────────────────── フロントページの続き (72)発明者中井丈裕神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内Ｆターム(参考） 5D015 BB02 HH04 HH15 LL02

Claims

【特許請求の範囲】

【請求項１】入力された音声を認識する音声認識装置
であって、複数の音素標準パターンの音素特徴ベクトルを予め記憶
する音素標準特徴パターン記憶部と、入力音声のフレーム毎に特徴ベクトルを算出する分析部
と、前記フレームの前記特徴ベクトルと前記各音素特徴ベク
トルとのベクトル間距離を音素毎に計算するベクトル間
距離計算部と、前記全ての音素についての前記ベクトル間距離の平均値
を前記フレーム毎に算出する平均値計算部と、前記音素毎に計算されたベクトル距離から前記フレーム
毎に算出された前記平均値を減算し、その減算したベク
トル距離を補正する補正部と、前記音素の並び情報を定義する単語標準パターンを記憶
する単語標準パターン記憶部と、前記補正されたベクトル間距離を累積して、累積ベクト
ル間距離と前記単語標準パターンとを比較して、音声認
識する識別部と、を具備したことを特徴とする音声認識装置。
【請求項２】入力された音声を認識する音声認識装置
であって、入力音声の特徴ベクトルを算出する分析部と、単語標準パターンの特徴ベクトルを予め記憶する単語標
準パターン記憶部と、前記入力音声の各区間の前記特徴ベクトルと前記単語標
準パターンとを比較して、前記各区間の入力音声につい
て、前記各単語標準パターンとの各第１類似度を計算す
る類似度算出部と、前記各第１類似度又は第１類似度間の計算結果と第１閾
値とを比較して、該第１類似度に該当する単語標準パタ
ーンの単語が入力音声に該当する単語であるか否かを判
定する第１判定部と、第２類似度又は第２類似度間の計算結果を記憶する候補
記憶部と、前記第１判定部により該当する単語であると判定されな
かった前記第１類似度又は第１類似度間の計算結果が前
記第１閾値よりも小さな値である第２閾値よりも大きく
且つ前記第２類似度又は第２類似度間の計算結果よりも
大きいとき、第１類似度又は第１類似度間の計算結果を
前記第２類似度又は第２類似度間の計算結果として、前
記候補記憶部に記憶する候補判定部と、前記第１判定部により所定時間内に該当する単語である
と判定されなかった場合、前記候補記憶部に記憶された
第２類似度又は第２類似度間の計算結果に基いて、第２
類似度に該当する単語標準パターンの単語が入力音声に
該当する単語であると判定する第２判定部と、を具備したことを特徴とする音声認識装置。
【請求項３】入力された音声を認識する音声認識装置
であって、入力音声の特徴ベクトルを算出する分析部と、単語標準パターンの特徴ベクトルを予め記憶する単語標
準パターン記憶部と、前記入力音声の各区間の前記特徴ベクトルと前記単語標
準パターンの特徴ベクトルとを比較して、前記各区間の
入力音声について、前記各単語標準パターンととの間の
各第１距離を計算する距離算出部と、前記各第１距離又は第１距離間の計算結果と第１閾値と
を比較して、該第１距離に該当する単語標準パターンの
単語が入力音声に該当する単語であるか否かを判定する
第１判定部と、第２距離又は第２距離間の計算結果を記憶する候補記憶
部と、前記第１判定部により該当する単語であると判定されな
かった前記第１距離又は第１距離間の計算結果が前記第
１閾値よりも大きな値である第２閾値よりも小さく且つ
前記第２距離又は第２距離間の計算結果よりも小さいと
き、第１距離又は第１距離間の計算結果を前記第２距離
又は第２距離間の計算結果として、前記候補記憶部に記
憶する候補判定部と、前記第１判定部により所定時間内に該当する単語である
と判定されなかった場合、前記候補記憶部に記憶された
第２距離又は第２距離間の計算結果に基いて、第２距離
に該当する単語標準パターンの単語が入力音声に該当す
る単語であると判定する第２判定部と、を具備したことを特徴とする音声認識装置。
【請求項４】入力された音声を認識する音声認識装置
であって、複数の音素標準パターンの音素特徴ベクトルを予め記憶
する音素標準パターン記憶部と、入力音声のフレーム毎に特徴ベクトルを計算する分析部
と、各フレームについて、各音素とのベクトル間距離を記憶
する距離記憶部と、前記フレームの前記特徴ベクトルと前記各音素特徴ベク
トルとの間のベクトル間距離を各音素毎に算出して、前
記距離記憶部に記憶するベクトル間距離計算部と、各単語について前記音素の並び情報を定義する単語標準
パターンを記憶する単語標準パターン記憶部と、最新ベクトル間距離から旧ベクトル間距離へと後ろ向き
に前記距離記憶部から前記ベクトル間距離を読み出し
て、前記各単語について、後ろ向きに累積距離を計算す
る累積距離計算部と、前記累積距離計算部が計算した累積距離に基いて、該累
積距離に該当する単語が入力された音声であるかを判定
する判定部と、を具備したことを特徴とする音声認識装置。
【請求項５】入力された音声を認識する音声認識装置
であって、複数の音素標準パターンの音素特徴ベクトルを予め記憶
する音素標準パターン記憶部と、入力音声のフレーム毎に特徴ベクトルを計算する分析部
と、各フレームについて、各音素との類似度を記憶する類似
度記憶部と、前記フレームの前記特徴ベクトルと前記各音素特徴ベク
トルとの間の類似度を各音素毎に算出して、前記類似度
記憶部に記憶する類似度計算部と、各単語について前記音素の並び情報を定義する単語標準
パターンを記憶する単語標準パターン記憶部と、最新類似度から旧類似度へと後ろ向きに前記類似度記憶
部から前記類似度を読み出して、前記各単語について、
後ろ向きに累積類似度を計算する累積類似度計算部と、前記累積類似度計算部が計算した累積類似度に基いて、
該累積類似度に該当する単語が入力された音声であるか
を判定する判定部と、を具備したことを特徴とする音声認識装置。