JPH04362699A

JPH04362699A - 音声認識方法及び装置

Info

Publication number: JPH04362699A
Application number: JP3139092A
Authority: JP
Inventors: Atsushi Sakurai; 櫻井　穆; Junichi Tamura; 純一田村; Tetsuo Kosaka; 哲夫小坂; Hiroshi Matsuo; 松尾　広
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1991-06-11
Filing date: 1991-06-11
Publication date: 1992-12-15
Anticipated expiration: 2015-07-17
Also published as: JP3066920B2; US5621849A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ワードスポッティング
法を用いて入力音声における単語区間の検出と単語の認
識を同時に行う音声認識方法及び装置に関する。

【０００２】

【従来の技術】音声認識の手法として、例えば連続ＤＰ
法のような、音声区間の検出と認識処理とを同時に行う
ワードスポッティング法が提唱されている。

【０００３】このワードスポッティング法は、スペクト
ル等の音声の特徴からなる単語標準パタンを１フレーム
ずつ入力音声に対してスライドさせながらマッチング処
理を行い、各標準パタンにおいてマッチング処理の演算
結果であるスコアが最小値をとる点により、その単語の
存在すると思われる区間が検出され、あとは全ての標準
パタンのスコアの最小値を比較して認識結果を得る方法
である。

【０００４】

【発明が解決しようとしている課題】しかし、この従来
行われていたワードスポッティング法では、ある標準パ
タンを構成する音韻列が、より音韻数の多い他の標準パ
タンの音韻列の一部と完全に一致する場合には、原理的
に誤認識を避けられないという欠点がある。例えば、標
準パタンとして／ｋｕ／の他に／ｒｏｋｕ／がある場合
、入力音声が／ｒｏｋｕ／ならば、標準パタン／ｋｕ／
も標準パタン／ｒｏｋｕ／も入力音声の一部又は全部と
完全に一致するので、マッチング処理の結果、両パタン
は残りの標準パタンよりも高いスコアを示すが、入力音
声が正常に発声されている限り、両パタンの示すスコア
に明確な差はなく、入力音声の僅かな変動により／ｒｏ
ｋｕ／が第一位になったり、／ｋｕ／が第一位になった
るする。すなわち、従来例では、ワードスポッティング
法の原理的な欠陥により、入力音声が正常に発声されて
いても、誤認識を避けられないという欠点があった。

【０００５】

【課題を解決するための手段】上記課題を解決する為に
、本発明は音声標準パタンを記憶する標準パタン記憶手
段と、音声情報を入力する音声入力手段と、前記音声入
力手段により入力した音声情報と前記標準パタン記憶手
段に記憶される音声標準パタンの相違度を演算する演算
手段と、前記演算手段による相違度に音声標準パタンの
長さの重みを付加する相違度修正手段とを有することを
特徴とする音声認識装置を提供する。

【０００６】上記課題を解決する為に、本発明は、音声
標準パタンを記憶し、音声情報を入力し、前記音声入力
する音声情報と前記音声標準パタンの相違度を演算し、
前記相違度に音声標準パタンの長さの重みを付加するこ
とを特徴とする音声認識方法を提供する。

【０００７】上記課題を解決する為に、本発明は好まし
くは前記演算結果に付加する音声標準パタンの長さの重
みは、長さが長いほど相違度が小さくなるようにする。

【０００８】上記課題を解決する為に、本発明は好まし
くは前記演算手段はワードスポッティングを用いる。

【０００９】

【実施例】図１は本発明の一実施例を示すブロック図で
、１は音声の入力端子、２はＡ／Ｄ変換部、３は特徴パ
ラメータ分析部、４は認識部、５は認識部４が認識処理
の際使用する単語辞書、６は本発明に係わるスコア修正
部、７は補助記憶装置、８は認識結果の出力端子である
。

【００１０】入力端子１より入力された音声は、Ａ／Ｄ
変換部２でＡ／Ｄ変換された後分析部３においてフレー
ム周期１０ｍｓで分析され、ＬＰＣケプストラム係数ベ
クトルの時系列に変換される。認識部４では、補助記憶
装置７を使いながら上記ＬＰＣケプストラム係数ベクト
ルの時系列と、単語辞書５に収納されている単語標準パ
タンとのマッチングを行う。本実施例においては、図２
に示す１７個の単語の認識を目的とする例について述べ
るので、単語辞書５には、図２で示す１７個の単語の標
準パタンが可変長で収納されている。なお、この単語辞
書５に格納しておけば、本発明の実施は、この１７個の
単語に限るものではないとは言うまでもない。本実施例
は不特定話者対象の音声認識装置で、距離尺度としてマ
ハラノビス距離を使用するので、単語辞書５に格納され
る各単語標準パタンは、図３で示すように、複数話者の
発声した単語音声をフレーム周期１０ｍｓで分析してＬ
ＰＣケプストラム係数ベクトルに変換し、フレーム数を
正規化した後フレーム毎に平均ベクトルｍｉと分散共分
散行列Σ−１ｊとを求めたものである。

【００１１】ここで、従来から行われているワードスポ
ッティング法について説明する。

【００１２】分析部３により生成された上記ＬＰＣケプ
ストラム係数ベクトルの時系列｛ｘｉ｝と単語辞書５内
の単語標準パタンとのマッチングが、認識部４によって
連続ＤＰを用いた以下の手順で行われる。

【００１３】まず、ワードスポッティングに用いる式を
示す。

【００１４】

【外１】但し、ｉ：入力音声のフレーム番号ｊ：標準パタンのフレーム番号ｘｉ：ｉフレームにおける入力ベクトルｍｉ：ｊフレー
ムにおける平均ベクトルΣ−１ｊ：ｊフレームにおける
分散共分散行列

【００１５】上記の式を用いて以下の手
順でワードスポッティングが行われる。なお、ＤＰパス
の形状は図４に示すとおりである。１）式（１）に従い
入力ベクトルｘｉと標準パタンの平均ベクトルｍｊとの
マハラノビス距離ｄ（ｉ，ｊ）を求める。２）式（２）に従い、累積距離ｐ（ｉ，ｊ）を求める。３）式（３）に従い、最適経路長ｃ（ｉ，ｊ）を求める
。４）１）から３）までを、単語標準パタンの先頭フレー
ムから最終フレームまで繰り返す。５）式（４）により、入力ベクトルｘｉと、単語標準パ
タンとのＤＰ値Ｄ（ｉ）を求める。但しＪは、各単語標準パタンの最終フレーム番号を示す
。６）１）から５）までを、入力音声の先頭フレームから
最終フレームまで繰り返す。７）各単語標準パタン毎にＤＰ値の最小値を求め、入力
音声に対する各単語標準パタンのスコアとする。

【００１６】この単語区間の検出は、図５に示すように
、手順の（７）で説明した、各標準パタンのＤＰ値Ｄ（
ｉ）が最小値をとったところからバックトラックにより
ＤＰパスを決定することによって検出される。

【００１７】ここまで述べた方法が従来のワードスポッ
ティング法であるが、本実施例ではこの従来の方法の原
理的な欠陥を改善するために、スコア修正部６において
検出された音声区間の長さを利用したスコアの修正を行
う。

【００１８】図６は、横軸を時間、縦軸をスコアとし、
入力音声／ｒｏｋｕ／に対する単語標準パタンのマッチ
ングスコアを、ワードスポッティングにより決定された
単語区間と共に示したものであり、スコアの修正の行わ
れていない従来の方法である。リジェクトするか否かを
決定する閾値は、４．００であり、この値よりも小さな
スコアの単語がない場合は、リジェクトとする。図６に
よれば、単語標準パタン／ｒｏｋｕ／はワードスポッテ
ィングにより入力音声中から／ｒｏｋｕ／の音声区間を
正しく検出し、スコアも閾値以下の３．５１を示してい
るにもかかわらず、単語標準パタン／ｋｕ／が入力音声
／ｒｏｋｕ／の一部／ｋｕ／とマッチングして第１位の
スコア３．３４を示しているために、従来例では正解と
して／ｋｕ／が選択され、結果は誤認識になる。しかし
、ワードスポッティングの結果切り出された音声区間に
着目すると、音節数の多い単語標準パタン／ｒｏｋｕ／
の方が１音節の単語標準パタン／ｋｕ／より音声区間長
が長い。本実施例ではこの点に着目し、スコア第１位の
音声区間長を基準とし、第２位以下のスコアを各単語標
準パタンの検出した音声区間長に逆比例する方向で修正
する。即ち、検出した音声区間長の長いものほどスコア
が良くなるように修正する。

【００１９】図７のフローチャートにより、スコア修正
部６によるスコア修正処理の手順を説明する。但し、ｉ
は補助変数、ａは決定されたスコア修正係数、ｌｉは第
ｉ位の音声区間長、ｃは音声区間長調整係数、ｄｉは第
ｉ位の修正前スコア、ｄ′ｉは第ｉ位の修正後のスコア
を表し、補助記憶装置７を用いて処理が行われる。Ｓ１）補助変数ｉに、数値２を設定する。Ｓ２）スコア第１位の音声区間長ｌｉをスコア第ｉ位の
音声区間長ｌｉと音声区間長調整係数ｃとの乗算結果で
除算し、結果をａに入れる。Ｓ３）第ｉ位のスコアｄｉに修正係数ａを乗じ、結果を
ｄ′ｉに入れる。Ｓ４）補助係数ｉに数値１を加える。Ｓ５）補助係数ｉが数値１７より大きいかどうか調べ、
大きくなかったらＳ２に戻る。大きければ、処理を終了
する。

【００２０】図８は、入力音声／ｒｏｋｕ／に対する認
識部４からの出力に対し、スコア修正部６が図７のフロ
ーチャートに基づき行った修正処理の結果を示している
。処理の詳細を図７のフローチャートに基づき説明する
。ここで音声区間長調整係数ｃは、十分長い音声区間を
有する単語標準パタンのスコアを改善するために設けた
もので、ここではｃ＝０．６０とし、音声区間長がスコ
ア第１位のものの５／３以上の時スコア改善の効果が現
れるように設定されている。Ｓ１）で、補助変数ｉに数値２を設定する。Ｓ２）で、ａ＝７０／（１６５×０．６０）より、修正
係数としてａ＝０．７１を得る。Ｓ３）で、ｄ′２＝３．５１×０．７１より、第２位に
対する修正スコアｄ′２を得る。

【００２１】以下同様にして第３位以下の修正スコアを
計算すると図８の「修正後のスコア」欄で示す結果とな
り、スコア修正後の順位は、単語標準パタン／ｒｏｋｕ
／がスコア２．４８で第１位である。この結果によりス
コア修正部６は、第１位のスコア２．４８で第１位であ
る。この結果によりスコア修正部６は、第１位のスコア
を示す単語標準パタン／ｒｏｋｕ／の単語番号１０を出
力端子９から出力して認識処理は完了する。即ち、従来
例での誤認識は本発明により防ぐことができる。

【００２２】次に入力音声の音声区間長が短い例につい
て説明する。図９は、横軸を時間、縦軸をスコアとし、
入力音声／ｋｕ／に対する単語標準パタンのマッチング
スコアを、ワードスポッティングにより決定された単語
区間と共に示したものである。リジェクトの閾値はやは
り４．００である。図１０によれば、単語標準パタン／
ｋｕ／はワードスポッティングにより入力音声中から／
ｋｕ／の音声区間を正しく検出し、スコアも閾値以下の
３．８４を示している。このマッチング処理の結果に対
し、スコア修正部６が図７に示すフローチャートに従っ
て行ったスコア修正作業の結果を図１０に示す。入力音
声の継続時間長が短いので、ワードスポッティングの結
果決定された音声区間長は何れも十分な長さを持たず、
修正後も第１位と第２位以下とのスコアの逆転は生じて
いない。即ち入力音声の音節数が多い場合に限り、音声
区間長を手掛かりとしたスコア修正の効力を発揮するこ
とになる。

【００２３】また、ここまでは、不特定話者を対象とし
た音声認識装置について本発明の効果を説明したが、本
発明は特定話者対象の音声認識装置についても同様の効
果を発揮する。すなわち、図１における単語辞書５に収
納する単語標準パタンを図１１に示す様に特定話者音声
のスペクトルを表すベクトル時系列とし、距離尺度とし
て（５）式で示すユークリッド距離や（６）式で示す市
街地距離を、（１）式で示すマハラノビス距離の代りに
使用すれば、第一の実施例とまったく同じ手順で特定話
者に対するワードスポッティング法の改善が実現できる
。

【００２４】

【外２】

【００２５】また、先の説明では音声の特徴を表すパラ
メータとしてＬＰＣケプストラス係数を使用したが、本
発明の効果は音声の特徴を表すパラメータであれば種類
の如何を問わず有効である事は明らかである。

【００２６】

【発明の効果】以上説明したように、本発明によれば標
準パタンによるワードスポッティングの結果検出された
音声区間の長さに対応して、マッチングのスコアを標準
パタンの長さが長い程を高くするように修正することに
より、ワードスポッティングの原理的な欠陥を改善し、
音声認識の認識率を高めるという効果が得られる。

【図面の簡単な説明】

【図１】本発明を実施した音声認識装置のブロック図。

【図２】単語辞書に登録してある単語の一覧表例示図。

【図３】単語標準パタンの構成の第２の例示図。

【図４】ＤＰパスの形状例示図。

【図５】音声区間検出を説明する為の図。

【図６】ワードスポッティングによる音声区間検出とス
コアを示す図。

【図７】音声区間長を利用したスコア補正の手順を示す
フローチャート。

【図８】スコア修正の結果を例示する図。

【図９】短い音声入力音声に対する音声区間検出とスコ
アを示す図。

【図１０】短い入力音声に対するスコア修正の結果を例
示する図。

【図１１】単語標準パタンの構成の第２の例示図。

Claims

【特許請求の範囲】

【請求項１】　　音声標準パタンを記憶する標準パタン
記憶手段、音声情報を入力する音声入力手段、前記音声
入力手段より入力した音声情報と前記標準パタン記憶手
段に記憶される音声標準パタンの相違度を演算する演算
手段、前記演算手段による相違度に音声標準パタンの長
さの重みを付加する相違度修正手段を有することを特徴
とする音声認識装置。
【請求項２】　　前記相違度修正手段が演算結果に付加
する音声標準パタンの長さの重みは、長さが長いほど相
違度が小さくなるようにすることを特徴とする請求項１
に記載の音声認識装置。
【請求項３】　　前記演算手段はワードスポッティング
を用いることを特徴とする請求項１に記載の音声認識装
置。
【請求項４】　　音声標準パタンを記憶し、音声情報を
入力し、前記音声入力する音声情報と前記音声標準パタ
ンの相違度を演算し、前記相違度に音声標準パタンの長
さの重みを付加することを特徴とする音声認識方法。
【請求項５】　　前記演算結果に付加する音声標準パタ
ンの長さの重みは、長さが長いほど相違度が小さくなる
ようにすることを特徴とする請求項４に記載の音声認識
方法。
【請求項６】　　前記相違度の演算はワードスポッティ
ングを用いることを特徴とする請求項４に記載の音声認
識方法。