JP2001312293A

JP2001312293A - 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2001312293A
Application number: JP2000129132A
Authority: JP
Inventors: Maki Yamada; 麻紀山田; Masakatsu Hoshimi; 昌克星見
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-04-28
Filing date: 2000-04-28
Publication date: 2001-11-09

Abstract

(57)【要約】【課題】本発明は音声認識技術に関するものであり、
認識性能を落とすことなく少ない計算量で音声の認識を
行うことを目的とする。【解決手段】認識対象語彙セットの音素表記の特徴の
似ている音素をマージした音素表記列を認識の最小単位
である音声片列に変換しこれを音素マージ音声片ツリー
に展開するステップと、前記音素マージ音声片ツリーに
従って、あらかじめ求めておいた音声の特徴を表す標準
パターンを接続し、これと未知入力音声信号の特徴ベク
トル時系列との照合を、ビームサーチを用いたＤＰマッ
チングにより時間整合を取りながら行う照合ステップ
と、結果が一意に決まらなかった場合に、再照合用音声
片ツリーに従って標準パターンを接続し、これと未知入
力音声との照合を行い認識結果を出力するステップを有
するもので、認識性能を落とすことなく少ない計算量で
音声の認識を行うことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ビームサーチを用
いたDPマッチングを用いた音声認識方法およびその装
置、並びにコンピュータ読み取り可能な記憶媒体に関す
るものである。

【０００２】

【従来の技術】認識対象となる音声の特徴を表現した標
準パターンと、未知入力音声信号の特徴ベクトル時系列
との照合を、ビームサーチを用いたDPマッチングにより
時間整合を取りながら行い認識する音声認識方法とし
て、日本音響学会講演論文集,平成9年9月,3-1-4「音素
の特徴点に着目した大語彙不特定話者音声認識法」が知
られている。

【０００３】図１６は、従来の音声認識装置のコンピュ
ータを用いた構成図を示すものである。図１６におい
て、１は音声を取り込むマイク、２はＡ／Ｄ、３はイン
タフェース（Ｉ／Ｆ）、４はメモリ、５はＣＰＵ、６は
キーボード／ディスプレイ、７はＣＰＵバス、８はＩ／
Ｆ、９は出力、１０は認識対象語彙セット、１５は音声
片標準パターン、１９は音声片ツリーである。

【０００４】上記のように構成された従来の音声認識装
置の動作を図１７のフローチャートを用いて説明する。
まず最初に、従来例における認識辞書にあたる音声片ツ
リー１９について、図３、図４を参照しながら説明をす
る。

【０００５】標準パターンの単位として、音素片、音
素、音節、ＣＶ／ＶＣ（子音＋母音／母音＋子音）、Ｖ
ＣＶ、ＣＶＣなどが考えられる。これら認識の最小単位
を音声片と呼ぶ。従来例では、子音の始端から母音中心
までを表すＣＶと、母音中心から母音終端までを表すＶ
Ｃ、母音中心から母音中心までを表すＶＶを基本の単位
とする。ＶＣは母音区間しか含まないが、後続子音によ
り異なるＶＣと定義する。

【０００６】たとえば、認識対象語彙を「きりはら」
「きりゅう」「ちり」「ちりゅう」「めぐろ」「めむ
ろ」「ねむろ」「ふちゅう」の８単語としたとき、これ
らを音声片列で表すと、図４のようになる。

【０００７】これを単純なツリー構造で表したものが図
３である。これを音声片ツリーと定義する。ここでは、
アークに音声片を割り当てたが、ノードに割り当てるこ
ともできる。語彙の終端にあたるノードには、その語彙
の終端であることがわかるようにしておく。このような
ノードをリーフノードと定義する。図３ではリーフノー
ドを黒丸で表している。また、ツリーの深さを、根から
数えて第１段、第２段、…と数えるとする。

【０００８】以下、従来例について、図１７のフローチ
ャートを参照しながらその動作を説明する。

【０００９】音声片標準パターン１５は、あらかじめ多
数話者が発声した学習データから学習し、音声片毎に求
めておく。本従来例では、特徴パラメータベクトルの出
現確率が複数のガウス分布の和（これを混合分布と呼
ぶ）で近似できると仮定し、学習データから、標準パタ
ーンのフレームごとにガウス分布の平均値ベクトルおよ
び共分散行列を求め、これを音声片標準パターン１５と
する。

【００１０】音声片ツリー１９は、あらかじめ認識対象
語彙セット１０から、ツリー展開処理Ｓ０６において作
成しておく。

【００１１】まず、音響分析処理Ｓ０１は、入力された
未知音声信号を分析時間（以下フレームと呼ぶ）毎にＮ
個の特徴パラメータに変換される。特徴パラメータとし
ては、線形予測分析によるＬＰＣケプストラム係数、Ｌ
ＰＣメルケプストラム係数、メル線形予測分析によるメ
ルＬＰＣケプストラム係数、メルスケールフィルタバン
クによるメル周波数ケプストラム係数（ＭＦＣＣ）な
ど、音声認識に適したものならばどのようなものを用い
ても良い。

【００１２】照合処理Ｓ０２では、音声片ツリー１９に
したがって音声片標準パターン１５を接続しながら、上
記未知入力音声の特徴パラメータ時系列と標準パターン
との照合を行う。照合は、入力フレーム同期のビームサ
ーチを用いたＤＰマッチングにより行う。照合の結果最
も累積スコアの高かったリーフノードを求め、このリー
フノードに対応する語彙を認識結果として出力する。

【００１３】以下に、ＤＰマッチングによる照合と、ビ
ームサーチによる枝刈りのアルゴリズムについて説明す
る。

【００１４】ＤＰマッチングは、入力音声と標準パター
ンの時間整合をとりながら照合する方法である。第ｊ番
目の入力フレームと、音声片ツリーの第ｋ番目のアーク
に対応する音声片ｍの標準パターンの第ｉ番目のフレー
ムとの累積スコアＬ（ｉ，ｋ；ｊ）は、次の漸化式で表
される。ただしｄ（ｉ，ｍ；ｊ）は入力の第ｊフレーム
と音声片ｍの標準パターンの第ｉフレームとの距離であ
る。

【００１５】

【数１】

【００１６】発声終了時に、リーフノードの累積スコア
（終端アークの終端フレームにおける累積スコア）で最
も大きいものが認識結果のスコアとなる。

【００１７】ビームサーチは、ＤＰマッチングの際スコ
アの低い経路は計算せずに、スコアの高い経路だけを伸
張させながら計算していく手法である。累積スコアの低
い経路であるかどうかは、入力と辞書の格子点における
累積スコアの値が、その１フレーム前の時刻の最大累積
スコアに比べ一定値（ビーム幅）以上低くなっているか
どうかで判定する。累積スコアの低い格子点は枝刈り
し、それ以外の格子点を候補として残していく。以下に
そのアルゴリズムを示す。

【００１８】入力フレーム同期に、以下の式にしたがっ
て、格子点（ｉ，ｋ；ｊ）を枝刈るか、候補として残す
かの次の式によって判定をしながらＤＰパスを伸ばして
いくものである。

【００１９】

【数２】

【００２０】ビームサーチを用いたDPマッチングでは、
発声開始付近ではまだどの候補も大きなスコアの差がつ
かないため、枝刈りはあまり行われない。そして発声後
しばらくすると、発声内容とかけ離れた候補が枝刈りさ
れはじめる。

【００２１】一方、認識対象語彙数が多い場合、語頭付
近の音声片の種類数は非常に多くなる。そのため上記従
来法の構成では、音声片ツリーは第１段目から大きく広
がってしまい、発声開始付近では、照合のために非常に
多くの経路について計算しなくてはならなくなってしま
う。これはすなわち、発声開始付近では探索空間が広い
と言える。

【００２２】したがって、発声開始付近では、探索空間
が広い上に枝刈りがあまりなされないために、格子点候
補数は爆発的にに増えてしまう。発声開始からしばらく
すると、探索空間は広くても、枝刈りが多くなされるよ
うになるため、格子点候補数は急激に減少する。

【００２３】従来法では、格子点候補数に比例して、認
識にかかる計算量も増大する。したがって、従来法では
認識にかかる計算量は図18のように時間変化する。図18
を見てわかるとおり、発声開始付近での計算量は極端に
多くなり、全体の計算量を削減するためには、発声開始
付近での計算量を削減することが肝要である。

【００２４】単純に発声開始付近でのビーム幅を狭める
ことによっても発声開始付近での計算量を削減すること
はできるが、その場合正解候補が枝刈られやすくなる。
発声開始付近では発声の言いよどみなどが起こりやす
く、語頭のスコアが悪いというだけで枝刈りをしてしま
うのは問題である。

【００２５】

【発明が解決しようとする課題】しかしながら上記の従
来の構成では、発声開始付近で計算量が極端に多くなる
という課題を有していた。

【００２６】本発明は、上記従来の課題を解決するもの
で、正解パスが枝刈られないようにしつつ語頭付近の探
索空間を小さくするまたは語頭付近での照合にかかる計
算量を削減する、すなわち認識性能を落とさずに全体の
計算量を削減することを目的とする。

【００２７】

【課題を解決するための手段】この課題を解決するため
に、本発明は、音声片ツリーの語頭付近の広がりを狭め
た音素マージ音声片ツリーを用いることによって格子点
候補数を削減する、または音声片ツリーの語頭付近にお
ける音声片標準パターンの精度を粗くしたラフ音声片ツ
リーを用いることによって照合にかかる計算量を削減す
る。

【００２８】これは、ビームサーチで計算量の多い発声
の前半部分は粗い照合を、ビームサーチで計算量の少な
くなる後半部分は精密な照合をするという考え方に基づ
くものである。

【００２９】これにより、発声開始付近での計算量が削
減し、認識性能を落とさずに計算量を削減することがで
きる。

【００３０】

【発明の実施の形態】本発明の請求項1に記載の発明
は、未知入力音声信号を音響分析し特徴ベクトル時系列
を求めるステップと、認識対象語彙セットの音素表記の
特徴の似ている音素をマージした音素表記列を認識の最
小単位である音声片列に変換し、これを音素マージ音声
片ツリーに展開するステップと、前記音素マージ音声片
ツリーに従って、あらかじめ求めておいた音声の特徴を
表す音素マージ音声片標準パターンを接続し、これと未
知入力音声信号の特徴ベクトル時系列との照合を、ビー
ムサーチを用いたＤＰマッチングにより時間整合を取り
ながら行うステップと、照合結果が一意に決まる場合に
認識結果を出力するステップと、照合結果が一意に決ま
らなかった場合に、再照合を行う候補となる認識対象語
彙を抽出するステップと、再照合用の音声片ツリーを展
開するステップと、再照合用音声片ツリーに従って音声
片標準パターンを接続し、これと未知入力音声との照合
を、ビームサーチを用いたＤＰマッチングにより時間整
合を取りながら行い認識結果を出力するステップとを有
するものであり、音素をマージすることにより音声片ツ
リーの広がりが小さくなるため、探索空間が小さくなり
1回目の照合にかかる計算量を大幅に削減することがで
き、再照合を行ったとしても全体の計算量を削減できる
という作用を有する。さらに１回目の照合では音素マー
ジを行うことにより特徴の似ている語彙は区別せずに認
識を行うため1回目の照合で正解候補が漏れる可能性が
低いという利点がある。

【００３１】請求項２に記載の発明は、請求項１記載の
音声認識方法において、音素マージ音声片ツリーに展開
するステップは、認識対象語彙セットの音素表記の語頭
から第N番目の音素までのうち特徴の似ている音素をマ
ージした音素表記列を認識の最小単位である音声片列に
変換し、これを音素マージ音声片ツリーに展開すること
を特徴とするものであり、語頭から第N番目の音素まで
のうち特徴の似ている音素をマージすることにより、特
に探索空間の広い語頭付近のツリーの広がりを狭めるこ
とができるため、探索空間が小さくなり1回目の照合に
かかる計算量を大幅に削減することができ、再照合を行
ったとしても全体の計算量を削減できるという作用を有
する。さらに１回目の照合では音素マージを行うことに
より特徴の似ている語彙は区別せずに認識を行うため1
回目の照合で正解候補が漏れる可能性が低いという利点
がある。

【００３２】請求項３に記載の発明は、請求項１または
２記載の音声認識方法において、音素のマージは、子音
を音素群毎にまとめてマージすることを特徴とするもの
であり、カテゴリー数が多く比較的認識が難しい子音を
音響特徴の似通った音素群毎にまとめてマージするた
め、マージによる誤差が小さく認識性能を落とさずに効
率よく計算量削減することができるという作用を有す
る。

【００３３】請求項４に記載の発明は、未知入力音声信
号を音響分析し特徴ベクトル時系列を求めるステップ
と、認識対象語彙セットの音素表記列の語頭から第N番
目の音素までを、精度の粗い音声片標準パターンを持つ
ラフ音声片の系列に変換し、第N番目以降の音素を精密
な音声片標準パターンを持つ精密音声片の系列に変換
し、これをラフ音声片ツリーに展開するステップと、前
記ラフ音声片ツリーに従って、あらかじめ求めておいた
音声の特徴を表す音声片標準パターンおよび音素マージ
音声片標準パターンを接続し、これと未知入力音声信号
の特徴ベクトル時系列との照合を、ビームサーチを用い
たＤＰマッチングにより時間整合を取りながら行うステ
ップと、照合の結果から再照合を行う候補となる認識対
象語彙を抽出するステップと、再照合用の音声片ツリー
を展開するステップと、再照合用音声片ツリーに従って
精密な音声片標準パターンを接続し、これと未知入力音
声との照合を、ビームサーチを用いたＤＰマッチングに
より時間整合を取りながら行い認識結果を出力するステ
ップとを有するものであり、語頭付近での1回目の照合
では音声片ツリーの前半部分は精度の粗いラフ音声片標
準パターンを用いるため、1回目の照合にかかる計算量
を大幅に削減することができ、再照合を行っても全体の
計算量を削減できるという作用を有する。また再照合を
行うことにより認識性能を落とさずに認識することがで
きる。

【００３４】請求項５に記載の発明は、未知入力音声信
号を音響分析し特徴ベクトル時系列を求めるステップ
と、認識対象語彙セットの音素表記列の語頭から第N番
目の音素までを、精度の粗い音声片標準パターンを持つ
ラフ音声片の系列に変換し、第N番目以降の音素を精密
な音声片標準パターンを持つ精密音声片の系列に変換
し、これをラフ音声片ツリーに展開するステップと、前
記ラフ音声片ツリーに従って、あらかじめ求めておいた
音声の特徴を表す音声片標準パターンおよび音素マージ
音声片標準パターンを接続し、これと未知入力音声信号
の特徴ベクトル時系列との照合を、ビームサーチを用い
たＤＰマッチングにより時間整合を取りながら行い認識
結果を出力するステップとを有するものであり、音声片
ツリーの前半部分のみ精度の粗いラフ音声片標準パター
ンを用いて照合し、再照合をしないため、計算量は大幅
に削減できるという作用を有する。音声片の標準パター
ンの精度を粗くするのは探索空間の広い語頭付近だけで
あるため、一律に音声片の標準パターンの精度を粗くす
るよりも効率的に計算量削減することができる。

【００３５】請求項６に記載の発明は、請求項４または
５記載の音声認識方法において、精度を粗い音声片の標
準パターンは、ラフ音声片１つの音声片あたりにかかる
距離計算量を精密音声片１つあたりにかかる計算量に比
べ削減することを特徴とするものであり、１つの音声片
あたりにかかる距離計算量を削減する処理を設けること
により、容易に計算量を削減することができるという作
用を有する。

【００３６】請求項７に記載の発明は、請求項４または
５記載の音声認識方法において、精度を粗い音声片の標
準パターンは、認識結果が一意に決まる範囲内で、異な
る音韻環境の音声片をマージすることを特徴とするもの
であり、認識結果が一意に決まる範囲内で、異なる音韻
環境の音声片をマージする処理を設けることにより、語
頭付近の探索空間が狭まり効率よく計算量を削減するこ
とができるという作用を有する。

【００３７】請求項８に記載の発明は、請求項６記載の
音声認識方法において、音声片の距離計算量にかかるコ
ストの削減は、ラフ音声片標準パターンのフレーム数を
少なくすることを特徴とするものであり、音声片標準パ
ターンのフレーム数を削減する処理を設けることによ
り、容易に計算量を削減することができるという作用を
有する。

【００３８】請求項９に記載の発明は、請求項６記載の
音声認識方法において、音声片の距離計算にかかるコス
トの削減は、特徴パラメータベクトルの出現確率が複数
のガウス分布の和、すなわちガウス分布の混合分布で近
似できると仮定したとき、ラフ音声片標準パターンのガ
ウス分布の混合数を少なくすることを特徴とするもので
あり、音声片標準パターンのガウス分布の混合数を削減
する処理を設けることにより、容易に計算量を削減する
ことができるという作用を有する。

【００３９】請求項１０に記載の発明は、請求項９記載
の音声認識方法において、音声片の距離計算にかかるコ
ストの削減は、特徴パラメータベクトルの出現確率が複
数のガウス分布の和、すなわちガウス分布の混合分布で
近似できると仮定したとき、ラフ音声片標準パターンの
ガウス分布の共分散行列の種類数を少なくすることを特
徴とするものであり、音声片標準パターンのガウス分布
の共分散行列を共通化する処理を設けることにより、容
易に計算量を削減することができるという作用を有す
る。

【００４０】請求項１１に記載の発明は、請求項１、
４、５のいずれかに記載の音声認識方法において、再照
合の際、未知入力音声の前半部分とのみ照合を行い認識
結果を出力することを特徴とするものであり、未知入力
音声の前半部分とのみ照合を行い認識結果を出力する処
理を設けることにより、再照合する区間が短くてすむた
め、再照合にかかる計算量を抑えることができるという
作用を有する。

【００４１】請求項１２に記載の発明は、請求項１、
４、５のいずれかに記載の音声認識方法において、再照
合の際、未知入力音声の発声区間すべてと照合を行い認
識結果を出力することを特徴とするものであり、未知入
力音声の発声区間すべてと照合を行い認識結果を出力す
る処理を設けることにより、より精密な再照合が行える
ため認識性能の劣化が少なくてすむという作用を有す
る。

【００４２】請求項１３に記載の発明は、請求項１、
４、５のいずれかに記載の音声認識方法において、未知
入力音声の発声区間を特定せず、異なる始端を認める連
続DPマッチングを用いたことを特徴とするものであり、
発声区間を特定しなくても、認識することができるとい
う作用を有する。

【００４３】請求項１４に記載の発明は、未知入力音声
信号を音響分析し特徴ベクトル時系列を求める音響分析
手段と、認識対象語彙セットの音素表記の特徴の似てい
る音素をマージした音素表記列を認識の最小単位である
音声片列に変換し、これを音素マージ音声片ツリーに展
開するツリー展開手段と、前記音素マージ音声片ツリー
に従って、あらかじめ求めておいた音声の特徴を表す音
素マージ音声片標準パターンを接続し、これと未知入力
音声信号の特徴ベクトル時系列との照合を、ビームサー
チを用いたＤＰマッチングにより時間整合を取りながら
行う照合手段と、照合結果が一意に決まるか否かを判定
し、一意に決まる場合に認識結果を出力する判定手段
と、照合結果が一意に決まらなかった場合に、再照合を
行う候補となる認識対象語彙を抽出する再照合候補抽出
手段と、再照合用の音声片ツリーを展開する再照合用ツ
リー展開手段と、再照合用音声片ツリーに従って音声片
標準パターンを接続し、これと未知入力音声との照合
を、ビームサーチを用いたＤＰマッチングにより時間整
合を取りながら行い認識結果を出力する再照合手段とを
有するもので、音素をマージすることにより音声片ツリ
ーの広がりが小さくなるため、探索空間が小さくなり1
回目の照合にかかる計算量を大幅に削減することがで
き、再照合を行ったとしても全体の計算量を削減できる
という作用を有する。

【００４４】請求項１５に記載の発明は、未知入力音声
信号を音響分析し特徴ベクトル時系列を求める音響分析
手段と、認識対象語彙セットの音素表記列の語頭から第
N番目の音素までを、精度の粗い音声片標準パターンを
持つラフ音声片の系列に変換し、第N番目以降の音素を
精密な音声片標準パターンを持つ精密音声片の系列に変
換し、これをラフ音声片ツリーに展開するツリー展開手
段と、前記ラフ音声片ツリーに従って、あらかじめ求め
ておいた音声の特徴を表す音声片標準パターンおよび音
素マージ音声片標準パターンを接続し、これと未知入力
音声信号の特徴ベクトル時系列との照合を、ビームサー
チを用いたＤＰマッチングにより時間整合を取りながら
行う照合手段と、照合の結果から再照合を行う候補とな
る認識対象語彙を抽出する再照合候補抽出手段と、再照
合用の音声片ツリーを展開する再照合ツリー展開手段
と、再照合用音声片ツリーに従って精密な音声片標準パ
ターンを接続し、これと未知入力音声との照合を、ビー
ムサーチを用いたＤＰマッチングにより時間整合を取り
ながら行い認識結果を出力する再照合手段とを有するも
ので、語頭付近での1回目の照合では音声片ツリーの前
半部分は精度の粗いラフ音声片標準パターンを用いるた
め、1回目の照合にかかる計算量を大幅に削減すること
ができ、再照合を行っても全体の計算量を削減できると
いう作用を有する。

【００４５】請求項１６に記載の発明は、未知入力音声
信号を音響分析し特徴ベクトル時系列を求める音響分析
手段と、認識対象語彙セットの音素表記列の語頭から第
N番目の音素までを、精度の粗い音声片標準パターンを
持つラフ音声片の系列に変換し、第N番目以降の音素を
精密な音声片標準パターンを持つ精密音声片の系列に変
換し、これをラフ音声片ツリーに展開するツリー展開手
段と、前記ラフ音声片ツリーに従って、あらかじめ求め
ておいた音声の特徴を表す音声片標準パターンおよび音
素マージ音声片標準パターンを接続し、これと未知入力
音声信号の特徴ベクトル時系列との照合を、ビームサー
チを用いたＤＰマッチングにより時間整合を取りながら
行い認識結果を出力する照合手段とを有するもので、音
声片ツリーの前半部分のみ精度の粗いラフ音声片標準パ
ターンを用いて照合し、再照合をしないため、計算量は
大幅に削減できるという作用を有する。

【００４６】請求項１７に記載の発明は、プログラムさ
れたコンピュータによって音声を認識するプログラムを
記録した記録媒体であって、未知入力音声信号を音響分
析し特徴ベクトル時系列を求めるステップと、認識対象
語彙セットの音素表記の特徴の似ている音素をマージし
た音素表記列を認識の最小単位である音声片列に変換
し、これを音素マージ音声片ツリーに展開するステップ
と、前記音素マージ音声片ツリーに従って、あらかじめ
求めておいた音声の特徴を表す音素マージ音声片標準パ
ターンを接続し、これと未知入力音声信号の特徴ベクト
ル時系列との照合を、ビームサーチを用いたＤＰマッチ
ングにより時間整合を取りながら行うステップと、照合
結果が一意に決まる場合に認識結果を出力するステップ
と、照合結果が一意に決まらなかった場合に、再照合を
行う候補となる認識対象語彙を抽出するステップと、再
照合用の音声片ツリーを展開するステップと、再照合用
音声片ツリーに従って音声片標準パターンを接続し、こ
れと未知入力音声との照合を、ビームサーチを用いたＤ
Ｐマッチングにより時間整合を取りながら行い認識結果
を出力するステップとを有することを特徴とするコンピ
ュータ読み取り可能な記憶媒体であり、コンピュータに
読み込み実行するものであり、音素をマージすることに
より音声片ツリーの広がりが小さくなるため、探索空間
が小さくなり1回目の照合にかかる計算量を大幅に削減
することができ、再照合を行ったとしても全体の計算量
を削減できるという作用を有する。

【００４７】請求項１８に記載の発明は、プログラムさ
れたコンピュータによって音声を認識するプログラムを
記録した記録媒体であって、未知入力音声信号を音響分
析し特徴ベクトル時系列を求めるステップと、認識対象
語彙セットの音素表記列の語頭から第N番目の音素まで
を、精度の粗い音声片標準パターンを持つラフ音声片の
系列に変換し、第N番目以降の音素を精密な音声片標準
パターンを持つ精密音声片の系列に変換し、これをラフ
音声片ツリーに展開するステップと、前記ラフ音声片ツ
リーに従って、あらかじめ求めておいた音声の特徴を表
す音声片標準パターンおよび音素マージ音声片標準パタ
ーンを接続し、これと未知入力音声信号の特徴ベクトル
時系列との照合を、ビームサーチを用いたＤＰマッチン
グにより時間整合を取りながら行うステップと、照合の
結果から再照合を行う候補となる認識対象語彙を抽出す
るステップと、再照合用の音声片ツリーを展開するステ
ップと、再照合用音声片ツリーに従って精密な音声片標
準パターンを接続し、これと未知入力音声との照合を、
ビームサーチを用いたＤＰマッチングにより時間整合を
取りながら行い認識結果を出力するステップとを有する
ことを特徴とするコンピュータ読み取り可能な記憶媒体
であり、コンピュータに読み込み実行するもので、語頭
付近での1回目の照合では音声片ツリーの前半部分は精
度の粗いラフ音声片標準パターンを用いるため、1回目
の照合にかかる計算量を大幅に削減することができ、再
照合を行っても全体の計算量を削減できるという作用を
有する。

【００４８】請求項１９に記載の発明は、プログラムさ
れたコンピュータによって音声を認識するプログラムを
記録した記録媒体であって、未知入力音声信号を音響分
析し特徴ベクトル時系列を求めるステップと、認識対象
語彙セットの音素表記列の語頭から第N番目の音素まで
を、精度の粗い音声片標準パターンを持つラフ音声片の
系列に変換し、第N番目以降の音素を精密な音声片標準
パターンを持つ精密音声片の系列に変換し、これをラフ
音声片ツリーに展開するステップと、前記ラフ音声片ツ
リーに従って、あらかじめ求めておいた音声の特徴を表
す音声片標準パターンおよび音素マージ音声片標準パタ
ーンを接続し、これと未知入力音声信号の特徴ベクトル
時系列との照合を、ビームサーチを用いたＤＰマッチン
グにより時間整合を取りながら行い認識結果を出力する
ステップとを有することを特徴とするコンピュータ読み
取り可能な記憶媒体であり、コンピュータに読み込み実
行するもので、音声片ツリーの前半部分のみ精度の粗い
ラフ音声片標準パターンを用いて照合し、再照合をしな
いため、計算量は大幅に削減できるという作用を有す
る。

【００４９】以下、本発明の実施の形態について図を用
いて説明する。

【００５０】（実施の形態１）図１は、本発明の実施の
形態１における音声認識装置のブロック構成図であり、
以下に説明する。

【００５１】図１において、１は音声を取り込むマイ
ク、２はＡ／Ｄ、３はインタフェース（Ｉ／Ｆ）、４は
メモリ、５はＣＰＵ、６はキーボード／ディスプレイ、
７はＣＰＵバス、８はＩ／Ｆ、９は出力、１０は認識対
象語彙セット、１１は音素マージ音声片ツリー、１２は
ラフ音声片ツリー、１３は再照合用前半音声片ツリー、
１４は再照合用音声片ツリー、１５は音声片標準パター
ン、１６は音素マージ音声片標準パターン、１７はラフ
音声片標準パターン、１８は精密音声片標準パターンで
ある。

【００５２】まず最初に、実施の形態１における認識辞
書に当たる音素マージ音声片ツリー１１について、図
３、図４、図５を参照しながら説明をする。

【００５３】標準パターンの単位として、音素片、音
素、音節、ＣＶ／ＶＣ（子音＋母音／母音＋子音）、Ｖ
ＣＶ、ＣＶＣなどが考えられる。これら認識の最小単位
を音声片と呼ぶ。本実施の形態では、子音の始端から母
音中心までを表すＣＶと、母音中心から母音終端までを
表すＶＣ、母音中心から母音中心までを表すＶＶを基本
の単位とする。ＶＣは母音区間しか含まないが、後続子
音により異なるＶＣと定義する。

【００５４】たとえば、認識対象語彙を「きりはら」
「きりゅう」「ちり」「ちりゅう」「めぐろ」「めむ
ろ」「ねむろ」「ふちゅう」の８単語としたとき、これ
らを音声片列で表すと、図４のようになる。

【００５５】これを単純なツリー構造で表したものが図
３である。本実施の形態では、これを基本音声片ツリー
と定義する。これは従来例で用いている音声片ツリーと
同じものである。ここでは、アークに音声片を割り当て
たが、ノードに割り当てることもできる。語彙の終端に
あたるノードには、その語彙の終端であることがわかる
ようにしておく。このようなノードをリーフノードと定
義する。図３ではリーフノードを黒丸で表している。ま
た、ツリーの深さを、根から数えて第１段、第２段、…
と数えるとする。

【００５６】音素マージ音声片ツリー１１は、基本音声
片ツリーのうち第１段〜第ｎ段までの音素をマージする
ことにより、語頭のツリーの広がりを小さくしたもので
ある。第ｎ＋１段以降は基本音声片ツリーそのままであ
る。

【００５７】第１段〜第ｎ段までの音素マージは以下の
方法で行う。日本語の母音は、５種類しかなくこれらを
識別することは比較的容易であるが、子音はカテゴリー
数も多く識別が難しい。そこで、子音は音素群（無声破
裂音、摩擦音、有性破裂音など）毎にまとめてマージ
し、同じ音素群内の子音は区別をしないとする。すなわ
ち、子音は、音素の区別は行わず、無声破裂音や摩擦音
のような音素群の区別しか行わない。語頭音素が１文字
違うだけの「きりゅう」と「ちりゅう」は区別を付けず
に照合することになる。

【００５８】音響特徴の似通った子音の音素群内でのマ
ージを行うため、マージによる誤差が少なく、しかも異
なる音素群間の識別は音響特徴がかけ離れているため容
易である。したがって、正解候補が枝刈られることはほ
とんどなく認識性能の低下が少ない。本実施の形態で
は、子音を図５のような４つのカテゴリーに分ける。

【００５９】音素をマージするとことにより音声片もマ
ージされる。ＣＶは後続母音が同じ場合に、ＶＣは先行
音素が同じ場合にマージする。音素群毎に音素をマージ
して得られる音声片を音素マージ音声片と定義する。音
素マージ音声片のマージ方法と表記法の例を図６に示
す。

【００６０】基本音声片ツリーのうち、第１段〜第ｎ段
までの音声片を、音素マージ音声片とすることにより、
同じ音素マージ音声片を割り当てられたアーク同士をマ
ージして語頭付近の広がりの小さいツリーにすることが
できる。これが音素マージ音声片ツリーである。

【００６１】図３の基本音声片ツリーを、第１段〜第３
段（ｎ＝３）までの音声片をマージして音素マージ音声
片ツリーに変換したのが図７である。図７の音素マージ
音声片ツリーは、図３の音声片ツリーに比べ、語頭付近
のツリーの広がりが狭くなっている。ｎを１とすると語
頭の１番目の音声片だけをマージしたことになり、∞と
するとすべての音声片をマージすることになる。ｎの大
きさは、計算量がリアルタイムで収まる程度に決めてお
くと効率が良い。音素マージ音声片ツリーでは、「きり
ゅう」と「ちりゅう」のようにリーフノードに複数の語
彙が割り当てられることがある。

【００６２】次に、本発明の実施の形態１における音声
認識装置について、図２のフローチャートを参照しなが
らその動作を説明する。

【００６３】図２において、音声片標準パターン１５
は、あらかじめ多数話者が発声した学習データから学習
し、音声片毎に求めておく。また、音素マージ音声片標
準パターン１６は、マージする音声片すべての学習デー
タから学習することにより求められる。たとえば、音声
片／｛ｐ，ｔ，ｋ，ｃ｝ｉ／に対する標準パターンは、
／ｐｉ／（ピ）、／ｔｉ／（ティ）、／ｋｉ／（キ）、
／ｃｉ／（チ）のすべての学習データから学習すること
により得られる。これを、あらかじめすべての音素マー
ジ音声片について求めておくものとする。

【００６４】本実施の形態では、特徴パラメータベクト
ルの出現確率が複数のガウス分布の和（これを混合分布
と呼ぶ）で近似できると仮定し、学習データから、標準
パターンのフレームごとにガウス分布の平均値ベクトル
および共分散行列を求め、これを標準パターンとする。

【００６５】音素マージ音声片ツリー１１は、あらかじ
め認識対象語彙セット１０から、ツリー展開処理Ｓ０７
において作成しておく。

【００６６】まず、音響分析処理Ｓ０１は、入力された
未知音声信号を分析時間（以下フレームと呼ぶ）毎にＤ
個の特徴パラメータに変換される。特徴パラメータとし
ては、線形予測分析によるＬＰＣケプストラム係数、Ｌ
ＰＣメルケプストラム係数、メル線形予測分析によるメ
ルＬＰＣケプストラム係数、メルスケールフィルタバン
クによるメル周波数ケプストラム係数（ＭＦＣＣ）な
ど、音声認識に適したものならばどのようなものを用い
ても良い。

【００６７】照合処理Ｓ０２では、音素マージ音声片ツ
リー１１にしたがって音素マージ音声片標準パターン１
６および音声片標準パターン１５を接続しながら、音響
分析処理Ｓ０１からの未知入力音声の特徴パラメータ時
系列と標準パターンとの照合を行う。照合は、入力フレ
ーム同期のビームサーチを用いたＤＰマッチングにより
行う。ＤＰマッチングの方法およびビームサーチの方法
は、従来例と同じであるため説明を省略する。この照合
を一回目の照合と呼ぶ。

【００６８】なお、本実施の形態では、音素マージ音声
片ツリー１１はあらかじめ作成しておくとしたが、ビー
ムサーチＤＰを行いながら動的にツリー展開してもよ
い。

【００６９】入力フレーム同期のビームサーチを用いた
ＤＰについて、その概念図を表したものが図９である。
図９において、横軸は入力音声のフレーム、縦軸は音素
マージ音声片ツリーにしたがって接続した音声片標準パ
ターンのフレームを表している。辞書である縦軸はツリ
ー状になっている。入力音声とツリー状の辞書のＤＰマ
ッチングは、図９のようなツリー状のＤＰ面上での入力
と標準パターンの最適な経路を求めながらスコアを算出
するものである。このツリー状のＤＰ面は、第１段〜第
ｎ段までが音素マージされており枝の広がりは小さくな
っている。

【００７０】ＤＰマッチングは、ビームサーチにより入
力フレーム同期にＤＰ経路の枝刈りを行う。ビーム内に
残る格子点候補数はＤＰ面のすべての格子点数に比べは
るかに少ないため、このＤＰ面は実際にメモリ上に持つ
必要はなく、仮想的なものである。

【００７１】発声開始からしばらくすると、発声内容と
似ていない辞書のＤＰパスの累積スコアは、正解パスの
累積スコアに比べ十分小さな値になり枝刈られるため、
格子点候補数は急激に減少する。したがって、それまで
の間の格子点候補数を抑えることが全体の計算量削減に
つながる。第一の実施の形態のように語頭付近のツリー
の広がりを抑えることにより、発声開始付近のビーム内
に残る格子点候補数は大幅に削減することができる。

【００７２】判定処理Ｓ０３では、ＤＰマッチングによ
り最も累積スコアの高かったリーフノード（最大ゆう度
リーフノード）を求め、これに対応する語彙が一意に決
まるかどうかの判定を行う。もし、一意に決まる場合
（Ｙ）、すなわち最大ゆう度リーフノードに対応する語
彙が１個しかない場合は、その語彙を認識結果として出
力する。もし、一意に決まらない場合（Ｎ）、すなわち
最大ゆう度リーフノードに対応する語彙が複数存在する
場合には、次のような方法で認識結果を決定する。

【００７３】再照合候補抽出処理Ｓ０５において、再照
合候補を抽出する。本実施の形態では、再照合候補を最
大ゆう度リーフノードに対応する語彙とする。他の方法
としては、最大ゆう度リーフノードだけでなく、ビーム
内に残った累積スコアの上位Ｋ個のリーフノードに対応
する語彙をすべて再照合候補とする方法もある。

【００７４】次に、再照合用ツリー展開処理Ｓ０６にお
いて、再照合候補の語彙に対して音素マージを行わない
第１段〜第ｎ段までの音声片ツリーを展開する。この音
声片ツリーを再照合用前半音声片ツリー１３とする。再
照合用前半音声片ツリー１３は、第１段〜第ｎ段で認識
語彙が一意に決まる。そこで、第ｎ段の終端ノードにそ
の語彙を割り当てておく。再照合候補が「めぐろ」「め
むろ」「ねむろ」の３単語、ｎ＝３であった場合の、再
照合用前半音声片ツリー１３の例を図８に示す。

【００７５】本実施の形態では、照合処理Ｓ０２をあら
かじめＤＰマッチングを行う際、第１段の始端ノードに
対応する入力フレーム位置Ｆｓと、第ｎ段の終端ノード
に対応する入力フレーム位置Ｆｅを記憶しておく必要が
ある。

【００７６】前半再照合処理Ｓ０４では、再照合用前半
音声片ツリー１３にしたがって接続した音声片標準パタ
ーン１５と、フレームＦｓからフレームＦｅまでの入力
音声とを、ＤＰマッチングにより再照合する。再照合の
場合は、認識対象語彙が少ないためビームサーチは必ず
しも行わなくてもよい。再照合の結果、最も累積スコア
の高かった再照合用ツリーの第ｎ段の終端ノードに対応
する語彙を認識結果として出力する。

【００７７】なお、ビーム内に残った累積スコアの上位
Ｋ個のリーフノードに対応する語彙をすべて再照合候補
とする方法の場合には、発声の前半部分のスコア、すな
わち再照合の結果求まる入力フレームＦｓからフレーム
ＦｅまでのスコアＳａと、発声の後半部分のスコア、す
なわち一回目の照合の結果求まる入力フレームＦｅ＋１
から発声の終端フレームまでのスコアＳｂとの和Ｓを、
再照合候補の語彙すべてについて求め、Ｓの最も大きい
語彙を認識結果とする。

【００７８】本実施の形態では、音素マージを行うのは
一律第１段〜第ｎ段としたが、すべての段において行っ
ても良い。また、ツリーの密集しているところは深くし
たりするなど部分的に変えても良い。再照合を行うのも
一律第ｎ段の終端ノードまでではなく、単語が一意に決
まるノードまでとしてもよい。すべての段において音素
マージを行う場合には一回目の照合では音素マージして
いない音声片標準パターン１５を使用する必要はない。

【００７９】また、本実施の形態では、最大ゆう度リー
フノードに対応する語彙が１個であった場合は再照合を
行わないとしたが、その場合でも、最大ゆう度リーフノ
ードだけでなく、ビーム内に残った累積スコアの上位Ｋ
個のリーフノードに対応する語彙をすべて再照合候補と
してもよい。

【００８０】以上のように、本実施の形態によれば、第
一段から第ｎ段までの音声片について、同じ音素群に属
する子音をマージした音素マージ音声片ツリーを用いる
ことにより、一回目の照合における計算量を大幅に削減
することができ、再照合を行ったとしても全体の計算量
は大幅に削減することができるという効果があります。

【００８１】また、この方法では似た音素を区別しない
で認識するため、一回目の照合で正解候補が漏れる可能
性が低く、認識性能を劣化させずに計算量を削減するこ
とができるという効果があります。

【００８２】さらに、本実施の形態では、再照合は１回
目の照合で第１段の始端ノードに対応する入力フレーム
位置Ｆｓと第ｎ段の終端ノードに対応する入力フレーム
位置Ｆｅを記憶しておき、ＦｓからＦｅまでの間でのみ
再照合を行えばよいため、再照合にかかる計算量は非常
に少なくてすむという効果があります。

【００８３】（実施の形態２）次に、本発明の実施の形
態２の音声認識装置について、図１０のフローチャート
を参照しながらその動作を説明する。

【００８４】実施の形態１と異なるのは、再照合用前半
音声片ツリー１３が再照合用音声片ツリー１４に、前半
再照合処理Ｓ０４が再照合処理Ｓ２１になっていること
である。再照合用音声片ツリー１４は、実施の形態１と
異なり、第１段〜第ｎ段だけではなく、単語終端までを
表すツリーになっている。

【００８５】実施の形態２の動作は、ほぼ実施の形態１
と同じであるため、異なる部分についてのみ説明する。

【００８６】実施の形態１では、再照合は、１回目の照
合のときに音素マージ音声片ツリーの音素マージを行っ
た第１段〜第ｎ段に対応していた入力区間についてのみ
行ったが、実施の形態２では、発声区間全体について再
照合を行う。

【００８７】再照合用ツリー展開処理Ｓ０９では、再照
合候補の語彙に対して音素マージを行わない音声片ツリ
ーを展開する。この音声片ツリーを再照合用音声片ツリ
ー１４とする。再照合用音声片ツリー１４は、第１段〜
第ｎ段までではなく、単語終端までを表す音声片ツリー
である。

【００８８】再照合候補が「めぐろ」「めむろ」「ねむ
ろ」の３単語であった場合の、再照合用音声片ツリーの
例を図１１に示す。

【００８９】本実施の形態では、照合処理Ｓ０２で、第
１段の始端ノードに対応する入力フレーム位置および、
第ｎ段の終端ノードに対応する入力フレーム位置を記憶
しておく必要はない。

【００９０】再照合処理Ｓ２１では、再照合用音声片ツ
リー１４にしたがって接続した音声片標準パターン１５
と、入力音声の発声開始から発声終了までを、ＤＰマッ
チングにより再照合する。再照合の場合は、実施の形態
１と同様、認識対象語彙が少ないためビームサーチは必
ずしも行わなくてよもい。

【００９１】再照合処理Ｓ２１の結果、最も累積スコア
の高かった再照合用ツリーのリーフノードに対応する語
彙を認識結果として出力する。

【００９２】以上のように、実施の形態２によれば、１
回目の照合で第ｎ段の終端ノードに対応する入力フレー
ム位置が最適な位置ではなかった場合に、発声区間の開
始から終了までを再照合することにより、より精密な照
合を行うことができるため、実施の形態１に比べさらに
認識性能が向上するという効果があります。

【００９３】また、実施の形態２では、第１段の始端ノ
ードに対応する入力フレーム位置Ｆｓと第ｎ段の終端ノ
ードに対応する入力フレーム位置Ｆｅを記憶しておく必
要がないため１回目の認識処理およびメモリ容量は実施
の形態１に比べ少なくてすむという効果があります。

【００９４】また、実施の形態２のように、発声区間の
開始から終了までを再照合する場合には、再照合の距離
尺度は１回目のものとまったく違うものを用いてもかま
わない。そのため、再照合の際には数単語のみより精密
に認識できる方法を用いて、より高い認識性能を得るこ
ともできる。

【００９５】（実施の形態３）次に、本発明の実施の形
態３における音声認識装置について、図１２のフローチ
ャートを参照しながらその動作を説明する。

【００９６】実施の形態１と異なるのは、音素マージ音
声片ツリー１１がラフ音声片ツリー１２に、音素マージ
音声片標準パターン１６がラフ音声片標準パターン１７
に、音声片標準パターン１５が精密音声片標準パターン
１８になっていること、および判定処理Ｓ０３が不要な
ことである。

【００９７】精密音声片標準パターン１８は、実施の形
態１の音声片標準パターン１５と同じものである。実施
の形態３では、ラフ音声片と対比づけるために通常の音
声片を精密音声片と呼ぶことにする。

【００９８】ラフ音声片ツリー１２およびラフ音声片標
準パターン１７について以下に説明する。ラフ音声片
は、音声片の標準パターンの精度を粗くしたものとして
定義する。その方法としては、次の二つが考えられる。

【００９９】一つ目は、ラフ音声片１つの音声片あたり
にかかる距離計算量を精密音声片１つあたりにかかる計
算量に比べ削減する方法である。具体的には、ラフ音声
片標準パターンの、フレーム数を少なくする方法、ガウ
ス分布の混合数を削減する方法、ガウス分布の共分散行
列を共通化して共分散行列の種類数を削減する方法など
が考えられる。この方法では音声片ツリーの形状は変わ
らない。

【０１００】二つ目は、認識結果が一意に決まる範囲内
で、異なる音韻環境の音声片をマージする方法である。
この方法によっても、ツリーのアークとノードが減るた
め計算量を削減することができる。たとえば、ＶＣは母
音部分が同じであれば後続子音が異なっていても１つの
音声片にマージするなどが考えられる。この方法では、
音声片ツリーの形状が変わることがある。音声片の単位
として音素を用いる場合は、音素の前後の音素環境によ
って異なる音声片とすることが多いが、中心音素が同じ
場合には１つの音声片にマージすることにより、ツリー
の広がりを大幅に抑えることが可能になる。当然のこと
ながら中心音素が同じであればマージを行っても認識結
果は必然的に一意に決まる。

【０１０１】実施の形態３では、標準パターンのフレー
ム数を削減する方法と、母音部分が同じで後続子音の異
なるＶＣをマージする方法の両方を行う。前者は音声片
記号の上にバーをつけて表記し、後者は子音部分をアス
タリスクで置き換えて表記することとする。

【０１０２】図１３は、図３の基本音声片ツリーを、第
１段〜第３段（ｎ＝３）までの音声片をラフ音声片とし
たラフ音声片ツリーである。第４段以降は、基本音声片
ツリーと同じである。ツリーの形状は図２と若干変わっ
ている。なお、ＶＣのマージは、後続子音が同じ音素群
の場合のみに限っても良い。

【０１０３】ラフ音声片標準パターン１７は、以下のよ
うにあらかじめ学習し求めておく。標準パターンのフレ
ーム数をもとのフレーム数の半分に減らして学習する。
さらにＶＣは母音部分が同じ音声片すべての学習データ
から学習する。たとえば、音声片／ｅ＊／に対する標準
パターンは、母音部分が／ｅ／で後続子音が異なる音声
片／ｅｍ／，／ｅｎ／，／ｅｇ／，／ｅｂ／，…のすべ
ての学習データから学習することにより得られる。

【０１０４】実施の形態３の動作は、ほぼ実施の形態１
と同じであるため、異なる部分についてのみ説明する。

【０１０５】照合処理Ｓ０２では、ラフ音声片ツリー１
２にしたがってラフ音声片標準パターン１７および精密
音声片標準パターン１８を接続しながら、実施の形態１
と同様にして、未知入力音声の特徴パラメータ時系列と
標準パターンとの照合を行う。

【０１０６】照合を行った後、再照合候補抽出処理Ｓ０
５で、再照合候補を抽出する。本実施の形態では、ビー
ム内に残った累積スコアの上位Ｋ個のリーフノードに対
応するＫ個の語彙を再照合候補とする。実施の形態１と
同様に再照合候補に対して再照合用前半音声片ツリー１
３を展開し、前半再照合処理Ｓ０４において発声前半部
分について精密な音声片標準パターンで照合を行う。

【０１０７】再照合の結果求まる発声の前半部分のスコ
アＳａと、一回目の照合の結果求まる発声の後半部分の
スコアＳｂとの和Ｓを、再照合候補の語彙すべてについ
て求め、Ｓの最も大きい語彙を認識結果とする。

【０１０８】本実施の形態では、音素マージを行うのは
一律第１段〜第ｎ段としたが、ツリーの密集していると
ころは深くしたりするなど部分的に変えても良い。再照
合を行うのも一律第ｎ段の終端ノードまでではなく、単
語が一意に決まるノードまでとしてもよい。

【０１０９】以上のように、実施の形態３によれば、音
声片の標準パターンの精度を粗くしたラフ音声片ツリー
を用いることにより、ラフ音声片の照合にかかる計算量
が少なくてすむため、一回目の照合における計算量を大
幅に削減することができ、再照合を行っても全体の計算
量は削減できる。

【０１１０】発声開始直後の計算量の多いところは粗い
照合を、発声開始後しばらくしてからの計算量の少ない
ところは精密な照合をするため効率が良いという効果が
あります。

【０１１１】（実施の形態４）次に、本発明の実施の形
態４の音声認識装置について、図１４のフローチャート
を参照しながらその動作を説明する。

【０１１２】実施の形態３と異なるのは、前半再照合処
理Ｓ０４が再照合処理Ｓ２１に、再照合用前半音声片ツ
リー１３が再照合用音声片ツリー１４になっていること
である。実施の形態４は、実施の形態３と実施の形態２
の組み合わせである。再照合処理Ｓ２１と再照合用音声
片ツリー１４は、実施の形態２と同じである。

【０１１３】実施の形態４の動作は、ほぼ実施の形態３
と同じであるが、再照合用ツリー展開処理Ｓ０６におい
て再照合用音声片ツリー１４を作成し、音声の前半部分
のみ前半再照合処理Ｓ２１において再照合を行うところ
は、実施の形態２と同じである。

【０１１４】（実施の形態５）次に、本発明の実施の形
態５における音声認識装置について、図１５フローチャ
ートを参照しながらその動作を説明する。

【０１１５】実施の形態３と異なるのは、前半再照合処
理Ｓ０４、再照合候補抽出処理Ｓ０６、再照合用ツリー
展開処理Ｓ０６、再照合用前半音声片ツリー１３が不要
なことである。

【０１１６】実施の形態３では、一回目の照合で認識結
果は一意に決まるため、再照合を行わなくても認識結果
を出力することができる。そこで再照合を行わずに認識
結果を出力するとしたのが実施の形態５である。実施の
形態５の動作は、再照合を行わずに一回目の照合の結果
をそのまま認識結果とする以外は実施の形態３と同じで
ある。

【０１１７】実施の形態５では、実施の形態３に比べ、
再照合を行わないため認識性能は劣化するが計算量は大
幅に削減できる。その場合でも音声片の標準パターンの
精度を粗くするのは探索空間の広い語頭付近だけである
ため、一律に音声片の標準パターンの精度を粗くするよ
りも効率的な計算量削減が図れる。また、実施の形態５
では、再照合の必要がないため、入力音声の特徴パラメ
ータ情報を記憶しておく必要がなく容量も小さくてすむ
という利点がある。

【０１１８】

【発明の効果】以上のように本発明は、特徴の似ている
音素をマージした音声片を用いて照合を行い、認識結果
が一意に決まらなかった場合にのみ再照合を行うことに
より、認識性能を落とさずに計算量を削減することがで
きる。

【０１１９】また、語頭付近について音声片の標準パタ
ーンの精度を粗くしたラフ音声片ツリーを用いて照合を
行ったのち、精密な音声片標準パターンを用いて再照合
することによって認識性能を落とさずに効率よく計算量
を削減することができる。

【０１２０】さらに、音声片の標準パターンの精度を粗
くしたラフ音声片ツリーを用いて照合を行い、再照合を
行わない場合には、認識性能の劣化を最小限に抑え計算
量を大幅に削減することができる。

【０１２１】さらに、１回目の照合で第１段の始端ノー
ドに対応する入力フレーム位置Ｆｓと第ｎ段の終端ノー
ドに対応する入力フレーム位置Ｆｅを記憶しておき、Ｆ
ｓからＦｅまでの間でのみ再照合を行う場合には、再照
合にかかる計算量を抑えることができる。

【０１２２】また、発声区間の開始から終了までを再照
合する場合には、より精密な再照合が行えるため認識性
能の劣化が少なくてすみ、１回目の照合方法とまったく
違うものを用いてもかまわないため、より精密な手法で
再照合を行った場合にはより高い認識性能を得ることも
できる。

【図面の簡単な説明】

【図１】本発明の実施の形態におけるコンピュータを用
いた音声認識装置の構成図

【図２】本発明の実施の形態１における音声認識装置の
フローチャート

【図３】本発明の実施の形態１における基本音声片ツリ
ーを示す図

【図４】本発明の実施の形態１における音声片列を示す
図

【図５】本発明の実施の形態１における音素群の定義を
説明する図

【図６】本発明の実施の形態１における音声片のマージ
を説明する図

【図７】本発明の実施の形態１における音素マージ音声
片ツリーを示す図

【図８】本発明の実施の形態１における再照合用前半音
声片ツリーを示す図

【図９】本発明の実施の形態１における仮想ＤＰ面を説
明する図

【図１０】本発明の実施の形態２における音声認識装置
のフローチャート

【図１１】本発明の実施の形態２における再照合用音声
片ツリーを示す図

【図１２】本発明の実施の形態３における音声認識装置
のフローチャート

【図１３】本発明の実施の形態３におけるラフ音声片ツ
リーを示す図

【図１４】本発明の実施の形態４における音声認識装置
のフローチャート

【図１５】本発明の実施の形態５における音声認識装置
のフローチャート

【図１６】従来の音声認識装置の構成図

【図１７】従来例における音声認識装置のフローチャー
ト

【図１８】従来例の計算量を説明する図

【符号の説明】

１マイク２Ａ／Ｄ３インタフェース（Ｉ／Ｆ）４メモリ５ＣＰＵ６キーボード／ディスプレイ７ＣＰＵバス８Ｉ／Ｆ９出力１０認識対象語彙セット１１音素マージ音声片ツリー１２ラフ音声片ツリー１３再照合用前半音声片ツリー１４再照合用音声片ツリー１５音声片標準パターン１６音素マージ音声片標準パターン１７ラフ音声片標準パターン１８精密音声片標準パターン１９音声片ツリー

Claims

【特許請求の範囲】

【請求項１】未知入力音声信号を音響分析し特徴ベク
トル時系列を求めるステップと、認識対象語彙セットの
音素表記の特徴の似ている音素をマージした音素表記列
を認識の最小単位である音声片列に変換し、これを音素
マージ音声片ツリーに展開するステップと、前記音素マ
ージ音声片ツリーに従って、あらかじめ求めておいた音
声の特徴を表す音素マージ音声片標準パターンを接続
し、これと未知入力音声信号の特徴ベクトル時系列との
照合を、ビームサーチを用いたＤＰマッチングにより時
間整合を取りながら行うステップと、照合結果が一意に
決まる場合に認識結果を出力するステップと、照合結果
が一意に決まらなかった場合に、再照合を行う候補とな
る認識対象語彙を抽出するステップと、再照合用の音声
片ツリーを展開するステップと、再照合用音声片ツリー
に従って音声片標準パターンを接続し、これと未知入力
音声との照合を、ビームサーチを用いたＤＰマッチング
により時間整合を取りながら行い認識結果を出力するス
テップとを有することを特徴とする音声認識方法。
【請求項２】音素マージ音声片ツリーに展開するステ
ップは、認識対象語彙セットの音素表記の語頭から第N
番目の音素までのうち特徴の似ている音素をマージした
音素表記列を認識の最小単位である音声片列に変換し、
これを音素マージ音声片ツリーに展開することを特徴と
する請求項１記載の音声認識方法。
【請求項３】音素のマージは、子音を音素群毎にまと
めてマージすることを特徴とする請求項１または２記載
の音声認識方法。
【請求項４】未知入力音声信号を音響分析し特徴ベク
トル時系列を求めるステップと、認識対象語彙セットの
音素表記列の語頭から第N番目の音素までを、精度の粗
い音声片標準パターンを持つラフ音声片の系列に変換
し、第N番目以降の音素を精密な音声片標準パターンを
持つ精密音声片の系列に変換し、これをラフ音声片ツリ
ーに展開するステップと、前記ラフ音声片ツリーに従っ
て、あらかじめ求めておいた音声の特徴を表す音声片標
準パターンおよび音素マージ音声片標準パターンを接続
し、これと未知入力音声信号の特徴ベクトル時系列との
照合を、ビームサーチを用いたＤＰマッチングにより時
間整合を取りながら行うステップと、照合の結果から再
照合を行う候補となる認識対象語彙を抽出するステップ
と、再照合用の音声片ツリーを展開するステップと、再
照合用音声片ツリーに従って精密な音声片標準パターン
を接続し、これと未知入力音声との照合を、ビームサー
チを用いたＤＰマッチングにより時間整合を取りながら
行い認識結果を出力するステップとを有することを特徴
とする音声認識方法。
【請求項５】未知入力音声信号を音響分析し特徴ベク
トル時系列を求めるステップと、認識対象語彙セットの
音素表記列の語頭から第N番目の音素までを、精度の粗
い音声片標準パターンを持つラフ音声片の系列に変換
し、第N番目以降の音素を精密な音声片標準パターンを
持つ精密音声片の系列に変換し、これをラフ音声片ツリ
ーに展開するステップと、前記ラフ音声片ツリーに従っ
て、あらかじめ求めておいた音声の特徴を表す音声片標
準パターンおよび音素マージ音声片標準パターンを接続
し、これと未知入力音声信号の特徴ベクトル時系列との
照合を、ビームサーチを用いたＤＰマッチングにより時
間整合を取りながら行い認識結果を出力するステップと
を有することを特徴とする音声認識方法。
【請求項６】精度を粗い音声片の標準パターンは、ラ
フ音声片１つの音声片あたりにかかる距離計算量を精密
音声片１つあたりにかかる計算量に比べ削減することを
特徴とする請求項４または５記載の音声認識方法。
【請求項７】精度を粗い音声片の標準パターンは、認
識結果が一意に決まる範囲内で、異なる音韻環境の音声
片をマージすることを特徴とする請求項４または５記載
の音声認識方法。
【請求項８】音声片の距離計算量にかかるコストの削
減は、ラフ音声片標準パターンのフレーム数を少なくす
ることを特徴とする請求項６記載の音声認識方法。
【請求項９】音声片の距離計算にかかるコストの削減
は、特徴パラメータベクトルの出現確率が複数のガウス
分布の和、すなわちガウス分布の混合分布で近似できる
と仮定したとき、ラフ音声片標準パターンのガウス分布
の混合数を少なくすることを特徴とする請求項６記載の
音声認識方法。
【請求項１０】音声片の距離計算にかかるコストの削
減は、特徴パラメータベクトルの出現確率が複数のガウ
ス分布の和、すなわちガウス分布の混合分布で近似でき
ると仮定したとき、ラフ音声片標準パターンのガウス分
布の共分散行列の種類数を少なくすることを特徴とする
請求項９記載の音声認識方法。
【請求項１１】再照合の際、未知入力音声の前半部分
とのみ照合を行い認識結果を出力することを特徴とする
請求項１、４、５のいずれかに記載の音声認識方法。
【請求項１２】再照合の際、未知入力音声の発声区間
すべてと照合を行い認識結果を出力することを特徴とす
る請求項１、４、５のいずれかに記載の音声認識方法。
【請求項１３】未知入力音声の発声区間を特定せず、
異なる始端を認める連続DPマッチングを用いたことを特
徴とする請求項１、４、５のいずれかに記載の音声認識
方法。
【請求項１４】未知入力音声信号を音響分析し特徴ベ
クトル時系列を求める音響分析手段と、認識対象語彙セ
ットの音素表記の特徴の似ている音素をマージした音素
表記列を認識の最小単位である音声片列に変換し、これ
を音素マージ音声片ツリーに展開するツリー展開手段
と、前記音素マージ音声片ツリーに従って、あらかじめ
求めておいた音声の特徴を表す音素マージ音声片標準パ
ターンを接続し、これと未知入力音声信号の特徴ベクト
ル時系列との照合を、ビームサーチを用いたＤＰマッチ
ングにより時間整合を取りながら行う照合手段と、照合
結果が一意に決まるか否かを判定し、一意に決まる場合
に認識結果を出力する判定手段と、照合結果が一意に決
まらなかった場合に、再照合を行う候補となる認識対象
語彙を抽出する再照合候補抽出手段と、再照合用の音声
片ツリーを展開する再照合用ツリー展開手段と、再照合
用音声片ツリーに従って音声片標準パターンを接続し、
これと未知入力音声との照合を、ビームサーチを用いた
ＤＰマッチングにより時間整合を取りながら行い認識結
果を出力する再照合手段とを有することを特徴とする音
声認識装置。
【請求項１５】未知入力音声信号を音響分析し特徴ベ
クトル時系列を求める音響分析手段と、認識対象語彙セ
ットの音素表記列の語頭から第N番目の音素までを、精
度の粗い音声片標準パターンを持つラフ音声片の系列に
変換し、第N番目以降の音素を精密な音声片標準パター
ンを持つ精密音声片の系列に変換し、これをラフ音声片
ツリーに展開するツリー展開手段と、前記ラフ音声片ツ
リーに従って、あらかじめ求めておいた音声の特徴を表
す音声片標準パターンおよび音素マージ音声片標準パタ
ーンを接続し、これと未知入力音声信号の特徴ベクトル
時系列との照合を、ビームサーチを用いたＤＰマッチン
グにより時間整合を取りながら行う照合手段と、照合の
結果から再照合を行う候補となる認識対象語彙を抽出す
る再照合候補抽出手段と、再照合用の音声片ツリーを展
開する再照合ツリー展開手段と、再照合用音声片ツリー
に従って精密な音声片標準パターンを接続し、これと未
知入力音声との照合を、ビームサーチを用いたＤＰマッ
チングにより時間整合を取りながら行い認識結果を出力
する再照合手段とを有することを特徴とする音声認識装
置。
【請求項１６】未知入力音声信号を音響分析し特徴ベ
クトル時系列を求める音響分析手段と、認識対象語彙セ
ットの音素表記列の語頭から第N番目の音素までを、精
度の粗い音声片標準パターンを持つラフ音声片の系列に
変換し、第N番目以降の音素を精密な音声片標準パター
ンを持つ精密音声片の系列に変換し、これをラフ音声片
ツリーに展開するツリー展開手段と、前記ラフ音声片ツ
リーに従って、あらかじめ求めておいた音声の特徴を表
す音声片標準パターンおよび音素マージ音声片標準パタ
ーンを接続し、これと未知入力音声信号の特徴ベクトル
時系列との照合を、ビームサーチを用いたＤＰマッチン
グにより時間整合を取りながら行い認識結果を出力する
照合手段とを有することを特徴とする音声認識装置。
【請求項１７】プログラムされたコンピュータによっ
て音声を認識するプログラムを記録した記録媒体であっ
て、未知入力音声信号を音響分析し特徴ベクトル時系列
を求めるステップと、認識対象語彙セットの音素表記の
特徴の似ている音素をマージした音素表記列を認識の最
小単位である音声片列に変換し、これを音素マージ音声
片ツリーに展開するステップと、前記音素マージ音声片
ツリーに従って、あらかじめ求めておいた音声の特徴を
表す音素マージ音声片標準パターンを接続し、これと未
知入力音声信号の特徴ベクトル時系列との照合を、ビー
ムサーチを用いたＤＰマッチングにより時間整合を取り
ながら行うステップと、照合結果が一意に決まる場合に
認識結果を出力するステップと、照合結果が一意に決ま
らなかった場合に、再照合を行う候補となる認識対象語
彙を抽出するステップと、再照合用の音声片ツリーを展
開するステップと、再照合用音声片ツリーに従って音声
片標準パターンを接続し、これと未知入力音声との照合
を、ビームサーチを用いたＤＰマッチングにより時間整
合を取りながら行い認識結果を出力するステップとを有
することを特徴とするコンピュータ読み取り可能な記憶
媒体。
【請求項１８】プログラムされたコンピュータによっ
て音声を認識するプログラムを記録した記録媒体であっ
て、未知入力音声信号を音響分析し特徴ベクトル時系列
を求めるステップと、認識対象語彙セットの音素表記列
の語頭から第N番目の音素までを、精度の粗い音声片標
準パターンを持つラフ音声片の系列に変換し、第N番目
以降の音素を精密な音声片標準パターンを持つ精密音声
片の系列に変換し、これをラフ音声片ツリーに展開する
ステップと、前記ラフ音声片ツリーに従って、あらかじ
め求めておいた音声の特徴を表す音声片標準パターンお
よび音素マージ音声片標準パターンを接続し、これと未
知入力音声信号の特徴ベクトル時系列との照合を、ビー
ムサーチを用いたＤＰマッチングにより時間整合を取り
ながら行うステップと、照合の結果から再照合を行う候
補となる認識対象語彙を抽出するステップと、再照合用
の音声片ツリーを展開するステップと、再照合用音声片
ツリーに従って精密な音声片標準パターンを接続し、こ
れと未知入力音声との照合を、ビームサーチを用いたＤ
Ｐマッチングにより時間整合を取りながら行い認識結果
を出力するステップとを有することを特徴とするコンピ
ュータ読み取り可能な記憶媒体。
【請求項１９】プログラムされたコンピュータによっ
て音声を認識するプログラムを記録した記録媒体であっ
て、未知入力音声信号を音響分析し特徴ベクトル時系列
を求めるステップと、認識対象語彙セットの音素表記列
の語頭から第N番目の音素までを、精度の粗い音声片標
準パターンを持つラフ音声片の系列に変換し、第N番目
以降の音素を精密な音声片標準パターンを持つ精密音声
片の系列に変換し、これをラフ音声片ツリーに展開する
ステップと、前記ラフ音声片ツリーに従って、あらかじ
め求めておいた音声の特徴を表す音声片標準パターンお
よび音素マージ音声片標準パターンを接続し、これと未
知入力音声信号の特徴ベクトル時系列との照合を、ビー
ムサーチを用いたＤＰマッチングにより時間整合を取り
ながら行い認識結果を出力するステップとを有すること
を特徴とするコンピュータ読み取り可能な記憶媒体。