JP3428058B2

JP3428058B2 - 音声認識装置

Info

Publication number: JP3428058B2
Application number: JP05189793A
Authority: JP
Inventors: 達也木村; 裕康 ▲桑▼野; 泰助渡辺; 省二平岡
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1993-03-12
Filing date: 1993-03-12
Publication date: 2003-07-22
Anticipated expiration: 2018-07-22
Also published as: JPH06266393A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は人間の声を機械に認識さ
せる音声認識の方法に関するものである。

【０００２】

【従来の技術】音声認識には特定話者を対象とする方法
と、不特定話者を対象とする方法とがあるが、本発明は
特に不特定話者認識を対象とするものである。不特定話
者を対象とした方法の一例として、特願平３−３１４２
４８号に基づく例を図９を参照しながら説明する。

【０００３】図９において、61は音響分析部、62は特徴
パラメータ抽出部、63は音声区間検出部、64は複数フレ
ームバッファ、65は音声片標準パターン格納部、66は全
認識対象単語を音声片の並びで記述した単語辞書、67は
音声片の並びに従って音声片標準パターンを選択し連結
することにより認識対象語彙の単語標準パターンを生成
する単語標準パターン生成部、68は複数のフレームで形
成された入力ベクトルと認識対象音声の部分パターンと
の部分距離を事後確率に基づく統計的距離尺度で求める
部分距離計算部、69は入力フレームをシフトしながら音
声全体にわたって部分距離を累積することにより入力音
声と単語標準パターンとの距離を求める距離累積部、61
0は経路判定部、611は累積距離を最小とする音声名を認
識結果とする判定部である。

【０００４】音響分析部61は入力信号をＡＤ変換して一
定時間長（フレームと呼ぶ。本従来例では10ms）毎に分
析する。特徴パラメータ抽出部62では音響分析部61の出
力結果に基づき、特徴パラメータを抽出する。音声区間
検出部63は入力信号音声の始端、終端を検出する。音声
区間の検出法は音声のパワーを用いる方法が簡単で一般
的であるが、どのような方法でもよい。また、音声区間
検出を行わずに、入力の全区間を端点と仮定して照合演
算を行うワードスポッティングという方法を用いる場合
もあり、これについては後述する。複数フレームバッフ
ァ64は各フレームの近隣のフレームの特徴パラメータを
統合してパターンマッチング（部分マッチング）に用い
る入力ベクトルを形成する部分である。音声片標準パタ
ーン格納部65には音声片の標準パターンを部分パターン
の結合として格納しておく。単語辞書66には認識する単
語毎に音声片の連結情報が記述されている。音声片連結
部67はこの音声片連結情報に従って音声片標準パターン
格納部65に格納されている音声片標準パターンを読み出
し連結する。部分距離計算部68において単語標準パター
ンと複数フレームバッファとの間の距離（部分距離）を
計算する。距離累積部69は、各単語に対する部分距離を
累積し、単語全体に対する類似度を求める。経路判定部
610は累積距離が最小になる経路を選択する。判定部611
は、累積距離の最小値を与える単語を求め出力する。

【０００５】次に、音声区間検出を行わないワードスポ
ッティング法を用いる場合について説明する。ワードス
ポッティング法の利点は、一般にノイズに弱いとされる
音声区間検出を用いる必要がないため、ノイズに強い認
識系が実現できることである。ワードスポッティング法
の場合、音声区間検出を行わないので、照合演算は音声
を含む十分長い区間について行う。すなわち、音声区間
検出を行う場合の様に、照合開始時点を音声の始端と
し、照合終了時点を音声の終端として照合演算をするこ
とは意味を持たない。ワードスポッティング法では、全
入力区間について音声の始終端を仮定して単語標準パタ
ーンに対する照合スコアを算出する。

【０００６】

【発明が解決しようとする課題】従来例で説明した方法
は「近隣フレーム間の時間的な動き」の情報を積極的に
利用している事と、統計的距離尺度を用いる事により精
度の高い不特定話者用音声認識が可能である。また、音
声片を連結する方法であるので、単語辞書を書換えるだ
けで語彙変更可能な汎用性の高い認識装置の実現が可能
である。更にワードスポッティングを行うことにより精
密な音声区間検出が不要となるため、ノイズに強い認識
装置を実現できる。

【０００７】しかしこの方法は、特徴パラメータとして
あるフレームの近隣フレームを含めた幅のある区間（複
数フレーム）の分析パラメータを用いているために特徴
パラメータの次元数が大きいことに加え、部分距離を全
入力区間及び、単語の標準パターンの全区間について求
めているために、部分距離の計算に線形識別式を用いて
いるとはいえ、まだ計算量が多いという問題点があっ
た。また、ワードスポッティングを用いた場合に、「藤
井寺」と「富士」の例のように、ある単語が他の単語の
一部分とマッチングして誤認識となる「部分マッチン
グ」の問題があった。

【０００８】

【課題を解決するための手段】以上述べた問題を解決す
るために本発明では、入力音声信号を分析の基本単位で
あるフレーム毎に分析し分析パラメータを抽出する音声
分析手段と、分析フレームのタイミング信号を発生する
フレームクロック発生手段と、上記フレームクロックを
所定の分周比で分周して分周クロック信号を得る分周手
段と、単語を音声片を表す記号の系列で表記した単語辞
書と、予め多数の人が発声した音声片データを用いて作
成される音声片データの一部を表現する部分標準パター
ンの系列により構成される音声片標準パターンを格納す
る音声片標準パターン格納手段と、上記音声片標準パタ
ーンを上記単語辞書の表記内容に従って接続することに
より単語の標準パターンを得る単語標準パターン生成手
段と、上記単語標準パターンを構成する特徴パラメータ
系列の一部を間引くことによりデータ間引き単語標準パ
ターンを作成する第１の単語標準パターン加工手段と、
上記分周クロック信号を受け取る毎に同時点における上
記分析パラメータから得られる特徴パラメータと上記デ
ータ間引き単語標準パターンの部分標準パターンとの間
の距離である部分距離を算出し、当該時点およびそれ以
前の特徴パラメータ系列に対して既に求められている上
記データ間引き単語標準パターンとの間の部分距離を累
積することにより、当該時点を単語の終端と仮定した場
合のデータ間引き単語標準パターンの入力に対する最小
の距離およびそれに付随する始端位置を得て、上記分周
クロック毎に上記最小の距離を上記始端位置と併せて各
単語毎に更新する第１の照合／判定手段と、入力音声の
終了時点で全認識対象単語の単語標準パターンに対する
距離を相互に比較することにより距離値の小さい順に所
定の個数候補単語を得る候補単語選択手段と、上記候補
選択手段によって選択された候補単語に付随する始端お
よび終端候補群から音声区間を確実に含む区間を決定す
る端点位置決定手段と、上記分析パラメータを全入力区
間にわたって記憶するパラメータ記憶手段と、あらかじ
め音声以外の区間の音響信号から作成された環境標準パ
ターンを格納する環境パターン格納手段と、上記環境標
準パターンを上記単語標準パターンの前後に接続して環
境標準パターンつき単語標準パターンを作成する第２の
単語標準パターン加工手段と、上記単語候補選択手段に
より選択された単語候補群に対応する環境標準パターン
つき単語標準パターンと上記パラメータ記憶手段に格納
されている上記端点位置決定手段によって決定された区
間におけるパラメータ系列との間の距離を部分距離を累
積することにより算出し、上記候補単語毎に得られる距
離を相互比較することによりもっとも値の小さい距離値
を得た単語候補を認識結果として出力する第２の照合／
判定手段とを設ける。

【０００９】

【作用】本発明は、上記各手段とりわけ分周手段と第１
の単語標準パターン加工手段によって間引かれたデータ
を用いて照合演算によってあらかじめ単語候補を絞り込
んだ後に、絞り込まれた候補に対して間引きをしないデ
ータを用いた照合を行うことにより認識性能を確保しな
がら計算量の削減を図るという第１の作用効果と、上記
環境パターンつき単語標準パターンを用いることにより
音声区間の外側の区間を含めて照合をすることにより、
ノイズに強い認識を実現するとともに、ワードスポッテ
ィングの場合に問題となっていたある単語が他の単語の
１部と照合することにより誤認識が生ずる部分マッチン
グの問題を解決するという第２の作用効果をもつもので
ある。

【００１０】

【実施例】以下、図面を用いて本発明の第１の実施例を
説明する。図１は本発明の第１の実施例の構成を示した
ものである。図１において、１は音響分析部、２はフレ
ームクロック信号発生部、３は分周部、４は第１の照合
／判定部、５は単語辞書、６は音声片標準パターン格納
部、７は単語標準パターン生成部、８は第１単語標準パ
ターン加工部、９は候補選択部、１０はパラメータ記憶
部、１１は端点位置決定部、１２は第２の照合／判定
部、１３は第２単語標準パターン加工部、１４は環境標
準パターン格納部である。次にその動作を説明する。

【００１１】音響分析部１は入力信号をＡＤ変換して一
定時間長（フレームと呼ぶ。本実施例では10ms）毎に分
析する。例では線形予測分析（ＬＰＣ分析）を用いてい
る。フレームのタイミングはフレームクロック信号発生
部２が発生するクロック信号により与えられ、このクロ
ック信号は音響分析部１および分周部３に供給される。
分周部３はフレームクロック信号を所定の分周比（本実
施例では２）で分周して分周クロック信号を出力する。
この分周クロック信号は第１の照合/判定部４へ供給さ
れフレーム間引きのために使用される。第１の照合/判
定部４は音響分析部１の出力する分析パラメータと後述
の処理によって生成される単語標準パターンとの間の照
合をワードスポッティングにより行う。この部分の処理
の詳細については後述する。

【００１２】次に、第１の照合／判定部４で使用する単
語標準パターンの生成方法について、説明する。認識語
彙はＣＶやＶＣ等の音声片記号の並びで表現され、単語
辞書５に格納されている。単語標準パターンは、単語辞
書５を参照して得られる音声片記号の並びに従って、音
声片標準パターン格納部６に格納されている音声片標準
パターンを連結することにより単語標準パターン生成部
７によって生成される。

【００１３】なお音声片標準パターンの作成方法につい
ては後述する。第１の照合／判定部４における照合は、
計算量削減のため、フレーム間引きがなされたデータに
対して行われる。従って第１の照合／判定部４で用いる
単語標準パターンもフレーム間引きを施す必要がある。
第１単語標準パターン加工部８はこのフレーム間引きの
処理を、単語標準パターン生成部７で得られた単語標準
パターンに対して行う。候補選択部９は、第１の照合／
判定部４で得られた全ての単語に対する照合結果から、
照合結果の良い順に所定の個数だけ単語候補を選択す
る。パラメータ記憶部１０は音声分析部１で得られた分
析パラメータを全入力区間について記憶する。

【００１４】端点位置決定部１１では、上記単語候補の
各々に付随して得られる始端及び終端の情報を統合し
て、第２の照合／判定部１２で照合を行うための照合区
間を決定する。この照合区間は音声区間を必ず含むよう
に決定される。従って実際の音声区間より長い区間が得
られる。例えば、単語候補に付随して得られる始端群の
先頭もしくは更に前の位置が照合区間の始端として決定
される。終端の場合も同様であり、単語候補に付随して
得られる終端群の末尾もしくはさらに後の位置が照合区
間の終端として決定される。

【００１５】第２の照合／判定部１２ではパラメータ記
憶部１０に記憶されたパラメータと後述の処理に従って
得られる単語標準パターンに対して、上記単語候補およ
び照合区間について、間引きを行わない端点固定の照合
を行ったのち、最も良い照合結果を与える単語候補を認
識結果として出力する。第２の照合／判定部１２に与え
られる照合区間は上述の通り、実際の音声区間より長く
とられるため、照合に用いる単語標準パターンは、第２
単語標準パターン加工部１３によって、単語標準パター
ン生成部７により得られた単語標準パターンの両端に環
境標準パターン格納部１４に格納されている環境標準パ
ターンを接続する処理を施したものを使用する。この環
境標準パターンは例えば、あらかじめ認識装置が使用さ
れる騒音信号のパターンから作成される。

【００１６】次に第１の照合/判定部４及び第２の照合
／判定部１２で行う処理内容について詳しく説明する。
両者の相違は、前者はフレーム間引きをしたデータにつ
いて照合演算をしているのに対し後者では間引きをしな
いデータについて照合演算を行っていることと、前者は
照合の区間を与えない端点フリーの照合によるワードス
ポッティングを行っているのに対し、後者は照合区間を
あらかじめ与える端点固定の照合を行っている点であ
る。その他の、照合に用いる特徴パラメータや使用する
距離尺度等の基本的な考え方は同じであるので、照合処
理の詳細は、第１の照合/判定部４について述べ相違が
ある部分についてはその都度説明をする。

【００１７】図２は第１の照合/判定部４の処理の流れ
を示す詳細な構成図、図３は第２の照合/判定部１２の
構成図である。説明は主に図２を用いて行うが、必要に
応じて図３及び、図３を参照する。また、図２及び図３
の各構成要素について、名称が同じものは同じ機能を有
する。図２及び図３において、２１は複数フレームバッ
ファ、２２は部分距離計算部、２３は距離累積部、２４
は経路判定部、２５は判定部である。

【００１８】図２において、複数フレームバッファ２１
は第ｉフレームの近隣のフレームの特徴パラメータを統
合してパターンマッチング（部分マッチング）に用いる
入力ベクトルを形成する部分である。第ｉフレームにお
ける入力ベクトル

【００１９】

【外１】

【００２０】は、次のように表わされる。

【００２１】

【数１】

【００２２】これはmフレームおきにi−L1〜i＋L2フレ
ームの特徴パラメータを統合したベクトルである。L1=L
2=3，m=2 とするとＸiの次元数は(p+2)×{(L1+L2+1)/m+
1}＝12×4＝48となる。mが２以上の値をとる場合にはフ
レームを間引いて入力ベクトルを形成することに相当す
る。音声片標準パターン格納部６は音声片の標準パター
ンを部分パターンの結合として格納してある部分であ
る。ここで音声片標準パターン作成法をやや詳細に説明
する。

【００２３】［音声片標準パターン作成方法］音声片と
は、音声認識の基本単位として用いる音声の素片であ
り、種類としては音素、音節（ＣＶ）、半音節（ＶＣ、
ＣＶ）、母音−子音−母音連鎖（ＶＣＶ）等がある。な
おＣは子音をＶは母音を意味する。以下の説明では、一
例として音声片の種類として音節（ＣＶ）を用いる場合
について説明を行う。

【００２４】例えば音声片/sa/の標準パターンは次のよ
うな手段で作成する。（１）多数の人が発声した音声データから、/sa/と発声
している部分を切り出す（１００個サンプルが切り出さ
れているとする）。（２）１００個の/sa/の持続時間分布を調べ、１００個
の平均時間長JSを求める。（３）JSの時間長のサンプルを１００個の中から探し出
す。複数のサンプルがあった場合はフレームごとに複数
サンプルの平均値を計算する。このように求められた代
表サンプル

【００２５】

【外２】

【００２６】を

【００２７】

【数２】

【００２８】とする。ここでｓ_jは１フレームあたりの
パラメータベクトルであり、分析パラメータと同様に１
１個のＬＰＣケプストラム係数と差分パワーで構成され
る。（４）１００個分の各サンプル（数１）と代表サンプル
（数２）との間でパターンマッチングを行ない、代表サ
ンプルのフレームと１００個分の各サンプルのフレーム
間の対応関係を求める（最も類似したフレーム同志を対
応づける）。なお、フレーム間の対応関係は例えばダイ
ナミックプログラミングの手法を用いれば効率よく求め
ることができる。（５）代表サンプルの各フレーム（j＝1〜JS）に対応し
て、１００個分のサンプルそれぞれから（数１）の形の
部分ベクトルを切り出す。簡単のため l1＝l2＝3、m＝1
とする。

【００２９】代表サンプルの第jフレームに相当する、
１００個分のデータのうち第ｎ番目のサンプルの部分ベ
クトルを

【００３０】

【数３】

【００３１】とする。ここでjは同一単語/sa/の第ｎ番
目のサンプル中、代表ベクトルの第jフレームに対応す
るフレームであることを示す。本実施例では４８次元の
ベクトルである（ｎ＝1〜100）。（６）１００個の

【００３２】

【外３】

【００３３】の平均値

【００３４】

【外４】

【００３５】（４８次元）と共分散行列

【００３６】

【外５】

【００３７】（４８×４８次元）を求める（j＝1〜J
S）。平均値と共分散行列は標準フレーム長の数JSだけ
存在することになる（ただし、これらは必ずしも全フレ
ームに対して作成する必要はない。間引いて作成しても
よい）。上記（１）〜（６）同様の手続きで音声片/sa/
以外の音声片に対しても

【００３８】

【外６】

【００３９】を求める。全ての音声区間に対する全ての
サンプルデータに対し、移動平均

【００４０】

【外７】

【００４１】（４８次元）と移動共分散行列

【００４２】

【外８】

【００４３】（４８×４８次元）を求める。これらを周
囲パターンと呼ぶ。次に平均値と共分散を用いて標準パ
ターンを作成する。ａ．共分散行列を共通化する

【００４４】

【数４】

【００４５】ここでhは音声片の種類でＣＶの場合、１
３０程度である。また、gは周囲パターンを混入する割
合であり通常g＝1 とする。

【００４６】ｂ．各音声片の部分パターン

【００４７】

【外９】

【００４８】を作成する。

【００４９】

【数５】

【００５０】

【数６】

【００５１】これらの式の導出は後述する。音声片標準
パターン作成法の例を図４に示す。学習用サンプルの始
端と終端の間において、標準サンプルとのフレーム対応
を求めて、それによって音声片サンプルをJSに分割す
る。図４では、代表サンプルとの対応フレームを求めて
(j) で示してある。そして、(j)＝１〜(JS)の各々につ
いて、(j)−L1〜(j)＋L2 の区間の１００個分のデータ
を用いて平均値と共分散を計算し、部分パターン

【００５２】

【外１０】

【００５３】を求める。従って、音声片h の標準パター
ンは互にオーバーラップする区間を含むJh個の部分パタ
ーンを接続して寄せ集めたものになる。周囲パターンは
図のようにL1+L2+1フレームの部分区間を1フレームずつ
シフトさせながら平均値と共分散を求める。周囲パター
ン作成の範囲は音声区間のみならず前後のノイズ区間も
対象としてもよい。各単語について得られた音声片標準
パターンは音声片標準パターン格納部６にあらかじめ格
納しておく。

【００５４】［音声片連結］単語辞書５には認識する単
語毎に音声片の連結情報が記述され、図５にその例を示
す。単語標準パターン生成部７はこの音声片連結情報に
従って音声片標準パターン格納部６に格納されている音
声片標準パターンを読み出し連結する。この連結操作に
より、図６の例に示すように単語の疑似的な標準パター
ン（以下、「単語標準パターン」と記す）が形成され
る。以上の様にして作成された単語ｋの単語標準パター
ンを

【００５５】

【数７】

【００５６】

【数８】

【００５７】と表わす。なお、前述の通り、図２の場合
には、第１単語標準パターン加工部８でフレーム間引き
を行ったデータを単語標準パターンとして用いる。図３
の場合にはフレーム間引きは行わないが第２単語標準パ
ターン加工部１３において、単語標準パターンの両端に
環境標準パターン格納部１４に格納されている環境標準
パターンを付加して加工した標準パターンを用いる。

【００５８】［部分距離の計算］上記のようにして形成
された単語標準パターンと複数フレームバッファとの間
の距離（部分距離）を部分距離計算部２２において計算
する。なお、図２の場合にはフレーム間引きデータにつ
いて照合を行っているので今後の説明で用いるフレーム
番号を現わす添え字iおよびｊはフレーム間引きを行っ
たフレームについて新たに番号をつけ直すものとする。

【００５９】部分距離の計算は(数１)で示す複数フレー
ムの情報を含む入力ベクトルと各単語の部分パターンと
の間で、統計的な距離尺度を用いて計算する。単語全体
としての距離は部分パターンとの距離（部分距離）を累
積して求めることになるので、入力の位置や部分パター
ンの違いにかかわらず距離値が相互に比較できる方法で
部分距離を計算する必要がある。このためには、事後確
率に基づく距離尺度を用いる必要がある。すなわち、入
力(数１)と単語ｋの第j番目の部分パターン

【００６０】

【外１１】

【００６１】との距離を、事後確率

【００６２】

【外１２】

【００６３】よって計算する。ベイズの定理により次式
のようになる。

【００６４】

【数９】

【００６５】右辺第１項は、各単語の出現確率を同じと
考え、定数として取扱う。右辺第２項の事前確率は、パ
ラメータの分布を正規分布と考え、次式のようになる。

【００６６】

【数１０】

【００６７】(数１０)は単語とその周辺情報も含めて、
生起し得る全ての入力条件に対する確率の和であり、パ
ラメータがＬＰＣケプストラム係数やバンドパスフィル
タ出力の場合は、正規分布に近い分布形状になると考え
ることができる。ここでは（数１０）が、平均と共分散
がそれぞれ

【００６８】

【外１３】

【００６９】の正規分布に従うものと仮定する。

【００７０】

【数１１】

【００７１】（数１０）、（数１１）を（数９）に代入
し、対数をとって、定数項を省略し、さらに−２倍する
と、次式を得る。

【００７２】

【数１２】

【００７３】この式は、ベイズ距離を事後確率した式で
あり、識別能力は高いが計算量が多いという欠点があ
る。この式を次のようにして線形判別式に展開する。全
ての単語に対する全ての部分パターンそして周囲パター
ンも含めて共分散行列が等しいものと仮定する。このよ
うな仮定のもとに共分散行列を（数４）によって共通化
し、（数１２）に代入し整理すると次の様な簡単な線形
識別式を導くことができる。

【００７４】

【数１３】

【００７５】

【外１４】

【００７６】は（数７）、（数８）で既に示したもので
あり、この対で単語ｋの第j番目の標準パターンを表現
していることになる。

【００７７】距離累積部２３は、各単語に対する部分距
離j＝1〜Jkの区間に対して累積し、単語全体に対する類
似度を求める部分である。その場合入力部分（Ｉフレー
ム）を各単語の標準時間長Jkに伸縮しながら累積する必
要がある。この計算はダイナミックプログラミングの手
法（ＤＰ法）を用いて効率よく計算できる。

【００７８】図２では音声区間検出を行わない端点フリ
ーの照合を行うことによりワードスポッティング法をも
ちいているので単語照合の処理は以下の様になる。ワー
ドスポッティング法の場合、音声区間検出を行わないの
で、照合演算は音声を含む十分長い区間について行う。
すなわち、音声区間検出を行う場合の様に、照合開始時
点であるi=1を音声の始端とし、i=Iを音声の終端として
照合演算をすることは意味を持たない。ワードスポッテ
ィング法では、全入力区間について音声の始終端を仮定
して単語標準パターンに対する照合スコアを算出する。
即ち経路判定24において行う部分類似度の累積演算は次
のようになる。ここで、入力の第ｉフレーム部分と第ｊ
番目の部分パターンとの部分距離を単語番号の添字kを
省略してＬ(i,j)と表現し、(i,j)フレームまでの累積距
離をg(i,j)と表現することにする。経路判定部２４は

【００７９】

【数１４】

【００８０】の演算を行い、式で示した３つの経路のう
ち累積距離が最小になる経路を選択する。このようにし
て、逐次距離を累積したのち、判定部２５では、iに対
してg(i、J)が最も小さい値をとった時に、このg(i,J)を
単語標準パターンの最終的な照合スコアとし、この時の
iを音声の終端とする。音声の始端は、経路判定部２４
の判定した経路を辿ることにより得ることができる。

【００８１】図３の経路判定部３４で行う演算は、端点
固定の処理であるので、以下の様になる。

【００８２】

【数１５】

【００８３】（数１５）では、便宜上、音声のフレーム
iを番号を照合区間の始端が１、終端がＩになるように
つけなおしている。

【００８４】経路判定部３４は、（数１５）で示した３
つの経路のうち累積距離が最小になる経路を選択する。
このようにして、逐次距離を累積してゆき、j＝Jk，i＝
Iとなる時点での累積距離g(i,Jk)単語ｋの照合スコアと
する。判定部３５は、累積距離g(i,Jk)の最小値を与え
る単語ｋを求め出力する。

【００８５】以下、本発明の第２の実施例を説明する。
図７は本発明の第２の実施例の構成図を示したものであ
る。図７において、図１と同じ構成要素には同じ番号を
付している。第１の実施例と異なる点は第１の照合／判
定部４および単語標準パターン併合部４１であり、次に
これらで行う処理内容について詳しく説明する。ま
ず、単語標準パターン併合部４１で行う処理内容につい
て説明する。部分距離計算での計算量削減のため、部分
標準パターン２フレームを組とし１つにまとめる。線形
判別式を用いているので、ＤＰパス上の部分距離の和を
求めることは、対応するパラメータを先に加えてから部
分距離を求めるのと等しい。従ってこの処理は２フレー
ム毎のＤＰパスを１つに固定することになる。部分標準
パターン

【００８６】

【外１５】

【００８７】は従来の

【００８８】

【外１６】

【００８９】と

【００９０】

【外１７】

【００９１】を１フレーム分ずらして併合して作成す
る。つまり従来の部分距離を（数１６）、（数１７）に
示すと、

【００９２】

【数１６】

【００９３】

【数１７】

【００９４】部分距離は上記２式をまとめて、

【００９５】

【数１８】

【００９６】となり、２フレーム毎のＤＰパスを１つに
固定することを条件として、従来の部分距離を求めるの
と等しくなる。

【００９７】この改良により、部分距離計算に用いる特
徴パラメータをＬフレーム分とすると（Ｌ＋１）／２Ｌ
に計算量を削減することができる。第２の実施例ではパ
ラメータとしてＬ＝４とすると、この場合の計算量は５
／８に削減できる。

【００９８】次に、第１の照合／判定部４２で行う処理
内容について図面を用いて説明する。図８は第１の照合
／判定部４２の処理の流れの詳細を示す構成図である。
第１単語標準パターン加工部８および単語標準パターン
併合部４１から得られる単語標準パターンと複数フレー
ムバッファとの部分距離を部分距離計算部２２にて計算
する。代表部分距離選択部５１で入力に対する２フレー
ム分の部分距離に対して、あらかじめ距離の小さい方を
代表部分距離

【００９９】

【外１８】

【０１００】とすると、（数１９）となる。

【０１０１】

【数１９】

【０１０２】この代表部分距離について、距離累積部２
３で累積し、単語全体に対する類似度を求める。その場
合入力部分（Iフレーム）を各単語の標準時間長Jkに伸
縮しながら累積する必要がある。この計算は第１の実施
例と同様ＤＰ法を用いて効率よく計算できる。

【０１０３】図８では音声区間検出を行わない端点フリ
ーの照合を行うことによりワードスポッティング法をも
ちいているので単語照合の処理は以下の様になる。ワー
ドスポッティング法の場合、音声区間検出を行わないの
で、照合演算は音声を含む十分長い区間について行う。
ワードスポッティング法では、全入力区間について音声
の始終端を仮定して単語標準パターンに対する照合スコ
アを算出する。即ち経路判定５２において行う部分類似
度の累積演算は次のようになる。ここで、入力の第ｉフ
レーム部分と第ｊ番目の部分パターンとの部分距離を単
語番号の添字kを省略してtypＬ(i,j)と表現し、(i,j)フ
レームまでの累積距離を

【０１０４】

【外１９】

【０１０５】と表現することにする。経路判定部５２は

【０１０６】

【数２０】

【０１０７】の演算を行い、式で示した３つの経路のう
ち累積距離が最小になる経路を選択する。このようにし
て逐次距離を累積した後、判定部２５ではiに対してｇ
(i,J)が最も小さい値をとった時に、このｇ(i,J)を単
語標準パターンの最終的な照合スコアとし、この時のｉ
を音声の終端とする。音声の始端は、経路判定部５２の
判定した経路を辿ることにより得ることができる。以
後、第１の実施例と同様の処理を行う。

【０１０８】

【発明の効果】以上説明したように本発明は、まず間引
かれたデータを用いて照合演算によってあらかじめ単語
候補を絞り込んだ後に、絞り込まれた候補に対して間引
きをしないデータを用いた照合を行うことにより認識性
能を確保しながら計算量の削減を図るという効果があ
り、同一規模のハ−ドウェアで実現する場合を考える
と、従来例に比べて認識性能を保ちながら語彙数を１桁
程度拡大することができる。また、環境パターンつき単
語標準パターンを用いることにより音声区間の外側の区
間を含めて照合をすることにより、ワードスポッティン
グの場合に問題となる、単語が他の単語の１部と照合す
ることにより誤認識が生ずる部分マッチングの現象が生
じないばかりか、精密な音声区間の検出も行わないた
め、ノイズに対して頑強な音声認識装置の実現が可能と
なる。

【０１０９】さらに第２の実施例においては、部分標準
パターンを複数フレーム毎に併合することにより部分積
の計算の削減し、かつ、ＤＰの格子点を辞書軸・入力軸
それぞれ１／２に削減することで比較演算回数を大幅に
削減している。

【図面の簡単な説明】

【図１】本発明の第１の実施例における音声認識装置の
構成図

【図２】同実施例の構成要素である第１の照合／判定部
の構成図

【図３】同実施例の構成要素である第２の照合／判定部
の構成図

【図４】同実施例における音声片標準パターン作成方法
の説明図

【図５】同実施例における単語標準パターンの例を示す
図

【図６】同実施例における単語辞書の例を示す図

【図７】本発明の第２の実施例における音声認識装置の
構成図

【図８】同実施例の構成要素である第１の照合／判定部
の構成図

【図９】従来の音声認識装置の構成図

【符号の説明】

１音響分析部２フレームクロック信号発生部３分周部４第１の照合／判定部５単語辞書６音声片標準パターン格納部７単語標準パターン生成部８第１単語標準パターン加工部９候補選択部１０パラメータ記憶部１１端点位置決定部１２第２の照合／判定部１３第２単語標準パターン加工部１４環境標準パターン格納部４１単語標準パターン併合部５１代表部分距離選択部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 3/00 ５３１Ｊ (72)発明者平岡省二神奈川県川崎市多摩区東三田３丁目10番１号松下技研株式会社内 (56)参考文献特開平５−73087（ＪＰ，Ａ) 特開平５−150797（ＪＰ，Ａ) 特開昭62−134699（ＪＰ，Ａ) 特開昭62−133499（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/06 G10L 15/10 G10L 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声信号を分析の基本単位であるフ
レーム毎に分析し分析パラメータを抽出する音声分析手
段と、分析フレームのタイミング信号を発生するフレー
ムクロック発生手段と、上記フレームクロックを所定の
分周比で分周して分周クロック信号を得る分周手段と、
単語を音声片を表す記号の系列で表記した単語辞書と、
予め多数の人が発声した音声データを用いて作成される
音声片データの一部を表現する部分標準パターンの系列
により構成される音声片標準パターンを格納する音声片
標準パターン格納手段と、上記音声片標準パターンを上
記単語辞書の表記内容に従って接続することにより単語
の標準パターンを得る単語標準パターン生成手段と、上
記単語標準パターンを構成する特徴パラメータ系列の一
部を間引くことによりデータ間引き単語標準パターンを
作成する第１の単語標準パターン加工手段と、上記分周
クロック信号を受け取る毎に同時点における上記分析パ
ラメータから得られる特徴パラメータと上記データ間引
き単語標準パターンの部分標準パターンとの間の距離で
ある部分距離を算出し、当該時点およびそれ以前の特徴
パラメータ系列に対して既に求められている上記データ
間引き単語標準パターンとの間の部分距離を累積するこ
とにより、当該時点を単語の終端と仮定した場合のデー
タ間引き単語標準パターンの入力に対する最小の距離お
よびそれに付随する始端位置を得て、上記分周クロック
毎に上記最小の距離を上記始端位置と併せて各単語毎に
更新する第１の照合／判定手段と、入力音声の終了時点
で全認識対象単語の単語標準パターンに対する距離を相
互に比較することにより距離値の小さい順に所定の個数
候補単語を得る候補単語選択手段と、上記候補選択手段
によって選択された候補単語に付随する始端および終端
候補群から音声区間を確実に含む区間を決定する端点位
置決定手段と、上記分析パラメータを全入力区間にわた
って記憶するパラメータ記憶手段と、あらかじめ音声以
外の区間の音響信号から作成された環境標準パターンを
格納する環境パターン格納手段と、上記環境標準パター
ンを上記単語標準パターンの前後に接続して環境標準パ
ターンつき単語標準パターンを作成する第２の単語標準
パターン加工手段と、上記単語候補選択手段により選択
された単語候補群に対応する環境標準パターンつき単語
標準パターンと上記パラメータ記憶手段に格納されてい
る上記端点位置決定手段によって決定された区間におけ
るパラメータ系列との間の距離を部分距離を累積するこ
とにより算出し、上記候補単語毎に得られる距離を相互
比較することによりもっとも値の小さい距離値を得た単
語候補を認識結果として出力する第２の照合／判定手段
とからなる音声認識装置。
【請求項２】第１の照合／判定手段の処理においてフ
レーム間引きを利用して部分距離の算出と単語照合にお
ける計算を簡略化することを特徴とする請求項１記載の
音声認識装置。
【請求項３】第１の単語標準パターン加工手段で作成
されたデータ間引き単語標準パターンの部分標準パター
ンを同一複数フレームを組として１つにまとめることに
よりデータ間引き併合単語標準パターンを作成する第１
の単語標準パターン併合手段を付加し、第１の照合／判
定手段は、分周クロック信号を受け取る毎に同時点にお
ける分析パラメータから得られる特徴パラメータと上記
データ間引き併合単語標準パターンの部分標準パターン
との間の距離である部分距離を算出する部分距離計算部
と、前記部分距離と当該時点より前時点の部分距離を比
較し距離の小さい方を代表部分距離とする代表部分距離
選択部と、当該時点およびそれ以前の特徴パラメータ系
列に対して既に求められている上記データ間引き単語標
準パターンとの間の代表部分距離を累積する距離累積部
と、当該時点を単語の終端と仮定した場合のデータ間引
き単語標準パターンの入力に対する最小の距離およびそ
れに付随する始端位置を得て、上記分周クロック毎に上
記最小の距離を上記始端位置と併せて各単語毎に更新す
る判定部とを有し、部分距離の算出および単語照合にお
ける計算を簡略化することを特徴とする請求項１記載の
音声認識装置。
【請求項４】部分距離は統計的距離尺度を用いて算出
し、上記統計的距離尺度が事後確率に基づく距離尺度で
あることを特徴とする請求項１乃至３のいずれかに記載
の音声認識装置。
【請求項５】部分距離は統計的距離尺度を用いて算出
し、上記統計的距離尺度が事後確率に基づく一次判別式
であることを特徴とする請求項１乃至３のいずれかに記
載の音声認識装置。