JP2749811B2

JP2749811B2 - 標準パターン作成方式

Info

Publication number: JP2749811B2
Application number: JP62311396A
Authority: JP
Inventors: 哲也室井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1987-12-09
Filing date: 1987-12-09
Publication date: 1998-05-13
Anticipated expiration: 2013-05-13
Also published as: JPH01152498A

Description

【発明の詳細な説明】技術分野本発明は、標準パターン作成方式、より詳細には、音
声認識におけるパターンマッチング技術に関する。従来技術音声確認におけるパターンマッチング手法としてDPマ
ッチングがある。これは局所距離を累積して認識結果を
得るものであり、累積の音声区間中の短い区間（例えば
単語音声における破裂部等）が全体に与える影響は全ん
ど無い。しかしながら、音声区間全体の各フレームの特
徴ベクトルを標準パターンとしており非常に効率が悪
い。目的本発明は、上述のごとき実情に鑑みてなされたもの
で、特に、少ないメモリーを用いて音声パターンを効率
よく表現できる標準パターンを作成する事を目的として
なされたものである。構成本発明は、上記目的を達成するために、入力した音声
を特徴ベクトルの時系列に変換する特徴系列変換手段を
用い、音声パターンを一定数（＞１）の状態に分割し、
各状態ごとに継続時間と該状態に帰属するフレームの特
徴ベクトルのセントロイドを登録する際に、標準パター
ンと音声パターンとのパターンマッチングを行なって音
声パターンの分割点を更新する標準パターン作成方式に
おいて、パターンマッチングと標準パターンの更新を繰
り返して収束した後に、状態内の歪みが最大となる状態
を分割するときの歪みの改善度をF1とし、連続する状態
のセントロイドの距離が最も小さい部分を統合するとき
の歪みの劣化度をF2とするとき、F1がF2より大きいとき
のみ、該分割と該統合を行なうことを特徴としたもので
ある。以下、本発明の実施例に基いて説明する。第１図は、本発明による標準パターン作成方式の一実
施例を説明するためのアルゴリズム、第２図は、全体構
成図、第３図は、音声パターンと標準ターンとの最適な
マッチングバスの例（Ｎ＝４）を示す図で、第２図にお
いて、１はマイク、２は特徴系列変換部、３は標準パタ
ーン作成部である。マイク１から入力された音声は、特
徴系列変換手段２により特徴ベクトルの時系列に変換さ
れる。特徴ベクトルとしては、様々なものが考えられる
が、例えば、中心周波数を250〜6300Hzに1/3オクターブ
ごとに配置した15チャンネルのバンドパスフィルター群
の出力を用いれば良い。また、フレーム周期は10ms程度
とする。ここで、入力音声のフレーム数をＩとすれば、
音声パターンは、と表現される（x_iはｉフレームの特徴ベクトル、x_ifは
ｉフレームの特徴ベクトルのｆ番目の要素、即ち、ｆチ
ャンネルの出力）。まず、音声パターンをＮ等分してＮ個の状態に分割
し、各状態に帰属する特徴ベクトルのセントロイドを計
算して、初期標準パターンとする。次に、標準パターン
と音声パターンとのマッチングを行なう。ここでパター
ンマッチングの方法について簡単に説明する。 step1. Ｄ（1,1）＝ｄ（1,1）Ｄ（1,j）＝∞ （２ｊＮ） step2. 全てのｉ＝２からｉ＝ＩについてＤ（i,1）＝ｄ（i,1）＋Ｄ（ｉ−1,1）但し、ｄ（i,j）は、入力音声のｉフレームの特徴ベ
クトルと標準パターンのｊ状態の特徴ベクトル（セント
ロイド）との局所距離、Ｄ（i,j）は、格子点（i,j）に
到達する最適なマッチングパスによる累積距離。以上のような漸化式を用いて、最終格子点（I,N）に
到達する最適パスを見つける。第３図では、第１状態に１〜b₁フレーム、第２状態に
b₁＋１〜b₂フレーム、第３状態にb₂＋１〜b₃フレーム、
第４状態にb₃＋１〜Ｉフレームが帰属している。ここ
で、新たに各状態に帰属したフレームからセントロイド
を計算し、新しい標準パターンを作成する。以上のように、パターンマッチング→分割点の変更→
標準パターンの更新を収束するまで繰り返す。ことき、第ｊ状態を代表する特徴ベクトルをYjとする
と、音声パターンと標準パターンとの誤差Ｄ（I,N）
は、但し、Ajは状態ｊに帰属するフレームの集合と表現で
きる。標準パターンの更新を繰り返してＤ（I,N）を小
さくしていくわけであるが、収束後、Ｄ（I,N）は極小
であっても最小である保証はない。そこで、まず、最大の状態内歪Ｓ（ｊ）を持つ状態２
つに分割する。｛ｉ′∈Aj｝＝｛isｉ′ie｝とすると、全ての分割点Ｐ（∈Aj）について、前端（is
〜Ｐ）のセントロイドと後端（Ｐ〜ie）のセントロイドを求める。このとき状態を分割することによる歪の改善
度F₁は、と表わされる。また、連続する２つの状態j,j＋１（１ｊ＜Ｎ）の
セトロイドの距離が最も小さい部分を見つけ、この２つ
の状態を統合してセントロイドを計算する。このとき、状態を統合することによる歪の
劣化率F₂は、 F₁＞F₂であれば、この状態の分割、統合によって音声パ
ターンと標準パターンとの誤差Ｄ（I,N）は状態数Ｎが
かわらず、改善されたことになる。また、この分割、統合部だけでは、周囲の状態への影
響を考慮していないので、さらにパターンマッチング→
分割点の変更→標準パターンの更新を繰り返す。また、F₁F₂であれば、分割・統合は行なわず、従来
のセントロイドを登録する。また、このときの各状態の
継続時間を計算して登録する。効果以上の説明から明らかなように、本発明によると、少
ないメモリーで効率的に音声パターンを表現できる標準
パターンが作成できる。

【図面の簡単な説明】第１図は、本発明による標準パターン作成方式の一実施
例を説明するためのアルゴリズム、第２図は、全体構成
図、第３図は、音声パターンと標準パターンとの最適な
マッチングバスの例を示す図である。１……マイク、２……特徴系列変換部、３……標準パタ
ーン作成部。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 515 - 521 G10L 9/00 - 9/18

Claims

(57)【特許請求の範囲】１．入力した音声を特徴ベクトルの時系列に変換する特
徴系列変換手段を用い、音声パターンを一定数Ｎ（＞
１）の状態に分割し、各状態ごとに継続時間と該状態に
帰属するフレームの特徴ベクトルのセントロイドを登録
する際に、標準パターンと音声パターンとのパターンマ
ッチングを行なって音声パターンの分割点を更新する標
準パターン作成方式において、パターンマッチングと標
準パターンの更新を繰り返して収束した後に、状態内の
歪みが最大となる状態を分割するときの歪みの改善度を
F1とし、連続する状態のセントロイドの距離が最も小さ
い部分を統合するときの歪みの劣化度をF2とするとき、
F1がF2より大きいときのみ、該分割と該統合を行なうこ
とを特徴とする標準パターン作成方式。