JPH0462400B2

JPH0462400B2 -

Info

Publication number: JPH0462400B2
Application number: JP24692783A
Authority: JP
Inventors: Akio Komatsu; Yoshiaki Asakawa; Nobuo Hataoka; Hiroshi Ichikawa
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-12-28
Filing date: 1983-12-28
Publication date: 1992-10-06
Also published as: JPS60140398A

Description

【発明の詳細な説明】〔発明の対象〕本発明は、音韻レベルで記述された認識対象単
語辞書を用いて未知入力音声を認識する音声認識
方式に関するものである。

〔発明の背景〕

従来の単語音声認識において、単語辞書の構成
法に二つの方式がある。その一つは、音響パラメ
ータの系列で単語を表現するものであり、他の一
つは、音韻に対応した記号の系列で単語を表現す
るものである。後者は音声の基本的な単位である
音韻レベルに対応した記号で表現しているため、
認識対象単語の指定や変更が容易であるが、音韻
レベルに対応したパターンが比較的に少数であ
り、単語数が増加した時に似かよつた単語を分離
する能力が低下してしまう。一方、前者の場合に
は、認識すべき単語音声そのものを分析した音響
パラメータをそのまま用いるため、認識精度は高
い。しかし、認識対象単語の指定や変更が容易で
ないばかりでなく、単語数の増加にともない、膨
大な記憶容量や認識処理量が必要になつてしま
う。記憶容量や処理量の削減に関しては、例え
ば、特開昭57−63600号公報にみられるように、
種々の工夫がなされている。しかし、認識対象単
語の指定や変更が容易ではないため、今後特に強
いニーズが予測される大語い認識においては大き
な問題となる。

〔発明の目的〕

本発明の目的は、上述の問題点を解消し、音響
パラメータを利用した場合の高い認識精度を保ち
ながら、認識対象単語を容易に指定・変更できる
方式を提供することにある。

〔発明の概要〕

上記の目的を達成するため、本発明では基本的
な音響パラメータ（プリミテイブ）を利用した入
力音声との距離計算を行ない、プリミテイブの組
合せによつて音韻レベルに対応したマスタープリ
ミテイブへの変換を行なう音韻化テーブルを設
け、各プリミテイブとの距離結果をマスタープリ
ミテイブとの距離に変換する。これにより、マツ
チングに用いる系列辞書は、音韻レベルに対応し
たマスタープリミテイブの系列で記述しておけば
よいので、認識対象単語の指定や変更が記号レベ
ルで容易に行なうことができるようになる。

〔発明の実施例〕

以下、本発明の一実施例を第１図により説明す
る。第１図において、音声入力端子１より未知入
力音声が入力される。分析部２において、入力音
声をデイジタル化し、スペクトルパラメータを抽
出する。各種の分析方法が考えられるが、ここで
は、16チヤンネルのフイルタバンクによる分析と
する。分析結果として20m秒ごとのフレーム単位
に16個のバンドバスフイルタの出力｛a｝＝
１…16が得られるものとする（本発明は、このよ
うな分析方法や分析条件に限定されないことは明
らかである）。プリミテイブセツト３は、物理的
な尺度によつて作成されたプリミテイブ（基本的
なスペクトルパラメータ）を集めたものである。
プリミテイブの選出に関しては、クラスタリング
手法を応用した種々の方法がある。ここではＭ個
のプリミテイブをあらかじめ準備しておくものと
する。個々のプリミテイブはスペクトルパラメー
タを用いて表現されており、ｉ番目のプリミテイ
ブをバンドバスフイルタの出力で表現し｛P_Ui｝
_=1,16であるとする（ｉ＝１，Ｍ）。距離計算部
４において、未知音声とプリミテイブとの距離計
算を行ない、フレーム単位にＭ個の距離Q_Ui（ｉ＝
１，Ｍ）が得られる。距離計算の方法は、たとえ
ば、(1)式が利用できる。

Qⁱ＝₁₆ 〓⁼¹ （Pⁱ−a）²……(1) 音韻化テーブル５は、プリミテイブの組合せに
よつてＮ個のマスタープリミテイブを定義するも
のである。マスタープリミテイブは音韻レベルに
対応しており、音韻に対応した記号化が可能であ
る。すなわち、音韻化テーブル５によつてプリミ
テイブの組合せに音韻的な意味づけを行なつてい
ることになる。音韻化テーブル５の構成方法は例
を以下に述べる（この例ではＮ＝50）。50個のマ
スタープリミテイブを考え、50音節に対応させる
場合を考える。ｉ番目（ｉ＝１〜50）の音節を発
声し、その音声のスペクトルパラメータの列に一
番近いプリミテイブの列｛P_i1，P_i2，……，P_ik｝
を求める。この処理は、通常用いられているパタ
ーンマツチングの手法を用いて容易に実現するこ
とができる。50音節の入力音声に対する上述の処
理を繰返すことにより、50個のマスタープリミテ
イブに変換するに必要な50種のプリミテイブの組
合せを得ることができ、これを表にして音韻化テ
ーブルとする。第２図に音韻化テーブルのイメー
ジを示す。音韻化計算部６において、音韻化テー
ブル５の内容に沿つて未知入力音声の音韻化処理
を行なう。音韻化処理の具体的な内容は、通常の
DP（Dynamic Programming）法を用いたパタ
ーンマツチングを基本とする。ただし、未知入力
音声の音節毎の始終点は不明であるため、切り出
し処理が不要な連続DPマツチング法が効果的で
ある（連続DPマツチング法に関しては、例えば、
昭和58年３月の日本音響学会講演論文集の「連続
DPマツチングに関する考察」などを参照のこ
と）。連続DPマツチングにより得られる結果は、
50個に圧縮されたパラメータ（すなわち、50音節
からの50個の距離）に圧縮されたことになる。さ
らに時間軸方向の圧縮も可能である。時間軸方向
での圧縮に関しては、時間軸上で均一に圧縮する
場合と、音声パワーなどのパラメータの変化を考
慮して不均一に圧縮する場合とがある。ここで
は、説明を簡単にするため、時間的に連続した５
フレーム（１フレームは本実施例では20m秒に対
応）を調べ、その間の距離の最小値（類似度の場
合には最大値）で代表させることにより、100m
秒毎に新しい50個のパラメータが得られたことに
なる。以上の説明により、音韻化処理部６の処理
は、従来技術の組合せで簡単に実現できることが
わかる。

音韻化処理部６の処理をもまとめると、プリミ
テイブと入力音声との距離に基づいて、50種のプ
リミテイブの組合せ（マスタープリミテイブであ
り音節に対応している）と入力音声との距離に変
換したことになる。同様の処理が、系列辞書７を
用いてマツチング部８で行なわれる。すなわち、
マスタープリミテイブと入力音声との距離を用い
て、系列辞書７に記述されているマスタープリミ
テイブの系列、すなわち、例えば“オンセイ”な
どのような単語、との距離に変換できる。その結
果、マツチング部８の結果として、系列辞書に記
述されている各単語と入力音声との距離が求ま
る。判定部９においては、マツチング結果を用い
て最終的な認識結果１０を出力する。その判定方
法には種々のものがあるが、Best Firet法が一般
的である。KNN（Ｋ−Nearest Neighbour）法
により認識率の向上が図れる場合もある。いずれ
にしろ、判定部９は従来技術で実現可能である。

第３図に他の実施例を示す。その基本的な構成
要素は第１図と同じであり、共通的な部分の説明
は省略する。第３図において、10数字を認識対象
単語とした場合の系列辞書２７には、各単語に対
応したマスタープリミテイブの系列が定義されて
いる。ここで、マスタープリミテイブとしては、
音韻レベル、又はさらに細かい音素または詳細な
発音記号レベルであり、単語系列を一般的に記述
することのできる中間語的な存在である。一方、
入力音声２１の入力手段としては、電話器や接話
マイクなどがあり、さらに、分析部２２の分析方
法や分析条件には種々のものがある。ここでは、
電話器を利用した音声認識装置とする。プリミテ
イブセツト２３には、種々の電話音声を効率よく
カバーするようにクラスタリング手法を用いて作
成されたプリミテイブを格納しておく。入力音声
２１は分析部２２により分析され、その分析結果
がプリミテイブセツト２３を利用して距離計算部
２４により量子化されたことになる。さらに、音
韻化テーブル２５を利用して、音韻化処理部２６
において、プリミテイブによる量子化をマスター
プリミテイブによる量子化に変換する。この変換
方法として、第３図の音韻化テーブル２５に例示
したように、各マスタープリミテイブに近い数個
（２〜３個）のプリミテイブに対応した距離（前
記の実施例でのＱの値）の平均値で対応づける。
このような音韻化計算部２６の処理内容は、音響
的な特性を考慮した座標系による距離を、音韻的
な特性を考慮した座標系による距離に変換したこ
とを意味する。このような軸変換方式の利点は、
音響処理部の変更にともなう音声認識装置の変更
部分を最小限にすることができることである。た
とえば、本実施例のような電話音声を利用した音
声認識装置を、接話マイクを利用した装置に変更
する場合、音響的な特性に関した部分の変更のみ
でよい。すなわち、分析部２２の変更とともに、
その分析条件に合つた最適プリミテイブセツトを
求め、マスタープリミテイブとの対応関係を再定
義するだけの変更で済む。これにより、音声の音
韻性に関する知識等を利用した判定部の複雑な処
理内容の変更は皆無であり、効率のよい認識装置
の開発が可能となる。なお、本実施例で記した軸
変換の方式が可能なことは、本発明の特徴の一つ
である。すなわち、従来の種々の認識方式におい
ては、平均値化処理などの統計的な処理が、音響
的な特性か音韻的な特性かのいずれかが基準にな
つていたのに対し、本発明における認識方式で
は、音響的な特性を音韻的な特性に変換する時点
で統計的な手法を利用することができ、より安定
した認識率を得ることができる。

〔発明の効果〕

本発明によれば、音響パラメータを利用した場
合の高い認識精度を保ちながら、認識対象単語を
容易に指定・変更できるので、高い認識精度を保
つ音声認識装置を効率よく開発できる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す図、第２図は
その実施例における音韻化テーブルのイメージを
示す図、第３図は、他の実施例を示す図である。符号の説明、１……音声入力子、２……分析
部、３……プリミテイブセツト、４……距離計算
部、５……音韻化テーブル、６……音韻化計算
部、７……系列辞書、８……マツチング部、９…
…判定部、１０……認識結果、２１……音声入力
端子、２２……分析部、２３……プリミテイブセ
ツト、２４……距離計算部、２５……音韻化テー
ブル、２６……音韻化計算部、２７……系列辞
書、２８……マツチング部、２９……判定部、３
０……認識結果。

Claims

【特許請求の範囲】

１未知の入力音声をスペクトル分析し、物理的
な尺度を基準にして作成した音声の短時間スペク
トルの特徴を表わす基本パターン（プリミテイ
ブ）との距離を計算し、プリミテイブと音韻との
関係を記述した音韻化テーブルを利用して前記の
距離計算結果に対して演算を行なうことにより音
韻レベルとの距離を新たに計算し、その計算結果
と音韻レベルの系列で記述された単語辞書を用い
てマツチングを行なうことにより、未知入力音声
を認識することを特徴とする音声認識方式。