JPS60140398A

JPS60140398A - 音声認識方式

Info

Publication number: JPS60140398A
Application number: JP24692783A
Authority: JP
Inventors: 小松　昭男; 浅川　吉章; 畑岡　信夫; 市川　熹
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-12-28
Filing date: 1983-12-28
Publication date: 1985-07-25
Also published as: JPH0462400B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の対象〕本発明は、音韻レベルで記述された認識対象単語辞書を
用いて未知入力音声を認識する音声認識方式に関するも
のである。

〔発明の背景〕

従来の単語音声認識において、単語辞書の構成法に二つ
の方式がある。その一つは、音響、６ラメータの系列で
単語を表現するものであり、他の一つは、音韻に対応し
た記号の系列で単語を表現するものである。後者は音声
の基本的な単位である音韻レベルに対応した記号で表現
しているため、認識対象単語の指定や変更が容易である
が、音韻レベルに対応したパターンは比較的に少数であ
り、単語数が増加した時に似かよった単語を分離する能
力が低下してしまう。一方、前者の場合には、認識すべ
き単語音声そのものを分析した音響パラメータをそのま
ま用いるため、認識精度は高い。

しかし、認識対象単語の指定や変更が容易でないばかり
でなく、単語数の増加にともない、膨大な記憶容量や認
識処理量が必要になってしまう。記憶容量や処理量の削
減に関しては、例えば、特開昭５７−６３６００号公報
にみられるように１種々の工夫がなされている。しかし
、認識対象単語の指定や変更が容易ではないため、今後
％に強い二−ズが予測される大語い認識においては大き
な問題となる。

〔発明の目的〕

本発明の目的は、上述の問題点を解消し、音響パラメー
タを利用した場合の高い認識精度を保ちながら、認識対
象卑語を容易に指定・変更できる方式を提供することに
ある。

〔発明の概要〕

上記の目的を達成するため、本発明では基本的な音響パ
ラメー・夕（プリミティブ）を利用した入力音声との距
離計１！ｉ、’Ｔｈ行ない、プリミティブの組合せＫよ
って音韻レベルに対応したマスタープリミティブへの変
換を行なう音韻化テーブルを設け、各プリミティブとの
距離結果をマスタープリミティブとの距離に変換する。

これＫより、マツチングに用いる系列辞書は、音韻レベ
ルに対応したマスタープリミティブの系列で記述してお
けばよいので、認識対象単語の指、定や変更が記号レベ
ルで容易に行なうことができるようＫなる。

〔発明の実施例〕

以下、本発明の一実施例を第１図により説明する。第１
図において、音声入力端子１より未知入力音声が入力さ
れる。分析部２において、入力音声をディジタル化し、
スペクトルパラメータを抽出する。各種の分析方法が考
えられるが、ここでは、１６チヤンネルのフィルタパン
クによる分析とする。分析結果として２０ｍ秒ごとのフ
レーム単位に１６個のバンドパスフィルタの出力（ａｔ
ｌｚ＝ｉ−１６が得られるものとする（本発明は、この
ような分析方法や分析条件に限定されないことは明らか
である）。プリミティブセット３は、物理的な尺度によ
って作成されたプリミティブ（基本的なスペクトルパラ
メータ）を集めたものである。プリミティブの選出に関
しては、クラスタリング手法を応用した種々の方法があ
る。ここではＭ個のプリミティブをあらかじめ準備して
おくものとする。個々のプリミティブはスペクトルパラ
メータを用い【表現されており、ｉ番目のプリミティブ
をバンドパスフィルタの出力で表現しくＰ′）　である
とする（ｉ＝１．Ｍ）。距離計ｔｔ＝１．１６鼻部４において、未知音声とプリミティブとの距離計算
を行ない、フレーム単位にＭ個の距離が＼（ｉ＝１．Ｍ
）が得られる。距離計算の方法は、たとえば、（１）式
が利用できる。

音韻化テーブル５は、プリミティブの組合せによってＮ
個のマスタープリミティブを定義するものである。マス
タープリミティブは音韻レベルに対応しており、音韻に
対応した記号化が可能である。すなわち、音韻化テーブ
ル５によってプリミティブの組合せに音韻的な意味づけ
を行なっていることになる。音韻化テーブル５の構成方
法の例を以下に述べる（この例ではＮ＝５０）。５０個
のマスタープリミティブを考え、５０音節に対応させる
場合を考える。ｉ番目（ｉ＝１〜５０）の音節を発声し
、その音声のスペクトルパラメータの列に一番近いプリ
ミティブの列（Ｐｉｌ　、ｐ、□、・・・・・・。

Ｐｉｋ）　請求める。この処理は、通常用いられている
パターンマツチングの手法を用いて容易に実現すること
ができる。５０音節の入力音声に対する上述の処理を繰
返すことにより、５０個のマスタープリミティブに変換
するに必要な５０種のプリミティブの組合せを得ること
ができ、これを表にして音韻化テーブルとする。第２図
に音韻化テーブルのイメージを示す。音韻化計算部６に
おいて、音韻化テーブル５の内容に沿って未知入力音声
の音韻化処理を行なう。音韻化処理の具体的な内容は、
通常のＤ　Ｐ　（Ｄｙｎａｍｉｃ　Ｐｒｏｇｒａｍｍｉ
ｎｇ　）法を用いたパターンマツチングを基本とする。

ただし、未知入力音声の音節毎の始終点は不明であるた
め、切り出し処理が不要な連続ＤＰマ、チング法が効果
的である（連続ＤＰマツチング法に関しては、例えば、
昭和５８’？３月の日本音響学会講演論文集の「連続Ｄ
Ｐマツチングに関する考察」などを参照のこと）。連続
ＤＰマ、チングにより得られる結果は、５０個に圧縮さ
れたパラメータ（すなわち、５０音節からの５０個の距
離）Ｋ圧縮されたことになる。さらに時間軸方向の圧縮
も可能である。時間軸方向での圧縮に関しては、時間軸
上で均−妊圧縮する場合と、音声パワーなどのパラメー
タの変化を考慮して不均一に圧縮する場合とがある。こ
こでは、説明を簡単妬するため、時間的に連続した５フ
レーム（１フレームは本実施例では２０ｍ秒に対応）を
調べ、その間の距離の最小値（類似度の場合には最大値
）で代表させることＫより、１００ｍ秒毎に新しい５０
個のパラメータが得られたことになる。以上の説明より
、音韻化処理部６の処理は、従来技術の組合せで簡単に
実現できることがわかる。

音韻化処理部６の処理をまとめると、プリミティブと入
力音声との距離に基づいて、５０種のプリミティブの組
合せ（マスタープリミティブであり音節に対応している
）と入力音声との距離に、変換したことになる。同様の
処理が、系列辞書７を用いてマツチング部８で行なわれ
る。すな−わち、マスタープリミティブと入力音声との
距１ｉｌＩヲ用いて、系列辞−ｖ７に記述されているマ
スタープリミティブの系列、すなわち、例えば“オンセ
イ”などのような単語、との距離に変換できる。その結
果、マツチング部８の結果として、系列辞書に記述され
ている各単語と入力音声との距離がまる。

判定部９においては、マ、チ／グ結果を用いて最終的な
認識結果１０を出力する。その判定方法には種々のもの
があるが、Ｂｅ５ｔ　Ｆｉｒｅｔ法が一般的である。Ｋ
ＮＮ　（Ｋ−Ｎｅａｒｅｓｔ　Ｎｅｉｇｈｂｏｕｒ）法
により認識率の向上が図れる場合もある。いずれＫしろ
、−判定部９は従来技術で実現可能である。

第３図に他の実施例を示す。その基本的な構成要素は第
１図と同じであり、共通的な部分σン説、明は省略する
。第３図において、１０数字を認識対象単語とした場合
の系列辞書２７には、各単語に対応したマスタープリミ
ティブの系列が定義されている。ここで、マスタープリ
ミティブとしては、音韻レベル、又はさらに細かい音素
または詳細な発音記号レベルであり、単語系列を一般的
に記述す゛ることのできる中間語的な存在である。一方
、入力音声２１０入力手段としては、電話器や接話マイ
クなど力〜あり、さらに、分析部２２の分析方法や分析
条件には種々のものがある。ここでは、電話器を利用し
た音声認識装置とする。プリミティブセ２）２３には、
種々の電話音声を効率よくカバーするようにクラスタリ
ング手法を用いて作成されたプリミティブを格納してお
く。入力音声２１は分析部２２により分析され、その分
析結果がプリミティブセット２３を利用して距離計算部
２４１Ｃより量子化されたことＫなる。さらに、音韻化
テープ／Ｌ−２５を利用して、音韻化処理部２６におい
て、プリミティブによる量子化をマスタープリミティブ
による量子化に変換する。この変換方法として、第３図
の音韻化テーブル２５に例示したように、各マスタープ
リミティブに近い数個（２〜３個）のプリミティブに対
応した距離（前記の実施例でのＱの値）の平均値で対応
づける。

このような音韻化計算部２６の処理内容は、音響的な特
性を考慮した座標系による距離を、音韻的な特性を考慮
した座標系による距離に変換したことを意味する。この
ような軸変換方式の利点は、青畳処理部の変更にともな
う音声認識装置の変更部分を最小限にすることができる
ことである。たとえば、本実施例のような電話音声を利
用した音声認識装置を、接話マイクを利用した装置に変
更する場合、音響的な特性に関した部分の変更のみでよ
い。すなわち、分析部２２の変更とともＫ。

その分析条件に合った最適プリミティブセットをめ、マ
スタープリミティブとの対応関係を再定義するだけの変
更で済む。これＫより、音声の音韻性に関する知識等を
利用した判定部の複雑な処理内容の変更は皆無であり、
効率のよい認識装置の開発が可能となる。なお、本実施
例で記した軸変換の方式が可能なことは、本発明の特徴
の一つである。すなわち、従来の種々の認識方式におい
ては、平均値化処理などの統計的な処理が、音響的な特
性か音韻的な特性かのいずれかが基準罠なっていたのに
対し、木兄ＩＭＫおけるｌｉｉ！識方式では、音響的な
特性を音韻的な特性に変換する時点で統計的な手法を利
用することができ、より安定した認識率を得ることがで
きる。

〔発明の効果〕゛本発明によれば、音響パラメータを利用した場合の高い
認識精度を保ちながら、認識対象単語を容易に指定・変
更できるので、高いｇ識精度を保つ音声認識装置を効率
よく開発できる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す図、第２図はその実施
例における音韻化テーブルのイメージを示す図、第３図
は、他の実施例を示す図である。符号の説明１：音声人力子、２：分析部、３：プリミティブセット
、４：距離計算部、５：音韻化テーブル、６：音韻化計
算部、７：系列辞書、８：マツチング部、９：判定部、
１０：認識結果、２１：音声入力端子、２２：分析部、
２３：グリミティプセ、ト、２４：距離計算部、２５：
音韻化テーブル、２６：音韻化計算部、２７：系列辞書
、２８：マ、チング部、２９：判定部、ａ　ｏ　：　ｇ
ｌ１Ｍ！。

Claims

【特許請求の範囲】

（１）未知の入力音声をスペクトル分析し、物理的な尺
度を基準にして作成した音声の短時間スペクトルの特徴
を表わす基本パターン（プリミティブ）との距離を計算
し、プリミティブと音韻との関係を記述した音韻化テー
ブルを利用して前記の距離計算結果に対して演算を行な
うととＫより音韻レベルとの距離を新たに計算し、その
計算結果と音韻レベルの系列で記述された単語辞書を用
いてマツチングを行なうことＫより、未知入力音声を認
識することを特徴とする音声認識方式。