JPH02232696A

JPH02232696A - 音声認識装置

Info

Publication number: JPH02232696A
Application number: JP1053166A
Authority: JP
Inventors: Motoaki Koyama; 元昭児山
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-03-06
Filing date: 1989-03-06
Publication date: 1990-09-14
Also published as: US5105465A; KR900015062A; EP0386706A3; EP0386706A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）この発明は音声信号に含まれる情報の認識を行う音声認
識装置に関する。

（従来の技術）音声認識のアルゴリズムは多種にわたり、実際、認識対
象の発声単位のすべての種類において性能を良好にする
には装置の大型化、コスト高はまぬがれない。そこで、
従来では使用目的に応じて認識語数、話者などの面で許
容できる制約を導入し、その条件のもとて最適の認識方
式が選択され、装置化されてきた。

第４図は従来の音声認工装置の構成を示すブロック図で
ある。音響分析部Ｈに入力された音声は帯域フィルタに
より、短時間スペクトルによる所定時間毎の分析が行わ
れ、特徴パラメタとして抽出される。この音響分肝部Ｈ
の出力に対し、切換＄１１　ａｍ部１２及び切換回路１
３．　１４で制御される認謙部１５．認鷹部ｌ６が設置
されており、どちらか最適な認識システムが選択され、
入力音声の認識が行われるようになっている。

上記認識部■５は例えば、発声者が変わるたびに音声の
標準パタンを登録し直す必要がある特定話者用の認識部
である。特定発声者、固６名詞等に対する認識はこの認
１部１５で行われるようになっており、登録変更可能な
標準パタンメモリＩ７がＲＡ　Ｍ　（　ｒａｎｄｏｍ　
ａｃｃｅｓｓ　＊ｃｓｏｒｙ）等により構成され、その
メモリデータが上記認識部１５に呼出されて、上記分析
された人力音声との類似度計算処理が行われる。この認
識部Ｉ５での認ぷアルゴリズムとしては、ＤＰマッチン
グ法（　Ｄ　Ｔ　Ｗ　：　ｄｙｎａｔｘｌｃ　ｔａｍｅ
Ｖａｒｌ）１ｎｇ）が適用されており、マッチングｆｆ
ｉ（距Ｍ）が計算され、最ら距離の小さい標準パタンの
カテゴリが認識結果として出力される。

他方、上記認１部１Ｇは例えば、誰もが使用する汎用的
な３Ｂｆａを登録変更不可能な標準パタンとして備えた
不特定話者用の認識部である。数字等、特定汎用語量に
対する認識はこの認識部１Ｇで行われるようになってお
り、登録変更不可能な標準パタンメモリ１８がＲ　Ｏ　
Ｍ　（　ｒｅａｄ　ｏｎｌｙ　ｍｅｍｏｒｙ）等により
構成され、そのメモリデータが上記認識部１６に呼出さ
れて、上記分析された入力音声との類似度計算処理が行
われる。この認識部１Ｂでの認エアルゴリズムとしては
、識別関数法による識別が適用されており、類似度コ１
算値が最も大きな標準パタンのカテゴリが認識結果とし
て出力される。

上；己認３部１５．　１８のように、用途に応じて複数
の認一部を切換える切換方式については、特開昭４９−
３５０７号公報に記載されているように、それぞれの２
．：Ｊ部における認識結果によって論理判断が行われ、
この判断のもとに切換制御部１２による制御で最適な認
識結果がｉリられるようにしている。

しかし、上記のような構成では用途に応じた認識部１５
．　１６を鑓えなければならない。また、切換回路１３
．　１４及び切換のための切換制御部ｌ２も必要であり
、装置の複雑化に伴い、大型化、コストが上昇する等の
欠点があった。

（発明が解決しようとする課題）このように従来では、特定話者及び不特定話者等、話者
、発声様式に関して異なった種類の制約があるものに対
して音声認識の性能向上を図るには上記それぞれの種類
に応じたアルゴリズムを持つ認識部を備えなければなら
ず、装置の複雑化に伴う大型化、コスト上昇を招くとい
う欠点がある。

この発明は上記のような事情を考慮してなされたもので
あり、その目的は、話者、発声様式に関して異なった種
類の制約があっても、音声認識性能を劣化させずに、装
置の小型化、低コスト化が図れる音声認識装置を提倶す
ることにある。

〔発明の構成コ（課題を解決するための手段）この発明の音声認識装置は入力された音声から特徴パラ
メータを抽出する音響分析手段と、話者、発声様式等に
関して異なった種類の制約を有する音声標準パタンを記
憶する制約別音声標準パタン記憶手段と、上記ｇ響分析
手段で得られた分析パタンと上記制約別音声標学パタン
記憶手段による音声標準パタンそれぞれとの類似度計算
を共通の認識アルゴリズムを用いて行う類似度計算手段
とから構成される。

（作用）特定話者、不特定話者等のそれぞれの音声の種別に対応
して用意された音声標準パタンは共通の類似度計算部に
よって、音響分析部からの出力信号と類似度計算される
。この類似度計算部により最適な２２データが出力され
る。

（実施例）以下、図面を参照してこの発明を実施例により説明する
。

第１図はこの発明に係る音声認識装置の基本構成を示す
ブロック図である。認識対象となる音声は音響分析部１
に入力され、音響分析が行われる。

音響分析部１からの分析結果は類似度計算部２に入力さ
れる。この類似度計算部２では、話者、発声様式等に関
して異なった種類の制約がある音声漂僧パタン、例えば
特定話と、固ａ名調等、登録変更を要する語量を対象と
した登録変更可能な標準パタンメモリ３−１、及び不特
定：舌者、数字等、汎用語量を対象とした登録変更不可
能なｔ１準パタンメモリ３〜２の両漂準パタンメモリの
各データが順次人力され、上記音響分析部１から出力さ
れる分析パタンとの類似度計算が共通の認識アルゴリズ
ムで行われ、最適な認虚結果が得られる。

第２図はこの発明の具体的な一実施例による構成のブロ
ック図である。以下、この発明のシステムを実現するた
め、各ブロックの構成について説明する。図において、
音響分析部１から出力された分担パタンは、認識モード
もしくは登録モードにされるように切換回路４が設けら
れている。また、切換回路４によって登録モードにされ
た時は上記分析パタンは標準パタン作成部５を介して上
記登録変更可能な標準パタンメモリ３−１に記憶される
。そして、切換回路４によって認識モードにされた時は
上記第１図と同様に類似度計算部２では両Ｊ！準パタン
メモリ３−１．３−２のメモリデータが順次人力され、
上記音響分析部１がら出力される分析パタンとの類似度
計算が共通の認識アルゴリズムで行われ、最適な認識結
果が得られる。

上記音響分析部１では、入力音声が数十ｍｓの適当な分
析窓長での短時間スペクトル分析により、スペクトルパ
ラメータの時系列に変換される。

上記スペクトル分析には、通常帯域フィルタ（　Ｂ　Ｐ
　Ｆ　：　ｂａｎｄ　　ｐａｓｓ　　Ｎｉｔｅｒ）　、
線形予測分析（　Ｌ　Ｐ　Ｃ　：　Ｉｌｎｅａｒ　　ｐ
ｒｅｄｌｃｔｌｖｅ　　ｅｏｄｌｎｇ）のいずれかが用
いられる。これによるスペクトルパラメータには、帯域
フィルタ分析の場合ではフィルタ出力の特徴ベクトルが
用いられ、線形予測分析の場合ではＬＰＣケブストラム
等、各社のＬＰＧスベクトルが用いられる。

上９紀切換Ｈ路４において、登録モードに設定された場
合、上記ＴＦｆ％１分析部１からの分析パタンは標準パ
タン作成部５に入力される。ここでは、例えば第３図に
示すような微分一直文化フィルタ法が適用される。すな
わち、音響分析部１から出力されるΔ声の特徴バラメタ
は登録用学習パタンとして時間軸で平滑され、第１軸が
生成される。また、時間．軸の一次歳分と第１軸との再
直交化で第２軸が生成される。また、時間軸上の二次微
分と上記２輔との再直交化で第３軸が生成される。さら
に、上記登録用学習パタンと上記３軸とのＧＳ（　ｇｒ
ａｍ−ｓｃｈａｉｄｔ）直交化により４軸が生成される
。

この方法は日本身響学会講演論文集の１９８７年１０月
号３７ページに記載されている、「１−５−１９　微分
一直交化フィルタを用いた特定話者単語音声認識方式」
からの引用である。

このようにして導出された標準パタンは、登録変更可能
な標準パタンメモリ３−１に記憶される。

他ｈ″、誰もが使用する数字等、汎用的な語量を登録麦
更不ｉ−＋Ｊ能な漂準パタンメモリ３−２として備えた
不特定話者用の漂準パタンの作成では、例えば次のよう
な方法が適用される。まず、各単語ごとに多数話者のス
ペクトル系列を分類（クラスタ化）し、各クラスタの中
心もしくは各クラスタに属する音声の災均スペクトル系
列を標準パタン（マルチテンプレート）として蓄える。

上記各標準パタンメモリ３−１　，３−２はソレぞれＲ
　Ａ　Ｍ　（　ｒａｎｄｏａ　ａｃｃｅｓｓ　ｍｅｍｏ
ｒｙ）　、Ｒ　Ｏ　Ｍ（　ｒｅａｄ　ｏｎｌｙ　ｍｅｍ
ｏｒｙ）等により構成される。マタ、これら共通の記憶
媒体としてＦ　Ｄ　ｃｒｌｏｐｐｙｄｉｓｋ）やＨ　Ｄ
　（ｈａｒｄ　ｄｌｓｋ）等の外部記憶装置があり、フ
ァイルすることにより、繰り返し利用できる。

上記切換回路４において、認識モードに設定された場合
、上記音響分析部１からの分折パタンは類似度計算部２
に人力される。これにより、各標準パタンメモリ３−１
．３−２のメモリデータがこの類似度計算部２に順次呼
出されて、分析された入力音声との類似度計算処理が行
われる。

上記類似度計算部２における類似度計算の一実施例とし
て、複合類似度法があげられる。すなわち、入力音声の
分析パタンデータＸに対し、標準パタンデータをＩＦｇ
とすれば、類似度Ｓは次式で与えられる。

Ｓ一Σ　（ｘ，　　Ｖｓ）２　／Ｉｔｘｌｌ　２　１１
１Ｆ＋　　ＩＮ・・・（１）二二で、腸は打切り面数であり、第３図において４軸ま
で求めているのでｓ−４となる。なお、打切り面数一は
４以外でも良い。上記（１）式で求められる類似度Ｓの
うち最も大きな値をとるカテゴリを認識結果とする。

上記構成によれば、話も、発声様式等に関して異なった
Ｆ！ｉ類の制約を有する各種音声標準パタンに対して入
力音声との類似度計算が共通の類似度計算部で行えるた
め、装置が小型化し、簡素化され、コスト低減が図れる
。また、上記標準パタン作成部５で行う微分一直交化フ
ィルタを用い方式は、少ない学習サンプルで高い性能が
得られ、しかも複合類似度法の認識アルゴリズムをその
まま利用できる点、また、登録変更不内Ｉ能な標準パタ
ンメモリ３−２における各種標準パタン作成方法は、幅
広く複合類似度法の認識アルゴリズムとのマッチングが
良いことから、共通の類似度計算部２を設定したことに
より、音声認識性能が劣化することはない。

なお、上記実施例における各ブロックにおいて示した標
準パタンの作成方法、分類は多種に渡り、特に限定はし
ないものとし、また、類似度計算方法も各捕標準パタン
か共通な計算方法で類似度が判定できれば良い。

〔発明の効果〕

以上説明したように、話者、発声様式に関して異なった
種類の制約があっても、音声認識性能を劣化させずに、
装置の小型化、低コスト化が図れる音声認識装置が提供
できる。

【図面の簡単な説明】

第１図はこの発明による構成のブロック図、第２図はこ
の発明の具体的実施例の構成によるブロック図、第３図
は第２図中の一部の動作を説明するためのブロック図、
第４図は従来の音声認識装置の構成を示すブロック図で
ある。１・・・音替分析部、２・・・類似度計算部、３−１・
・・登録変更可能なｍｆパタンメモリ、３−２・・・登録変更不可能な標準パタンメモリ、４・
・・切換回路、５・・・標準パタン作成部。第１図出願人代理人　弁理士　鈴江武彦第２図

Claims

【特許請求の範囲】

（１）入力された音声から特徴パラメータを抽出する音
響分析手段と、話者、発声様式等に関して異なった種類の制約を有する
音声標準パタンを記憶する制約別音声標準パタン記憶手
段と、上記音響分析手段で得られた分析パタンと上記制約別音
声標準パタン記憶手段による音声標準パタンそれぞれと
の類似度計算を共通の認識アルゴリズムを用いて行う類
似度計算手段とを具備したことを特徴とした音声認識装置。
（２）入力された音声から特徴パラメータを抽出する音
響分析手段と、特定話者を対象として作成される登録変更可能な音声標
準パタンを記憶する第１の音声標準パタン記憶手段と、不特定話者を対象として作成される登録変更不可能な音
声標準パタンを記憶する第２の音声標準パタン記憶手段
と、上記音響分析手段で得られた分析パタンと上記第１、第
２の音声標準パタン記憶手段で得られる音声標準パタン
それぞれとの類似度計算を共通の認識アルゴリズムを用
いて行う類似度計算手段とを具備したことを特徴とした
音声認識装置。