JPH0554116B2

JPH0554116B2 -

Info

Publication number: JPH0554116B2
Application number: JP58089118A
Authority: JP
Inventors: Akio Komatsu; Nobuo Hataoka; Yoshiaki Asakawa; Hiroshi Ichikawa; Kazuhiro Umemura
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-05-23
Filing date: 1983-05-23
Publication date: 1993-08-11
Also published as: JPS59214900A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は音声認識装置、更に詳しく言えば、複
数個の標準パターンを用いた不特定話者音声認識
装置に係り、特に、誤認識の原因となり得る妨害
パターンを話者毎に学習する装置に関する。

〔発明の背景〕

従来、不特定な話者を対象とした音声認識を行
なう場合、多数の話者の発声変動（発声上の差
異）を吸収して安定した認識率を得るため、複数
個の標準パターンを準備しておくマルチテンプレ
ート方式がとられている。マルチテンプレート方
式における問題点は、妨害パターンの存在であ
る。妨害パターンは話者に依存するため、不特定
な話者に対して前もつて妨害パターンとなる標準
パターンを取り除いておくことはできない。たと
えば、｜ａ｜と｜ｏ｜との認識を例に説明する。
第１図は、男性と女性との第１ホルマントと第２
ホルマントの代表的な位置関係を示す図である。
図より、男性の｜ａ｜が女性の｜ｏ｜に近いこと
がわかる。このことは、入力音声が男性の｜ａ｜
の場合、男性より作られた｜ａ｜の標準パターン
とのマツチング距離、（以下単に距離という）が
小さくなるが、女性より作られた｜ｏ｜の標準パ
ターンとの距離も小さくなつてしまうことを示し
ている。この例で、発声変動などにより、女性よ
り作られた｜ｏ｜の標準パターンが妨害パターン
となり、男性の入力音声｜ａ｜が｜ｏ｜と誤認識
されてしまう場合がある。この妨害パターンは、
女性の｜ｏ｜の入力音声を正しく認識するために
は必要な標準パターンであり、前もつて取り除く
訳にはいかない。

このような状況に対し、従来では、基本周波数
（ピツチ）情報などを利用して話者を分類したり、
話者の分類に応じた複数個の組に標準パターンを
分類しておく方法がとられていた。このため、種
種のクラスタリング手法が開発されている。例え
ば、S.E、Levinsionなどの論文（IEEE Trans、
on Acoust.，Speech and Signal Srocessing，
vol.ASSP−27、No.２、Apr.1979）がある。しか
しながら、不特定な話者を数組に分類する明確な
手段はなく、期待通りの効果が発揮できない場合
が少くない。

〔発明の目的〕

本発明は上記問題点を解決するためになされた
もので、話者に対応した妨害パターンを学習によ
り除去する音声認識装置を提供することを目的と
する。

〔発明の概要〕

本発明は、不特定話者に対応して予め複数個の
標準パターンを記憶する手段と、分析された入力
音声と複数個の標準パターンのマツチングを行
い、少なくとも１つの認識候補を出力するマツチ
ング手段と、特定話者に対応する初期値が設定さ
れ、複数の標準パターン毎に計数値を計数する計
数器と、計数器の内容を参照してマツチング手段
から出力される認識候補の最適性を判定し、特定
話者にとつて妨害パターンとなる計数器の標準パ
ターンの計数値を更新する手段とを備えたことを
特徴とする。これは、標準パターンセツトを当該
話者に適応化させるものであり、特定話者認識相
当の高い認識率が得られる。

〔発明の実施例〕

以下、本発明を実施例により説明する。第２図
は本発明を実施する認識装置の一実施例の構成を
示すブロツク図で、入力音声２１は、マイクや電
話器などの入力手段（図示していない）より入力
される音声波形を分析して得られた、特徴パラメ
ータの時系列に変換されたものである。分析方法
としては種々のものが考えられるが、たとえば、
16チヤネルのフイルタバンクにより、16次元のパ
ラメータの時系列に変換される。マツチング部２
２は、入力音声２１と標準パターンメモリ２３に
記憶されている個々の標準パターンとのマツチン
グ処理を行なう。マツチング方式には種々のもの
があるが、動的計画（Dynamic Programming）
法を利用したマツチング法が用いられている。入
力音声２１と個々の標準パターンとのマツチング
距離（以下あいまいさがない限り単に距離とい
う）により、判定部２４において認識結果が得ら
れる。種々の判定方法が考えられるが、ここでは
最も簡単なBest First（最良優先）法によるもの
とする。以上の構成で種々の変形が考えられる
が、本発明とは直接関係しない。

計数器２５は個々の標準パターンに対応して設
けられている。説明を簡単にするため、不特定話
者の｜ａ｜と｜ｏ｜とを認識する場合を考えるも
のとし、第３図に複数個の標準パターンをF1−
F2マツプ上に図式的に並べたものを示す。図の
中で○印が｜ｏ｜の標準パターン、△印が｜ａ｜
の標準パターンを示す。以下、認識の処理手順を
順を追つて説明する。

(1) ステツプ１（初期値設定）認識に先だち、計数器２５の初期値を設定す
る。ここでは、標準パターンすべてを平等に扱う
ものとし、計数器２５のすべての初期値を零にす
る。

(2) ステツプ２（候補の選択）入力音声x₁が入つて来た場合を考える。各標準
パターンとの距離より、が第１候補、が第２
候補となり、〓が第３候補となる。ここで各標
準パターンの計数器の内容が閾値（今は２とす
る）以上であれば、入力音声との距離がたとえ小
さくても、候補として扱わない。

(3) ステツプ３（認識結果の判定）ステツプ２で求まつた候補より最適なものを認
識結果として出力する。Best First法を採用する
とすれば、距離の一番小さいものとしてが選ば
れ、入力音声x₁は｜ｏ｜であるとの認識結果が得
られる。

(4) ステツプ４（計数器の内容更新）音声認識結果の出力にともない、結果の確認を
行なうのが普通である。たとえば、“只今の音声
は｜ｏ｜でかる”という質問に対し、“はい”又
は“いいえ”の入力音声を認識し、確認する。上
の例で、入力x₁が｜ｏ｜と正しく認識されたこと
が解れば、この話者にとつて、〓の標準パター
ンは妨害パターンとなり得る訳であり、標準パタ
ーン〓に対応した計数器の内容を１つ増す。以
下、ステツプ２に戻り、認識を繰り返す。

上記の例をさらに続ける。その話者の２回目の
入力音声が同じく｜ｏ｜であり、x₁と近い位置に
あつたとすれば、ステツプ２から４までは同じ処
理結果となる。但し、ステツプ４において、標準
パターン〓に対応した計数器の内容は２とな
る。次に、３回目の入力音声｜ｏ｜がx₃の位置に
あつたとする。この場合、標準パターン〓との
距離が一番小さいので第１位候補となり、｜ａ｜
と誤認識されてしまう。しかしながら、ステツプ
２における候補選択の処理において、標準パター
ン〓に対応した計数器の内容が閾値（２とし
た）以上なので標準パターン〓が候補として選
ばれることはなく、次に近い距離にある標準パタ
ーンが第１候補となり、入力音声x₃が｜ｏ｜と
正しく認識される。すなわち、標準パターン〓
が妨害パターンとして除去されたことになり、こ
れ以後の入力音声が安定に認識できるようにな
る。

以上の例において、第１図のF1−F2マツプ図
を参照すれば、入力音声の発生者は女性であり、
標準パターン〓は男性の音声より作られたもの
であると断定しても間違いは少い。

以上述べた本発明による認識手順の概略を第４
図のフローチヤートに示す。認識手順の細部につ
いては種々の変形が考えられるが、その内の代表
的なものについて、以下に説明する。

上記の例では、妨害パターンとみなされたもの
に対して、対応した計数器の内容がプラス１され
た。従つて、計数器の内容が閾値以上になると、
話者が代るまで、その標準パターンは２度と利用
されなくなる。システム的な行違いや雑音などに
より、間違えて妨害パターンのレツテルをはられ
る場合もあり得る。これを救うため、正しく認識
された場合、その標準パターンに対応した計数器
の内容をマイナス１する方法が考えられる。

さらに、計数器の内容は、その話者に対する標
準パターンの信頼度と関係していることになる。
従つて、計数器の内容に応じてマツチング結果
（距離）を補正し、より高く安定した認識率を得
ることが可能である。

さらにまた、すべての標準パターンを平等に扱
うのではなく、初期値の設定時にウエイト付けを
行なうことも可能である。例えば、男性より作つ
た標準パターン｜ａ｜や女性から作つた標準パタ
ーン｜ｏ｜は他と比べて妨害パターンになり易い
ことは明らかなので、対応した計数器の初期値を
他のものとは異なつた値に前もつて設定しておく
ことにより、学習速度を加速することができる。

以上の実施例の説明において、｜ａ｜と｜ｏ｜
との認識に限定した。しかし、本発明は、一般的
な音韻や音節の認識であれ、単語の認識であれ、
すべてに適応可能であることはいうまでもない。

〔発明の効果〕

本発明によれば、話者に応じた標準パターンの
分類ができ、妨害パターンを話者対応に除去する
ことができる。このことは、不特定話者を対象と
した複数標準パターンのセツトを話者に適応化さ
せたことになり、不特定話者音声認識において、
特定話者音声認識並みの高い認識率を達成するこ
とができるようになる。また、特定話者を対象と
した場合でも、日々の発生変動を吸収することが
でき、認識率の安定化に効果がある。

【図面の簡単な説明】

第１図は話者による５母音の第１、第２ホルマ
ント分布を示す図、第２図は本発明を用いた認識
装置の一実施例のブロツク構成図、第３図は本発
明の認識手順の説明に用いた標準パターンの配置
を図式的に示した図、第４図は本発明による認識
手順の概略を示すフローチヤート図である。２３……標準パターンメモリ、２５……標準パ
ターンに対応した計数器、２４……判定部。

Claims

【特許請求の範囲】１不特定話者に対応して予め複数個の標準パタ
ーンを記憶する手段と、分析された入力音声と上記複数個の標準パター
ンのマツチングを行い、少なくとも１つの認識候
補を出力するマツチング手段と、特定話者に対応する初期値が設定され、上記複
数個の標準パターン毎に計数値を計数する計数器
と、上記計数器の内容を参照して上記マツチング手
段から出力される認識候補の最適性を判定し、上
記特定話者にとつて妨害パターンとなる上記計数
器の標準パターンの計数値を更新する手段と、を備えたことを特徴とする音声認識装置。