JPS59214900A

JPS59214900A - 音声認識装置

Info

Publication number: JPS59214900A
Application number: JP58089118A
Authority: JP
Inventors: 小松　昭男; 畑岡　信夫; 浅川　吉章; 市川　熹; 梅村　和裕
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-05-23
Filing date: 1983-05-23
Publication date: 1984-12-04
Also published as: JPH0554116B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は音声認識方式、更に詳しく言えば、複数個の標
準パターンを用いた不特定話者音声認識方式に係り、特
に、誤認識の原因となシ得る妨害パターンを話者毎に学
習する方式に関する。

〔発明の背景〕

従来、不特定な話者を対象とした音声認識を行なう場合
、多数の話者の発声変動（発声上の差異）を吸収して安
定した認識率を得るため、複数個の標準パターンを準備
しておくマルチテンプレート方式がとられている。マル
チテンプレート方式における問題点は、妨害パターンの
存在である。妨害パターンは話者に依存するため、不特
定な話者に対して前もって妨害パターンとなる標準パタ
ーンを取シ除いておくことはできない。たとえば、１ａ
１と１０１との認識を例に説明する。第１図は、男性と
女性との第１ホルマントと第２ホルマントの代表的な位
置関係を示す図である。図より、男性の１．１が女性の
１０１に近いことがわかる。

このことは、入力音声が男性のＩａｌの場合、男性よシ
作られたｌａｌの標準パターンとのマツチング距離（以
下単に距離という）が小さくなるが、女性よシ作られた
１０１の標準パターンとの距離も小さくなってしまうこ
とを示している。この例で、発声変動などによシ、女性
よシ作られた１０１の標準パターンが妨害パターンとな
り、男性の入力音声１ａｌが１０１と誤認識されてしま
う場合がある。この妨害パターンは、女性の１０１の入
力音声を正しく認識するためには必要な標準パターンで
あシ、前もって取り除く訳にはいかない。

このような状況に対し、従来では、基本周波数（ピッチ
）情報などを利用して話者を分類したり、話者の分類に
応じた複数個の組に標準パターンを分類しておく方法が
とられていた。このため、種種のクラスタリング手法が
開発されている。例えば、Ｓ、ＥＪｅｖｉｎｓｉｏｎな
どの論文（ＩＥＥＥ　Ｔｒａｎｓ。

ｏｎ　Ａｃｏｕｓｔ、　、　５ｐｅｅＣｈ　Ｈｎｄ　Ｓ
ｉｇｎａｌ　Ｓｒｏｃｅｓｓｉｎｇ。

ｖｏ４ＡｓｓＰ　　２７．Ａ２．Ａｐｒ、１９７９）が
ある。しかしながら、不特定な話者を数組に分類する明
確な手段はなく、期待通りの効呆が発揮できない場合が
少くない。

〔発明の目的〕

本発明は上記問題点を解決するためになされたもので、
話者に対応した妨害パターンを学習により除去する手法
を提供することを目的とする。

〔発明の概要〕

この目的を達成するために、本発明では、各標準パター
ン毎に計数器を設け、認識結果に基づく妨害パターン（
または妨害となり得る）くターン）に対応した計数器の
内容を更新し、その値によって標準パターンを話者に対
応して分類するものである。これは、標準ノくターンセ
ットを当該Ｈ古老に適応化させるものであり、特定話者
認識相当の高い認識率が得られる。

〔・発明の実施例〕

以下、本発明を実施例により説明する。第２図は本発明
を実施する認識装置の一実施例の構成を示すブロック図
で、入力音声２１は、マイクや電話器などの入力手段（
図示していない）より入力される音声波形を分析して得
られた、特徴ノ（ラメータの時系列に変換されたもので
ある。分析方法としては種々のものが考えられるが、た
とえば、１６チヤネルのフイルタノくンクにより１１６
次元のパラメータの時系列に変換される。マツチング部
２２は、入力音声２１と標準）（ターンメモリ２３に記
憶されている個々の標準バクーンとのマツチング処理を
行なう。マツチング方式には棟々のものがあるが、動的
計画（ＤｙｎａｍｊＣｐｒＯｇｒａ　−ｒｒｒｎ　ｉ　
ｎ　ｇ　）法を利用したマツチング法が用いられている
。入力音声２１と個々の標準パターンとのマツチング距
離（以下あい甘いさがない限り単に距離という）により
、判定部２４において認識結果が得られる。種々の判定
方法が考えられるが、ここでは最も簡単なりｅｓｔ　Ｆ
ｉｒｓｔ　（最良優先）法によるものとする。以上の構
成で種々の変形が考えられるが、本発明とは直接関係し
ない。

計数器２５は個々の標準パターンに対応して設けられて
いる。説明を簡単にするため、不特定話者のｌａｌと１
０１とを認識する場合を考えるものとし、第３図に複数
個の標準パターンをＦｌ−Ｆ２マツプ上に図式的に並べ
たものを示す。図の中で○印が１０１の標準パターン、
Δ印がｌａｌの標準パターンを示す。以下、認識の処理
手順を順を追って説明する。

（１）ステップ１（初期値設定）認識に先たち、計数器２５の初期値を設定する。

ここでは、標準パターンすべてを平等に扱うものとし、
計数器２５のすべての初期値を零にする。

（２）ステップ２（候補の選択）入力音声ｘ１が人って来た場合を考える。各様が第２候
補となシ、％Ｋが第３侯補となる。ここで各標準パター
ンの計数器の内容が閾値（今は２とする）以上であれば
、入力音声との距離がたとえ小さくても、候補として扱
わない。

（３）ステップ３（認識結果の判定）ステップ２で求まった候補より最適なものを認識結果と
し出力する。Ｂｅ５ｔ　ｐｉｒ’ｓｔ法を採用するとす
れば、距離の一番小さいものとして■が選ばれ、入力音
声Ｘｌは１０１であるとの認識結果が得られる。

（４）ステップ４（計数器の内容更新）音声認識結果の
出力にともない、結果の確認を行なうのが普通である。

たとえば、６只今の音声は１．１ですか”という質問に
対し、”はい”又は°“いいえ″の入力音声を認識し、
確認する。上の例で、入力Ｘ１が１０１と正しく認識さ
れたことが解れば、この話者にとって４の標準パターン
は妨害パターンとなり得る訳であり、標準パターンＭに
対応した計数器の内容を１つ増す。

以下、ステップ２に戻り、認識を繰シ返す。

上記の例をさらに続ける。その話者の２回目の人力音声
が同じく１ｏ１であり、Ｘｌ　と近い位置にあったとす
れば、ステップ２がら４までは同じ処理結果となる。但
し、ステップ４において、標準パターン％Ｘに対応した
計数器の内容は２となる。次に、３回目の入力音声１．
１がＸ３の位置にあったとする。この場合、標準パター
ンＡ＼との距離が一番小さいので第１位候補となり、１
ａ１と誤認識されてしまう。しかしながら、ステップ２
における候補選択の処理において、標準パターンＭに対
応した計数器の内容が閾値（２とした）以上なので標準
パターンムが候補として選ばれることはなく、次に近い
距離にある標準パタ−ン■が第１位候補となシ、入力音
声Ｘ３が１．１と正しく認識される。すなわち、標準パ
ターンムが妨害パターンとして除去されたことになり、
これ以後の入力音声が安定に認識できるようになる。

以上の例において、第１図のＦｌ−Ｆ２マツプ図を参照
すれば、入力音声の発声者は女性であり、標準パターン
ムは男性の音声より作られたものであると断定しても間
違いは少い。

以上述べた本発明による認識手順の概略を第４図のフロ
ーチャートに示す。認識手順の細部については種々の変
形が考えられるが、その内の代表的なものについて、以
下に説明する。

上記の例では、妨害パターンとみなされたものに対して
、対応した計数器の内容がプラス１された。従って、計
数器の内容が閾値以上になると、話者が代るまで、その
標準パターンは２度と利用されなくなる。システム的な
行違いや雑音などにより、間違えて妨害パターンのレッ
テルをはられる場合もあシ得る。これを救うため、正し
く認識された場合、その標準パターンに対応した計数器
の内容をマイナス１する方法が考えられる。

さらに、計数器の内容は、その話者に対する標準パター
ンの信頼度と関係していることになる。

従って、計数器の内容に応じてマツチング結果（距離）
を補正し、より高く安定した認識率′ｆ：４ることか可
能である。

さらにまた、すべての標準パターンを平等に扱うのでは
なく、初期値の設定時にウェイト付けを行なうことも可
能である。例えば、男性よシ作つた標準パターンｌａｌ
や女性から作った標準パターン１０１は他と比べて妨害
パターンになり易いことは明らかなので、対応した計数
器の初期値を他のものとは異なった値に前もって設定し
ておくことにより、学習速度を加速することができる。

以上の実施例の説明において、１ａ１と１ｏＩとの認識
に限定した。しかし、本発明は、一般的な音韻や音節の
認識であれ、単語の認識であれ、すべてに適応可能であ
ることはいうまでもない。

〔発明の効果〕

本発明によれば、話者に応じた標準パターンの分類がで
き、妨害パターンを話者対応に除去することができる。

このことは、不特定話者を対象とした複数標準パターン
のセントを話者に適応化させたことになり、不特定話者
音声認識において、特定話者音声認識並みの高い認識率
を達成することができるようになる。また、特定話者を
対象とした場合でも、日々の発声変動を吸収することが
でき、認識率の安定化に効果がある。

【図面の簡単な説明】

第１図は話者による５母音の第１．第２．ホルマント分
布を示す図、第２図は本発明を用いた認識装置の一実施
例のブロック構成図、第３図は本発明の認識手順の説明
に用いた標準パターンの配置を図式的に示した図、第４
図は本発明による認識手順の概略を示すフローチャート
図である。２３・・・標準パターンメモリ、２５・・・標準パター
ンｆ３　１　　　図オ１；７’：＋１．マシトＦ−＜ＫＨｚ）拓　Ｚ　　図 ■３図遁　４

Claims

【特許請求の範囲】１、複数個の標準パターンをもつ標準パターンセットを
用いてパターンマツチングを行う音声認識方式において
、各標準パターン毎に計数器を具備し、当該計数器の内
容を参照して認識結果を出す判定手段を有し、認識結果
によシ当該計数器の内容を変更することを特徴とする音
声認識方式。２、第１項記載において上記計数器の初期値として、各
標準パターン毎に前もって定められている値を設定する
ことを特徴とする特許請求の範囲第１項記載の音声認識
方式。