JPH0554116B2 - - Google Patents
Info
- Publication number
- JPH0554116B2 JPH0554116B2 JP58089118A JP8911883A JPH0554116B2 JP H0554116 B2 JPH0554116 B2 JP H0554116B2 JP 58089118 A JP58089118 A JP 58089118A JP 8911883 A JP8911883 A JP 8911883A JP H0554116 B2 JPH0554116 B2 JP H0554116B2
- Authority
- JP
- Japan
- Prior art keywords
- counter
- standard
- recognition
- standard pattern
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は音声認識装置、更に詳しく言えば、複
数個の標準パターンを用いた不特定話者音声認識
装置に係り、特に、誤認識の原因となり得る妨害
パターンを話者毎に学習する装置に関する。
数個の標準パターンを用いた不特定話者音声認識
装置に係り、特に、誤認識の原因となり得る妨害
パターンを話者毎に学習する装置に関する。
従来、不特定な話者を対象とした音声認識を行
なう場合、多数の話者の発声変動(発声上の差
異)を吸収して安定した認識率を得るため、複数
個の標準パターンを準備しておくマルチテンプレ
ート方式がとられている。マルチテンプレート方
式における問題点は、妨害パターンの存在であ
る。妨害パターンは話者に依存するため、不特定
な話者に対して前もつて妨害パターンとなる標準
パターンを取り除いておくことはできない。たと
えば、|a|と|o|との認識を例に説明する。
第1図は、男性と女性との第1ホルマントと第2
ホルマントの代表的な位置関係を示す図である。
図より、男性の|a|が女性の|o|に近いこと
がわかる。このことは、入力音声が男性の|a|
の場合、男性より作られた|a|の標準パターン
とのマツチング距離、(以下単に距離という)が
小さくなるが、女性より作られた|o|の標準パ
ターンとの距離も小さくなつてしまうことを示し
ている。この例で、発声変動などにより、女性よ
り作られた|o|の標準パターンが妨害パターン
となり、男性の入力音声|a|が|o|と誤認識
されてしまう場合がある。この妨害パターンは、
女性の|o|の入力音声を正しく認識するために
は必要な標準パターンであり、前もつて取り除く
訳にはいかない。
なう場合、多数の話者の発声変動(発声上の差
異)を吸収して安定した認識率を得るため、複数
個の標準パターンを準備しておくマルチテンプレ
ート方式がとられている。マルチテンプレート方
式における問題点は、妨害パターンの存在であ
る。妨害パターンは話者に依存するため、不特定
な話者に対して前もつて妨害パターンとなる標準
パターンを取り除いておくことはできない。たと
えば、|a|と|o|との認識を例に説明する。
第1図は、男性と女性との第1ホルマントと第2
ホルマントの代表的な位置関係を示す図である。
図より、男性の|a|が女性の|o|に近いこと
がわかる。このことは、入力音声が男性の|a|
の場合、男性より作られた|a|の標準パターン
とのマツチング距離、(以下単に距離という)が
小さくなるが、女性より作られた|o|の標準パ
ターンとの距離も小さくなつてしまうことを示し
ている。この例で、発声変動などにより、女性よ
り作られた|o|の標準パターンが妨害パターン
となり、男性の入力音声|a|が|o|と誤認識
されてしまう場合がある。この妨害パターンは、
女性の|o|の入力音声を正しく認識するために
は必要な標準パターンであり、前もつて取り除く
訳にはいかない。
このような状況に対し、従来では、基本周波数
(ピツチ)情報などを利用して話者を分類したり、
話者の分類に応じた複数個の組に標準パターンを
分類しておく方法がとられていた。このため、種
種のクラスタリング手法が開発されている。例え
ば、S.E、Levinsionなどの論文(IEEE Trans、
on Acoust.,Speech and Signal Srocessing,
vol.ASSP−27、No.2、Apr.1979)がある。しか
しながら、不特定な話者を数組に分類する明確な
手段はなく、期待通りの効果が発揮できない場合
が少くない。
(ピツチ)情報などを利用して話者を分類したり、
話者の分類に応じた複数個の組に標準パターンを
分類しておく方法がとられていた。このため、種
種のクラスタリング手法が開発されている。例え
ば、S.E、Levinsionなどの論文(IEEE Trans、
on Acoust.,Speech and Signal Srocessing,
vol.ASSP−27、No.2、Apr.1979)がある。しか
しながら、不特定な話者を数組に分類する明確な
手段はなく、期待通りの効果が発揮できない場合
が少くない。
本発明は上記問題点を解決するためになされた
もので、話者に対応した妨害パターンを学習によ
り除去する音声認識装置を提供することを目的と
する。
もので、話者に対応した妨害パターンを学習によ
り除去する音声認識装置を提供することを目的と
する。
本発明は、不特定話者に対応して予め複数個の
標準パターンを記憶する手段と、分析された入力
音声と複数個の標準パターンのマツチングを行
い、少なくとも1つの認識候補を出力するマツチ
ング手段と、特定話者に対応する初期値が設定さ
れ、複数の標準パターン毎に計数値を計数する計
数器と、計数器の内容を参照してマツチング手段
から出力される認識候補の最適性を判定し、特定
話者にとつて妨害パターンとなる計数器の標準パ
ターンの計数値を更新する手段とを備えたことを
特徴とする。これは、標準パターンセツトを当該
話者に適応化させるものであり、特定話者認識相
当の高い認識率が得られる。
標準パターンを記憶する手段と、分析された入力
音声と複数個の標準パターンのマツチングを行
い、少なくとも1つの認識候補を出力するマツチ
ング手段と、特定話者に対応する初期値が設定さ
れ、複数の標準パターン毎に計数値を計数する計
数器と、計数器の内容を参照してマツチング手段
から出力される認識候補の最適性を判定し、特定
話者にとつて妨害パターンとなる計数器の標準パ
ターンの計数値を更新する手段とを備えたことを
特徴とする。これは、標準パターンセツトを当該
話者に適応化させるものであり、特定話者認識相
当の高い認識率が得られる。
以下、本発明を実施例により説明する。第2図
は本発明を実施する認識装置の一実施例の構成を
示すブロツク図で、入力音声21は、マイクや電
話器などの入力手段(図示していない)より入力
される音声波形を分析して得られた、特徴パラメ
ータの時系列に変換されたものである。分析方法
としては種々のものが考えられるが、たとえば、
16チヤネルのフイルタバンクにより、16次元のパ
ラメータの時系列に変換される。マツチング部2
2は、入力音声21と標準パターンメモリ23に
記憶されている個々の標準パターンとのマツチン
グ処理を行なう。マツチング方式には種々のもの
があるが、動的計画(Dynamic Programming)
法を利用したマツチング法が用いられている。入
力音声21と個々の標準パターンとのマツチング
距離(以下あいまいさがない限り単に距離とい
う)により、判定部24において認識結果が得ら
れる。種々の判定方法が考えられるが、ここでは
最も簡単なBest First(最良優先)法によるもの
とする。以上の構成で種々の変形が考えられる
が、本発明とは直接関係しない。
は本発明を実施する認識装置の一実施例の構成を
示すブロツク図で、入力音声21は、マイクや電
話器などの入力手段(図示していない)より入力
される音声波形を分析して得られた、特徴パラメ
ータの時系列に変換されたものである。分析方法
としては種々のものが考えられるが、たとえば、
16チヤネルのフイルタバンクにより、16次元のパ
ラメータの時系列に変換される。マツチング部2
2は、入力音声21と標準パターンメモリ23に
記憶されている個々の標準パターンとのマツチン
グ処理を行なう。マツチング方式には種々のもの
があるが、動的計画(Dynamic Programming)
法を利用したマツチング法が用いられている。入
力音声21と個々の標準パターンとのマツチング
距離(以下あいまいさがない限り単に距離とい
う)により、判定部24において認識結果が得ら
れる。種々の判定方法が考えられるが、ここでは
最も簡単なBest First(最良優先)法によるもの
とする。以上の構成で種々の変形が考えられる
が、本発明とは直接関係しない。
計数器25は個々の標準パターンに対応して設
けられている。説明を簡単にするため、不特定話
者の|a|と|o|とを認識する場合を考えるも
のとし、第3図に複数個の標準パターンをF1−
F2マツプ上に図式的に並べたものを示す。図の
中で○印が|o|の標準パターン、△印が|a|
の標準パターンを示す。以下、認識の処理手順を
順を追つて説明する。
けられている。説明を簡単にするため、不特定話
者の|a|と|o|とを認識する場合を考えるも
のとし、第3図に複数個の標準パターンをF1−
F2マツプ上に図式的に並べたものを示す。図の
中で○印が|o|の標準パターン、△印が|a|
の標準パターンを示す。以下、認識の処理手順を
順を追つて説明する。
(1) ステツプ1(初期値設定)
認識に先だち、計数器25の初期値を設定す
る。ここでは、標準パターンすべてを平等に扱う
ものとし、計数器25のすべての初期値を零にす
る。
る。ここでは、標準パターンすべてを平等に扱う
ものとし、計数器25のすべての初期値を零にす
る。
(2) ステツプ2(候補の選択)
入力音声x1が入つて来た場合を考える。各標準
パターンとの距離より、が第1候補、が第2
候補となり、 〓 が第3候補となる。ここで各標
準パターンの計数器の内容が閾値(今は2とす
る)以上であれば、入力音声との距離がたとえ小
さくても、候補として扱わない。
パターンとの距離より、が第1候補、が第2
候補となり、 〓 が第3候補となる。ここで各標
準パターンの計数器の内容が閾値(今は2とす
る)以上であれば、入力音声との距離がたとえ小
さくても、候補として扱わない。
(3) ステツプ3(認識結果の判定)
ステツプ2で求まつた候補より最適なものを認
識結果として出力する。Best First法を採用する
とすれば、距離の一番小さいものとしてが選ば
れ、入力音声x1は|o|であるとの認識結果が得
られる。
識結果として出力する。Best First法を採用する
とすれば、距離の一番小さいものとしてが選ば
れ、入力音声x1は|o|であるとの認識結果が得
られる。
(4) ステツプ4(計数器の内容更新)
音声認識結果の出力にともない、結果の確認を
行なうのが普通である。たとえば、“只今の音声
は|o|でかる”という質問に対し、“はい”又
は“いいえ”の入力音声を認識し、確認する。上
の例で、入力x1が|o|と正しく認識されたこと
が解れば、この話者にとつて、 〓 の標準パター
ンは妨害パターンとなり得る訳であり、標準パタ
ーン 〓 に対応した計数器の内容を1つ増す。以
下、ステツプ2に戻り、認識を繰り返す。
行なうのが普通である。たとえば、“只今の音声
は|o|でかる”という質問に対し、“はい”又
は“いいえ”の入力音声を認識し、確認する。上
の例で、入力x1が|o|と正しく認識されたこと
が解れば、この話者にとつて、 〓 の標準パター
ンは妨害パターンとなり得る訳であり、標準パタ
ーン 〓 に対応した計数器の内容を1つ増す。以
下、ステツプ2に戻り、認識を繰り返す。
上記の例をさらに続ける。その話者の2回目の
入力音声が同じく|o|であり、x1と近い位置に
あつたとすれば、ステツプ2から4までは同じ処
理結果となる。但し、ステツプ4において、標準
パターン 〓 に対応した計数器の内容は2とな
る。次に、3回目の入力音声|o|がx3の位置に
あつたとする。この場合、標準パターン 〓 との
距離が一番小さいので第1位候補となり、|a|
と誤認識されてしまう。しかしながら、ステツプ
2における候補選択の処理において、標準パター
ン 〓 に対応した計数器の内容が閾値(2とし
た)以上なので標準パターン 〓 が候補として選
ばれることはなく、次に近い距離にある標準パタ
ーンが第1候補となり、入力音声x3が|o|と
正しく認識される。すなわち、標準パターン 〓
が妨害パターンとして除去されたことになり、こ
れ以後の入力音声が安定に認識できるようにな
る。
入力音声が同じく|o|であり、x1と近い位置に
あつたとすれば、ステツプ2から4までは同じ処
理結果となる。但し、ステツプ4において、標準
パターン 〓 に対応した計数器の内容は2とな
る。次に、3回目の入力音声|o|がx3の位置に
あつたとする。この場合、標準パターン 〓 との
距離が一番小さいので第1位候補となり、|a|
と誤認識されてしまう。しかしながら、ステツプ
2における候補選択の処理において、標準パター
ン 〓 に対応した計数器の内容が閾値(2とし
た)以上なので標準パターン 〓 が候補として選
ばれることはなく、次に近い距離にある標準パタ
ーンが第1候補となり、入力音声x3が|o|と
正しく認識される。すなわち、標準パターン 〓
が妨害パターンとして除去されたことになり、こ
れ以後の入力音声が安定に認識できるようにな
る。
以上の例において、第1図のF1−F2マツプ図
を参照すれば、入力音声の発生者は女性であり、
標準パターン 〓 は男性の音声より作られたもの
であると断定しても間違いは少い。
を参照すれば、入力音声の発生者は女性であり、
標準パターン 〓 は男性の音声より作られたもの
であると断定しても間違いは少い。
以上述べた本発明による認識手順の概略を第4
図のフローチヤートに示す。認識手順の細部につ
いては種々の変形が考えられるが、その内の代表
的なものについて、以下に説明する。
図のフローチヤートに示す。認識手順の細部につ
いては種々の変形が考えられるが、その内の代表
的なものについて、以下に説明する。
上記の例では、妨害パターンとみなされたもの
に対して、対応した計数器の内容がプラス1され
た。従つて、計数器の内容が閾値以上になると、
話者が代るまで、その標準パターンは2度と利用
されなくなる。システム的な行違いや雑音などに
より、間違えて妨害パターンのレツテルをはられ
る場合もあり得る。これを救うため、正しく認識
された場合、その標準パターンに対応した計数器
の内容をマイナス1する方法が考えられる。
に対して、対応した計数器の内容がプラス1され
た。従つて、計数器の内容が閾値以上になると、
話者が代るまで、その標準パターンは2度と利用
されなくなる。システム的な行違いや雑音などに
より、間違えて妨害パターンのレツテルをはられ
る場合もあり得る。これを救うため、正しく認識
された場合、その標準パターンに対応した計数器
の内容をマイナス1する方法が考えられる。
さらに、計数器の内容は、その話者に対する標
準パターンの信頼度と関係していることになる。
従つて、計数器の内容に応じてマツチング結果
(距離)を補正し、より高く安定した認識率を得
ることが可能である。
準パターンの信頼度と関係していることになる。
従つて、計数器の内容に応じてマツチング結果
(距離)を補正し、より高く安定した認識率を得
ることが可能である。
さらにまた、すべての標準パターンを平等に扱
うのではなく、初期値の設定時にウエイト付けを
行なうことも可能である。例えば、男性より作つ
た標準パターン|a|や女性から作つた標準パタ
ーン|o|は他と比べて妨害パターンになり易い
ことは明らかなので、対応した計数器の初期値を
他のものとは異なつた値に前もつて設定しておく
ことにより、学習速度を加速することができる。
うのではなく、初期値の設定時にウエイト付けを
行なうことも可能である。例えば、男性より作つ
た標準パターン|a|や女性から作つた標準パタ
ーン|o|は他と比べて妨害パターンになり易い
ことは明らかなので、対応した計数器の初期値を
他のものとは異なつた値に前もつて設定しておく
ことにより、学習速度を加速することができる。
以上の実施例の説明において、|a|と|o|
との認識に限定した。しかし、本発明は、一般的
な音韻や音節の認識であれ、単語の認識であれ、
すべてに適応可能であることはいうまでもない。
との認識に限定した。しかし、本発明は、一般的
な音韻や音節の認識であれ、単語の認識であれ、
すべてに適応可能であることはいうまでもない。
本発明によれば、話者に応じた標準パターンの
分類ができ、妨害パターンを話者対応に除去する
ことができる。このことは、不特定話者を対象と
した複数標準パターンのセツトを話者に適応化さ
せたことになり、不特定話者音声認識において、
特定話者音声認識並みの高い認識率を達成するこ
とができるようになる。また、特定話者を対象と
した場合でも、日々の発生変動を吸収することが
でき、認識率の安定化に効果がある。
分類ができ、妨害パターンを話者対応に除去する
ことができる。このことは、不特定話者を対象と
した複数標準パターンのセツトを話者に適応化さ
せたことになり、不特定話者音声認識において、
特定話者音声認識並みの高い認識率を達成するこ
とができるようになる。また、特定話者を対象と
した場合でも、日々の発生変動を吸収することが
でき、認識率の安定化に効果がある。
第1図は話者による5母音の第1、第2ホルマ
ント分布を示す図、第2図は本発明を用いた認識
装置の一実施例のブロツク構成図、第3図は本発
明の認識手順の説明に用いた標準パターンの配置
を図式的に示した図、第4図は本発明による認識
手順の概略を示すフローチヤート図である。 23……標準パターンメモリ、25……標準パ
ターンに対応した計数器、24……判定部。
ント分布を示す図、第2図は本発明を用いた認識
装置の一実施例のブロツク構成図、第3図は本発
明の認識手順の説明に用いた標準パターンの配置
を図式的に示した図、第4図は本発明による認識
手順の概略を示すフローチヤート図である。 23……標準パターンメモリ、25……標準パ
ターンに対応した計数器、24……判定部。
Claims (1)
- 【特許請求の範囲】 1 不特定話者に対応して予め複数個の標準パタ
ーンを記憶する手段と、 分析された入力音声と上記複数個の標準パター
ンのマツチングを行い、少なくとも1つの認識候
補を出力するマツチング手段と、 特定話者に対応する初期値が設定され、上記複
数個の標準パターン毎に計数値を計数する計数器
と、 上記計数器の内容を参照して上記マツチング手
段から出力される認識候補の最適性を判定し、上
記特定話者にとつて妨害パターンとなる上記計数
器の標準パターンの計数値を更新する手段と、 を備えたことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58089118A JPS59214900A (ja) | 1983-05-23 | 1983-05-23 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58089118A JPS59214900A (ja) | 1983-05-23 | 1983-05-23 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59214900A JPS59214900A (ja) | 1984-12-04 |
JPH0554116B2 true JPH0554116B2 (ja) | 1993-08-11 |
Family
ID=13961973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58089118A Granted JPS59214900A (ja) | 1983-05-23 | 1983-05-23 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59214900A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60172100A (ja) * | 1984-02-16 | 1985-09-05 | 電子計算機基本技術研究組合 | 音声認識装置 |
JPH0752354B2 (ja) * | 1985-09-11 | 1995-06-05 | 沖電気工業株式会社 | 音声認識装置 |
JP2673386B2 (ja) * | 1990-09-29 | 1997-11-05 | シャープ株式会社 | 映像表示装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58171093A (ja) * | 1982-03-31 | 1983-10-07 | 富士通株式会社 | 音声認識装置 |
JPS59106085A (ja) * | 1982-12-10 | 1984-06-19 | Fujitsu Ltd | 認識装置の辞書更新方法 |
-
1983
- 1983-05-23 JP JP58089118A patent/JPS59214900A/ja active Granted
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58171093A (ja) * | 1982-03-31 | 1983-10-07 | 富士通株式会社 | 音声認識装置 |
JPS59106085A (ja) * | 1982-12-10 | 1984-06-19 | Fujitsu Ltd | 認識装置の辞書更新方法 |
Also Published As
Publication number | Publication date |
---|---|
JPS59214900A (ja) | 1984-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW502249B (en) | Segmentation approach for speech recognition systems | |
EP0128755B1 (en) | Apparatus for speech recognition | |
EP0380297B1 (en) | Method and apparatus for speech recognition | |
US4590605A (en) | Method for production of speech reference templates | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
US20100121638A1 (en) | System and method for automatic speech to text conversion | |
JPH0352640B2 (ja) | ||
JPH07146699A (ja) | 音声認識方法 | |
US4937871A (en) | Speech recognition device | |
JPH03201079A (ja) | パターンマッチング装置 | |
JPH0554116B2 (ja) | ||
Savchenko et al. | Fuzzy Phonetic Encoding of Speech Signals in Voice Processing Systems | |
Seltzer et al. | Automatic detection of corrupt spectrographic features for robust speech recognition | |
KR19990015122A (ko) | 음성 인식 방법 | |
JPH0283595A (ja) | 音声認識方法 | |
JP2886879B2 (ja) | 音声認識方法 | |
JPS60121499A (ja) | 音声照合装置 | |
Ananthapadmanabha et al. | Relative occurrences and difference of extrema for detection of transitions between broad phonetic classes | |
JPH09160585A (ja) | 音声認識装置および音声認識方法 | |
JPH0455518B2 (ja) | ||
JPS62111292A (ja) | 音声認識装置 | |
Suchato | Classification of stop consonant place of articulation: Combining acoustic attributes | |
JPS63798B2 (ja) | ||
JPS63118198A (ja) | 音声認識装置 | |
JPS62111295A (ja) | 音声認識装置 |