JPH0554116B2 - - Google Patents

Info

Publication number
JPH0554116B2
JPH0554116B2 JP58089118A JP8911883A JPH0554116B2 JP H0554116 B2 JPH0554116 B2 JP H0554116B2 JP 58089118 A JP58089118 A JP 58089118A JP 8911883 A JP8911883 A JP 8911883A JP H0554116 B2 JPH0554116 B2 JP H0554116B2
Authority
JP
Japan
Prior art keywords
counter
standard
recognition
standard pattern
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58089118A
Other languages
English (en)
Other versions
JPS59214900A (ja
Inventor
Akio Komatsu
Nobuo Hataoka
Yoshiaki Asakawa
Hiroshi Ichikawa
Kazuhiro Umemura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58089118A priority Critical patent/JPS59214900A/ja
Publication of JPS59214900A publication Critical patent/JPS59214900A/ja
Publication of JPH0554116B2 publication Critical patent/JPH0554116B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は音声認識装置、更に詳しく言えば、複
数個の標準パターンを用いた不特定話者音声認識
装置に係り、特に、誤認識の原因となり得る妨害
パターンを話者毎に学習する装置に関する。
〔発明の背景〕
従来、不特定な話者を対象とした音声認識を行
なう場合、多数の話者の発声変動(発声上の差
異)を吸収して安定した認識率を得るため、複数
個の標準パターンを準備しておくマルチテンプレ
ート方式がとられている。マルチテンプレート方
式における問題点は、妨害パターンの存在であ
る。妨害パターンは話者に依存するため、不特定
な話者に対して前もつて妨害パターンとなる標準
パターンを取り除いておくことはできない。たと
えば、|a|と|o|との認識を例に説明する。
第1図は、男性と女性との第1ホルマントと第2
ホルマントの代表的な位置関係を示す図である。
図より、男性の|a|が女性の|o|に近いこと
がわかる。このことは、入力音声が男性の|a|
の場合、男性より作られた|a|の標準パターン
とのマツチング距離、(以下単に距離という)が
小さくなるが、女性より作られた|o|の標準パ
ターンとの距離も小さくなつてしまうことを示し
ている。この例で、発声変動などにより、女性よ
り作られた|o|の標準パターンが妨害パターン
となり、男性の入力音声|a|が|o|と誤認識
されてしまう場合がある。この妨害パターンは、
女性の|o|の入力音声を正しく認識するために
は必要な標準パターンであり、前もつて取り除く
訳にはいかない。
このような状況に対し、従来では、基本周波数
(ピツチ)情報などを利用して話者を分類したり、
話者の分類に応じた複数個の組に標準パターンを
分類しておく方法がとられていた。このため、種
種のクラスタリング手法が開発されている。例え
ば、S.E、Levinsionなどの論文(IEEE Trans、
on Acoust.,Speech and Signal Srocessing,
vol.ASSP−27、No.2、Apr.1979)がある。しか
しながら、不特定な話者を数組に分類する明確な
手段はなく、期待通りの効果が発揮できない場合
が少くない。
〔発明の目的〕
本発明は上記問題点を解決するためになされた
もので、話者に対応した妨害パターンを学習によ
り除去する音声認識装置を提供することを目的と
する。
〔発明の概要〕
本発明は、不特定話者に対応して予め複数個の
標準パターンを記憶する手段と、分析された入力
音声と複数個の標準パターンのマツチングを行
い、少なくとも1つの認識候補を出力するマツチ
ング手段と、特定話者に対応する初期値が設定さ
れ、複数の標準パターン毎に計数値を計数する計
数器と、計数器の内容を参照してマツチング手段
から出力される認識候補の最適性を判定し、特定
話者にとつて妨害パターンとなる計数器の標準パ
ターンの計数値を更新する手段とを備えたことを
特徴とする。これは、標準パターンセツトを当該
話者に適応化させるものであり、特定話者認識相
当の高い認識率が得られる。
〔発明の実施例〕
以下、本発明を実施例により説明する。第2図
は本発明を実施する認識装置の一実施例の構成を
示すブロツク図で、入力音声21は、マイクや電
話器などの入力手段(図示していない)より入力
される音声波形を分析して得られた、特徴パラメ
ータの時系列に変換されたものである。分析方法
としては種々のものが考えられるが、たとえば、
16チヤネルのフイルタバンクにより、16次元のパ
ラメータの時系列に変換される。マツチング部2
2は、入力音声21と標準パターンメモリ23に
記憶されている個々の標準パターンとのマツチン
グ処理を行なう。マツチング方式には種々のもの
があるが、動的計画(Dynamic Programming)
法を利用したマツチング法が用いられている。入
力音声21と個々の標準パターンとのマツチング
距離(以下あいまいさがない限り単に距離とい
う)により、判定部24において認識結果が得ら
れる。種々の判定方法が考えられるが、ここでは
最も簡単なBest First(最良優先)法によるもの
とする。以上の構成で種々の変形が考えられる
が、本発明とは直接関係しない。
計数器25は個々の標準パターンに対応して設
けられている。説明を簡単にするため、不特定話
者の|a|と|o|とを認識する場合を考えるも
のとし、第3図に複数個の標準パターンをF1−
F2マツプ上に図式的に並べたものを示す。図の
中で○印が|o|の標準パターン、△印が|a|
の標準パターンを示す。以下、認識の処理手順を
順を追つて説明する。
(1) ステツプ1(初期値設定) 認識に先だち、計数器25の初期値を設定す
る。ここでは、標準パターンすべてを平等に扱う
ものとし、計数器25のすべての初期値を零にす
る。
(2) ステツプ2(候補の選択) 入力音声x1が入つて来た場合を考える。各標準
パターンとの距離より、が第1候補、が第2
候補となり、 〓 が第3候補となる。ここで各標
準パターンの計数器の内容が閾値(今は2とす
る)以上であれば、入力音声との距離がたとえ小
さくても、候補として扱わない。
(3) ステツプ3(認識結果の判定) ステツプ2で求まつた候補より最適なものを認
識結果として出力する。Best First法を採用する
とすれば、距離の一番小さいものとしてが選ば
れ、入力音声x1は|o|であるとの認識結果が得
られる。
(4) ステツプ4(計数器の内容更新) 音声認識結果の出力にともない、結果の確認を
行なうのが普通である。たとえば、“只今の音声
は|o|でかる”という質問に対し、“はい”又
は“いいえ”の入力音声を認識し、確認する。上
の例で、入力x1が|o|と正しく認識されたこと
が解れば、この話者にとつて、 〓 の標準パター
ンは妨害パターンとなり得る訳であり、標準パタ
ーン 〓 に対応した計数器の内容を1つ増す。以
下、ステツプ2に戻り、認識を繰り返す。
上記の例をさらに続ける。その話者の2回目の
入力音声が同じく|o|であり、x1と近い位置に
あつたとすれば、ステツプ2から4までは同じ処
理結果となる。但し、ステツプ4において、標準
パターン 〓 に対応した計数器の内容は2とな
る。次に、3回目の入力音声|o|がx3の位置に
あつたとする。この場合、標準パターン 〓 との
距離が一番小さいので第1位候補となり、|a|
と誤認識されてしまう。しかしながら、ステツプ
2における候補選択の処理において、標準パター
ン 〓 に対応した計数器の内容が閾値(2とし
た)以上なので標準パターン 〓 が候補として選
ばれることはなく、次に近い距離にある標準パタ
ーンが第1候補となり、入力音声x3が|o|と
正しく認識される。すなわち、標準パターン 〓
が妨害パターンとして除去されたことになり、こ
れ以後の入力音声が安定に認識できるようにな
る。
以上の例において、第1図のF1−F2マツプ図
を参照すれば、入力音声の発生者は女性であり、
標準パターン 〓 は男性の音声より作られたもの
であると断定しても間違いは少い。
以上述べた本発明による認識手順の概略を第4
図のフローチヤートに示す。認識手順の細部につ
いては種々の変形が考えられるが、その内の代表
的なものについて、以下に説明する。
上記の例では、妨害パターンとみなされたもの
に対して、対応した計数器の内容がプラス1され
た。従つて、計数器の内容が閾値以上になると、
話者が代るまで、その標準パターンは2度と利用
されなくなる。システム的な行違いや雑音などに
より、間違えて妨害パターンのレツテルをはられ
る場合もあり得る。これを救うため、正しく認識
された場合、その標準パターンに対応した計数器
の内容をマイナス1する方法が考えられる。
さらに、計数器の内容は、その話者に対する標
準パターンの信頼度と関係していることになる。
従つて、計数器の内容に応じてマツチング結果
(距離)を補正し、より高く安定した認識率を得
ることが可能である。
さらにまた、すべての標準パターンを平等に扱
うのではなく、初期値の設定時にウエイト付けを
行なうことも可能である。例えば、男性より作つ
た標準パターン|a|や女性から作つた標準パタ
ーン|o|は他と比べて妨害パターンになり易い
ことは明らかなので、対応した計数器の初期値を
他のものとは異なつた値に前もつて設定しておく
ことにより、学習速度を加速することができる。
以上の実施例の説明において、|a|と|o|
との認識に限定した。しかし、本発明は、一般的
な音韻や音節の認識であれ、単語の認識であれ、
すべてに適応可能であることはいうまでもない。
〔発明の効果〕
本発明によれば、話者に応じた標準パターンの
分類ができ、妨害パターンを話者対応に除去する
ことができる。このことは、不特定話者を対象と
した複数標準パターンのセツトを話者に適応化さ
せたことになり、不特定話者音声認識において、
特定話者音声認識並みの高い認識率を達成するこ
とができるようになる。また、特定話者を対象と
した場合でも、日々の発生変動を吸収することが
でき、認識率の安定化に効果がある。
【図面の簡単な説明】
第1図は話者による5母音の第1、第2ホルマ
ント分布を示す図、第2図は本発明を用いた認識
装置の一実施例のブロツク構成図、第3図は本発
明の認識手順の説明に用いた標準パターンの配置
を図式的に示した図、第4図は本発明による認識
手順の概略を示すフローチヤート図である。 23……標準パターンメモリ、25……標準パ
ターンに対応した計数器、24……判定部。

Claims (1)

  1. 【特許請求の範囲】 1 不特定話者に対応して予め複数個の標準パタ
    ーンを記憶する手段と、 分析された入力音声と上記複数個の標準パター
    ンのマツチングを行い、少なくとも1つの認識候
    補を出力するマツチング手段と、 特定話者に対応する初期値が設定され、上記複
    数個の標準パターン毎に計数値を計数する計数器
    と、 上記計数器の内容を参照して上記マツチング手
    段から出力される認識候補の最適性を判定し、上
    記特定話者にとつて妨害パターンとなる上記計数
    器の標準パターンの計数値を更新する手段と、 を備えたことを特徴とする音声認識装置。
JP58089118A 1983-05-23 1983-05-23 音声認識装置 Granted JPS59214900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58089118A JPS59214900A (ja) 1983-05-23 1983-05-23 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58089118A JPS59214900A (ja) 1983-05-23 1983-05-23 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59214900A JPS59214900A (ja) 1984-12-04
JPH0554116B2 true JPH0554116B2 (ja) 1993-08-11

Family

ID=13961973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58089118A Granted JPS59214900A (ja) 1983-05-23 1983-05-23 音声認識装置

Country Status (1)

Country Link
JP (1) JPS59214900A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60172100A (ja) * 1984-02-16 1985-09-05 電子計算機基本技術研究組合 音声認識装置
JPH0752354B2 (ja) * 1985-09-11 1995-06-05 沖電気工業株式会社 音声認識装置
JP2673386B2 (ja) * 1990-09-29 1997-11-05 シャープ株式会社 映像表示装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58171093A (ja) * 1982-03-31 1983-10-07 富士通株式会社 音声認識装置
JPS59106085A (ja) * 1982-12-10 1984-06-19 Fujitsu Ltd 認識装置の辞書更新方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58171093A (ja) * 1982-03-31 1983-10-07 富士通株式会社 音声認識装置
JPS59106085A (ja) * 1982-12-10 1984-06-19 Fujitsu Ltd 認識装置の辞書更新方法

Also Published As

Publication number Publication date
JPS59214900A (ja) 1984-12-04

Similar Documents

Publication Publication Date Title
TW502249B (en) Segmentation approach for speech recognition systems
EP0128755B1 (en) Apparatus for speech recognition
EP0380297B1 (en) Method and apparatus for speech recognition
US4590605A (en) Method for production of speech reference templates
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
US20100121638A1 (en) System and method for automatic speech to text conversion
JPH0352640B2 (ja)
JPH07146699A (ja) 音声認識方法
US4937871A (en) Speech recognition device
JPH03201079A (ja) パターンマッチング装置
JPH0554116B2 (ja)
Savchenko et al. Fuzzy Phonetic Encoding of Speech Signals in Voice Processing Systems
Seltzer et al. Automatic detection of corrupt spectrographic features for robust speech recognition
KR19990015122A (ko) 음성 인식 방법
JPH0283595A (ja) 音声認識方法
JP2886879B2 (ja) 音声認識方法
JPS60121499A (ja) 音声照合装置
Ananthapadmanabha et al. Relative occurrences and difference of extrema for detection of transitions between broad phonetic classes
JPH09160585A (ja) 音声認識装置および音声認識方法
JPH0455518B2 (ja)
JPS62111292A (ja) 音声認識装置
Suchato Classification of stop consonant place of articulation: Combining acoustic attributes
JPS63798B2 (ja)
JPS63118198A (ja) 音声認識装置
JPS62111295A (ja) 音声認識装置