JPS59214900A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS59214900A
JPS59214900A JP58089118A JP8911883A JPS59214900A JP S59214900 A JPS59214900 A JP S59214900A JP 58089118 A JP58089118 A JP 58089118A JP 8911883 A JP8911883 A JP 8911883A JP S59214900 A JPS59214900 A JP S59214900A
Authority
JP
Japan
Prior art keywords
standard
recognition
counter
standard pattern
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58089118A
Other languages
English (en)
Other versions
JPH0554116B2 (ja
Inventor
小松 昭男
畑岡 信夫
浅川 吉章
市川 熹
梅村 和裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58089118A priority Critical patent/JPS59214900A/ja
Publication of JPS59214900A publication Critical patent/JPS59214900A/ja
Publication of JPH0554116B2 publication Critical patent/JPH0554116B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は音声認識方式、更に詳しく言えば、複数個の標
準パターンを用いた不特定話者音声認識方式に係り、特
に、誤認識の原因となシ得る妨害パターンを話者毎に学
習する方式に関する。
〔発明の背景〕
従来、不特定な話者を対象とした音声認識を行なう場合
、多数の話者の発声変動(発声上の差異)を吸収して安
定した認識率を得るため、複数個の標準パターンを準備
しておくマルチテンプレート方式がとられている。マル
チテンプレート方式における問題点は、妨害パターンの
存在である。妨害パターンは話者に依存するため、不特
定な話者に対して前もって妨害パターンとなる標準パタ
ーンを取シ除いておくことはできない。たとえば、1a
1と101との認識を例に説明する。第1図は、男性と
女性との第1ホルマントと第2ホルマントの代表的な位
置関係を示す図である。図より、男性の1.1が女性の
101に近いことがわかる。
このことは、入力音声が男性のIalの場合、男性よシ
作られたlalの標準パターンとのマツチング距離(以
下単に距離という)が小さくなるが、女性よシ作られた
101の標準パターンとの距離も小さくなってしまうこ
とを示している。この例で、発声変動などによシ、女性
よシ作られた101の標準パターンが妨害パターンとな
り、男性の入力音声1alが101と誤認識されてしま
う場合がある。この妨害パターンは、女性の101の入
力音声を正しく認識するためには必要な標準パターンで
あシ、前もって取り除く訳にはいかない。
このような状況に対し、従来では、基本周波数(ピッチ
)情報などを利用して話者を分類したり、話者の分類に
応じた複数個の組に標準パターンを分類しておく方法が
とられていた。このため、種種のクラスタリング手法が
開発されている。例えば、S、EJevinsionな
どの論文(IEEE Trans。
on Acoust、 、 5peeCh Hnd S
ignal Srocessing。
vo4AssP  27.A2.Apr、1979)が
ある。しかしながら、不特定な話者を数組に分類する明
確な手段はなく、期待通りの効呆が発揮できない場合が
少くない。
〔発明の目的〕
本発明は上記問題点を解決するためになされたもので、
話者に対応した妨害パターンを学習により除去する手法
を提供することを目的とする。
〔発明の概要〕
この目的を達成するために、本発明では、各標準パター
ン毎に計数器を設け、認識結果に基づく妨害パターン(
または妨害となり得る)くターン)に対応した計数器の
内容を更新し、その値によって標準パターンを話者に対
応して分類するものである。これは、標準ノくターンセ
ットを当該H古老に適応化させるものであり、特定話者
認識相当の高い認識率が得られる。
〔・発明の実施例〕
以下、本発明を実施例により説明する。第2図は本発明
を実施する認識装置の一実施例の構成を示すブロック図
で、入力音声21は、マイクや電話器などの入力手段(
図示していない)より入力される音声波形を分析して得
られた、特徴ノ(ラメータの時系列に変換されたもので
ある。分析方法としては種々のものが考えられるが、た
とえば、16チヤネルのフイルタノくンクにより116
次元のパラメータの時系列に変換される。マツチング部
22は、入力音声21と標準)(ターンメモリ23に記
憶されている個々の標準バクーンとのマツチング処理を
行なう。マツチング方式には棟々のものがあるが、動的
計画(DynamjCprOgra −rrrn i 
n g )法を利用したマツチング法が用いられている
。入力音声21と個々の標準パターンとのマツチング距
離(以下あい甘いさがない限り単に距離という)により
、判定部24において認識結果が得られる。種々の判定
方法が考えられるが、ここでは最も簡単なりest F
irst (最良優先)法によるものとする。以上の構
成で種々の変形が考えられるが、本発明とは直接関係し
ない。
計数器25は個々の標準パターンに対応して設けられて
いる。説明を簡単にするため、不特定話者のlalと1
01とを認識する場合を考えるものとし、第3図に複数
個の標準パターンをFl−F2マツプ上に図式的に並べ
たものを示す。図の中で○印が101の標準パターン、
Δ印がlalの標準パターンを示す。以下、認識の処理
手順を順を追って説明する。
(1)ステップ1(初期値設定) 認識に先たち、計数器25の初期値を設定する。
ここでは、標準パターンすべてを平等に扱うものとし、
計数器25のすべての初期値を零にする。
(2)ステップ2(候補の選択) 入力音声x1が人って来た場合を考える。各様が第2候
補となシ、%Kが第3侯補となる。ここで各標準パター
ンの計数器の内容が閾値(今は2とする)以上であれば
、入力音声との距離がたとえ小さくても、候補として扱
わない。
(3)ステップ3(認識結果の判定) ステップ2で求まった候補より最適なものを認識結果と
し出力する。Be5t pir’st法を採用するとす
れば、距離の一番小さいものとして■が選ばれ、入力音
声Xlは101であるとの認識結果が得られる。
(4)ステップ4(計数器の内容更新)音声認識結果の
出力にともない、結果の確認を行なうのが普通である。
たとえば、6只今の音声は1.1ですか”という質問に
対し、”はい”又は°“いいえ″の入力音声を認識し、
確認する。上の例で、入力X1が101と正しく認識さ
れたことが解れば、この話者にとって4の標準パターン
は妨害パターンとなり得る訳であり、標準パターンMに
対応した計数器の内容を1つ増す。
以下、ステップ2に戻り、認識を繰シ返す。
上記の例をさらに続ける。その話者の2回目の人力音声
が同じく1o1であり、Xl と近い位置にあったとす
れば、ステップ2がら4までは同じ処理結果となる。但
し、ステップ4において、標準パターン%Xに対応した
計数器の内容は2となる。次に、3回目の入力音声1.
1がX3の位置にあったとする。この場合、標準パター
ンA\との距離が一番小さいので第1位候補となり、1
a1と誤認識されてしまう。しかしながら、ステップ2
における候補選択の処理において、標準パターンMに対
応した計数器の内容が閾値(2とした)以上なので標準
パターンムが候補として選ばれることはなく、次に近い
距離にある標準パタ−ン■が第1位候補となシ、入力音
声X3が1.1と正しく認識される。すなわち、標準パ
ターンムが妨害パターンとして除去されたことになり、
これ以後の入力音声が安定に認識できるようになる。
以上の例において、第1図のFl−F2マツプ図を参照
すれば、入力音声の発声者は女性であり、標準パターン
ムは男性の音声より作られたものであると断定しても間
違いは少い。
以上述べた本発明による認識手順の概略を第4図のフロ
ーチャートに示す。認識手順の細部については種々の変
形が考えられるが、その内の代表的なものについて、以
下に説明する。
上記の例では、妨害パターンとみなされたものに対して
、対応した計数器の内容がプラス1された。従って、計
数器の内容が閾値以上になると、話者が代るまで、その
標準パターンは2度と利用されなくなる。システム的な
行違いや雑音などにより、間違えて妨害パターンのレッ
テルをはられる場合もあシ得る。これを救うため、正し
く認識された場合、その標準パターンに対応した計数器
の内容をマイナス1する方法が考えられる。
さらに、計数器の内容は、その話者に対する標準パター
ンの信頼度と関係していることになる。
従って、計数器の内容に応じてマツチング結果(距離)
を補正し、より高く安定した認識率′f:4ることか可
能である。
さらにまた、すべての標準パターンを平等に扱うのでは
なく、初期値の設定時にウェイト付けを行なうことも可
能である。例えば、男性よシ作つた標準パターンlal
や女性から作った標準パターン101は他と比べて妨害
パターンになり易いことは明らかなので、対応した計数
器の初期値を他のものとは異なった値に前もって設定し
ておくことにより、学習速度を加速することができる。
以上の実施例の説明において、1a1と1oIとの認識
に限定した。しかし、本発明は、一般的な音韻や音節の
認識であれ、単語の認識であれ、すべてに適応可能であ
ることはいうまでもない。
〔発明の効果〕
本発明によれば、話者に応じた標準パターンの分類がで
き、妨害パターンを話者対応に除去することができる。
このことは、不特定話者を対象とした複数標準パターン
のセントを話者に適応化させたことになり、不特定話者
音声認識において、特定話者音声認識並みの高い認識率
を達成することができるようになる。また、特定話者を
対象とした場合でも、日々の発声変動を吸収することが
でき、認識率の安定化に効果がある。
【図面の簡単な説明】
第1図は話者による5母音の第1.第2.ホルマント分
布を示す図、第2図は本発明を用いた認識装置の一実施
例のブロック構成図、第3図は本発明の認識手順の説明
に用いた標準パターンの配置を図式的に示した図、第4
図は本発明による認識手順の概略を示すフローチャート
図である。 23・・・標準パターンメモリ、25・・・標準パター
ンf3 1   図 オ1;7’:+1.マシトF−<KHz)拓 Z  図 ■3図 遁 4

Claims (1)

  1. 【特許請求の範囲】 1、複数個の標準パターンをもつ標準パターンセットを
    用いてパターンマツチングを行う音声認識方式において
    、各標準パターン毎に計数器を具備し、当該計数器の内
    容を参照して認識結果を出す判定手段を有し、認識結果
    によシ当該計数器の内容を変更することを特徴とする音
    声認識方式。 2、第1項記載において上記計数器の初期値として、各
    標準パターン毎に前もって定められている値を設定する
    ことを特徴とする特許請求の範囲第1項記載の音声認識
    方式。
JP58089118A 1983-05-23 1983-05-23 音声認識装置 Granted JPS59214900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58089118A JPS59214900A (ja) 1983-05-23 1983-05-23 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58089118A JPS59214900A (ja) 1983-05-23 1983-05-23 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59214900A true JPS59214900A (ja) 1984-12-04
JPH0554116B2 JPH0554116B2 (ja) 1993-08-11

Family

ID=13961973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58089118A Granted JPS59214900A (ja) 1983-05-23 1983-05-23 音声認識装置

Country Status (1)

Country Link
JP (1) JPS59214900A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60172100A (ja) * 1984-02-16 1985-09-05 電子計算機基本技術研究組合 音声認識装置
JPS6259997A (ja) * 1985-09-11 1987-03-16 沖電気工業株式会社 音声認識装置
US5227882A (en) * 1990-09-29 1993-07-13 Sharp Kabushiki Kaisha Video display apparatus including display device having fixed two-dimensional pixel arrangement

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58171093A (ja) * 1982-03-31 1983-10-07 富士通株式会社 音声認識装置
JPS59106085A (ja) * 1982-12-10 1984-06-19 Fujitsu Ltd 認識装置の辞書更新方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58171093A (ja) * 1982-03-31 1983-10-07 富士通株式会社 音声認識装置
JPS59106085A (ja) * 1982-12-10 1984-06-19 Fujitsu Ltd 認識装置の辞書更新方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60172100A (ja) * 1984-02-16 1985-09-05 電子計算機基本技術研究組合 音声認識装置
JPH0236960B2 (ja) * 1984-02-16 1990-08-21 Denshi Keisanki Kippon Gijutsu
JPS6259997A (ja) * 1985-09-11 1987-03-16 沖電気工業株式会社 音声認識装置
US5227882A (en) * 1990-09-29 1993-07-13 Sharp Kabushiki Kaisha Video display apparatus including display device having fixed two-dimensional pixel arrangement

Also Published As

Publication number Publication date
JPH0554116B2 (ja) 1993-08-11

Similar Documents

Publication Publication Date Title
US7389229B2 (en) Unified clustering tree
TW502249B (en) Segmentation approach for speech recognition systems
CN102831891B (zh) 一种语音数据处理方法及系统
EP0109190A1 (en) Monosyllable recognition apparatus
JPS63220298A (ja) 音声認識における単語候補削減装置
Kalinli Tone and pitch accent classification using auditory attention cues
JPH07219579A (ja) 音声認識装置
JPS59214900A (ja) 音声認識装置
CN114512118A (zh) 基于声音语谱图的智能分句方法、计算机装置及存储介质
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JP3031081B2 (ja) 音声認識装置
Grigore et al. Self-organizing maps for identifying impaired speech
JPS6147999A (ja) 音声認識装置
JPS6312000A (ja) 音声認識装置
CN115862603A (zh) 一种歌曲语音识别方法、系统、存储介质和电子设备
Al-Sawalmeh et al. The use of wavelet entropy in conjuction with neural network for Arabic vowels recognition
JPS6147994A (ja) 音声認識方式
JPS6147992A (ja) 音声認識方式
JPS63118198A (ja) 音声認識装置
JPS62111292A (ja) 音声認識装置
JPH0484196A (ja) 連続音声認識用登録パターン作成方法
Aissiou Automatic Classification of Standard Arabic Phonemes Using Parallel Genetic Algorithms
JPH0554678B2 (ja)
JPS61200596A (ja) 連続音声認識装置
JPS63148299A (ja) 単語音声認識方法および装置