JPH02232696A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH02232696A
JPH02232696A JP1053166A JP5316689A JPH02232696A JP H02232696 A JPH02232696 A JP H02232696A JP 1053166 A JP1053166 A JP 1053166A JP 5316689 A JP5316689 A JP 5316689A JP H02232696 A JPH02232696 A JP H02232696A
Authority
JP
Japan
Prior art keywords
speech
voice
similarity
standard
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1053166A
Other languages
English (en)
Inventor
Motoaki Koyama
元昭 児山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1053166A priority Critical patent/JPH02232696A/ja
Priority to US07/487,391 priority patent/US5105465A/en
Priority to EP19900104280 priority patent/EP0386706A3/en
Priority to KR1019900002914A priority patent/KR900015062A/ko
Publication of JPH02232696A publication Critical patent/JPH02232696A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) この発明は音声信号に含まれる情報の認識を行う音声認
識装置に関する。
(従来の技術) 音声認識のアルゴリズムは多種にわたり、実際、認識対
象の発声単位のすべての種類において性能を良好にする
には装置の大型化、コスト高はまぬがれない。そこで、
従来では使用目的に応じて認識語数、話者などの面で許
容できる制約を導入し、その条件のもとて最適の認識方
式が選択され、装置化されてきた。
第4図は従来の音声認工装置の構成を示すブロック図で
ある。音響分析部Hに入力された音声は帯域フィルタに
より、短時間スペクトルによる所定時間毎の分析が行わ
れ、特徴パラメタとして抽出される。この音響分肝部H
の出力に対し、切換$11 am部12及び切換回路1
3. 14で制御される認謙部15.認鷹部l6が設置
されており、どちらか最適な認識システムが選択され、
入力音声の認識が行われるようになっている。
上記認識部■5は例えば、発声者が変わるたびに音声の
標準パタンを登録し直す必要がある特定話者用の認識部
である。特定発声者、固6名詞等に対する認識はこの認
1部15で行われるようになっており、登録変更可能な
標準パタンメモリI7がRA M ( random 
access *csory)等により構成され、その
メモリデータが上記認識部15に呼出されて、上記分析
された人力音声との類似度計算処理が行われる。この認
識部I5での認ぷアルゴリズムとしては、DPマッチン
グ法( D T W : dynatxlc tame
Varl)1ng)が適用されており、マッチングff
i(距M)が計算され、最ら距離の小さい標準パタンの
カテゴリが認識結果として出力される。
他方、上記認1部1Gは例えば、誰もが使用する汎用的
な3Bfaを登録変更不可能な標準パタンとして備えた
不特定話者用の認識部である。数字等、特定汎用語量に
対する認識はこの認識部1Gで行われるようになってお
り、登録変更不可能な標準パタンメモリ18がR O 
M ( read only memory)等により
構成され、そのメモリデータが上記認識部16に呼出さ
れて、上記分析された入力音声との類似度計算処理が行
われる。この認識部1Bでの認エアルゴリズムとしては
、識別関数法による識別が適用されており、類似度コ1
算値が最も大きな標準パタンのカテゴリが認識結果とし
て出力される。
上;己認3部15. 18のように、用途に応じて複数
の認一部を切換える切換方式については、特開昭49−
3507号公報に記載されているように、それぞれの2
.:J部における認識結果によって論理判断が行われ、
この判断のもとに切換制御部12による制御で最適な認
識結果がiリられるようにしている。
しかし、上記のような構成では用途に応じた認識部15
. 16を鑓えなければならない。また、切換回路13
. 14及び切換のための切換制御部l2も必要であり
、装置の複雑化に伴い、大型化、コストが上昇する等の
欠点があった。
(発明が解決しようとする課題) このように従来では、特定話者及び不特定話者等、話者
、発声様式に関して異なった種類の制約があるものに対
して音声認識の性能向上を図るには上記それぞれの種類
に応じたアルゴリズムを持つ認識部を備えなければなら
ず、装置の複雑化に伴う大型化、コスト上昇を招くとい
う欠点がある。
この発明は上記のような事情を考慮してなされたもので
あり、その目的は、話者、発声様式に関して異なった種
類の制約があっても、音声認識性能を劣化させずに、装
置の小型化、低コスト化が図れる音声認識装置を提倶す
ることにある。
〔発明の構成コ (課題を解決するための手段) この発明の音声認識装置は入力された音声から特徴パラ
メータを抽出する音響分析手段と、話者、発声様式等に
関して異なった種類の制約を有する音声標準パタンを記
憶する制約別音声標準パタン記憶手段と、上記g響分析
手段で得られた分析パタンと上記制約別音声標学パタン
記憶手段による音声標準パタンそれぞれとの類似度計算
を共通の認識アルゴリズムを用いて行う類似度計算手段
とから構成される。
(作用) 特定話者、不特定話者等のそれぞれの音声の種別に対応
して用意された音声標準パタンは共通の類似度計算部に
よって、音響分析部からの出力信号と類似度計算される
。この類似度計算部により最適な22データが出力され
る。
(実施例) 以下、図面を参照してこの発明を実施例により説明する
第1図はこの発明に係る音声認識装置の基本構成を示す
ブロック図である。認識対象となる音声は音響分析部1
に入力され、音響分析が行われる。
音響分析部1からの分析結果は類似度計算部2に入力さ
れる。この類似度計算部2では、話者、発声様式等に関
して異なった種類の制約がある音声漂僧パタン、例えば
特定話と、固a名調等、登録変更を要する語量を対象と
した登録変更可能な標準パタンメモリ3−1、及び不特
定:舌者、数字等、汎用語量を対象とした登録変更不可
能なt1準パタンメモリ3〜2の両漂準パタンメモリの
各データが順次人力され、上記音響分析部1から出力さ
れる分析パタンとの類似度計算が共通の認識アルゴリズ
ムで行われ、最適な認虚結果が得られる。
第2図はこの発明の具体的な一実施例による構成のブロ
ック図である。以下、この発明のシステムを実現するた
め、各ブロックの構成について説明する。図において、
音響分析部1から出力された分担パタンは、認識モード
もしくは登録モードにされるように切換回路4が設けら
れている。また、切換回路4によって登録モードにされ
た時は上記分析パタンは標準パタン作成部5を介して上
記登録変更可能な標準パタンメモリ3−1に記憶される
。そして、切換回路4によって認識モードにされた時は
上記第1図と同様に類似度計算部2では両J!準パタン
メモリ3−1.3−2のメモリデータが順次人力され、
上記音響分析部1がら出力される分析パタンとの類似度
計算が共通の認識アルゴリズムで行われ、最適な認識結
果が得られる。
上記音響分析部1では、入力音声が数十msの適当な分
析窓長での短時間スペクトル分析により、スペクトルパ
ラメータの時系列に変換される。
上記スペクトル分析には、通常帯域フィルタ( B P
 F : band  pass  Niter) 、
線形予測分析( L P C : Ilnear  p
redlctlve  eodlng)のいずれかが用
いられる。これによるスペクトルパラメータには、帯域
フィルタ分析の場合ではフィルタ出力の特徴ベクトルが
用いられ、線形予測分析の場合ではLPCケブストラム
等、各社のLPGスベクトルが用いられる。
上9紀切換H路4において、登録モードに設定された場
合、上記TFf%1分析部1からの分析パタンは標準パ
タン作成部5に入力される。ここでは、例えば第3図に
示すような微分一直文化フィルタ法が適用される。すな
わち、音響分析部1から出力されるΔ声の特徴バラメタ
は登録用学習パタンとして時間軸で平滑され、第1軸が
生成される。また、時間.軸の一次歳分と第1軸との再
直交化で第2軸が生成される。また、時間軸上の二次微
分と上記2輔との再直交化で第3軸が生成される。さら
に、上記登録用学習パタンと上記3軸とのGS( gr
am−schaidt)直交化により4軸が生成される
この方法は日本身響学会講演論文集の1987年10月
号37ページに記載されている、「1−5−19 微分
一直交化フィルタを用いた特定話者単語音声認識方式」
からの引用である。
このようにして導出された標準パタンは、登録変更可能
な標準パタンメモリ3−1に記憶される。
他h″、誰もが使用する数字等、汎用的な語量を登録麦
更不i−+J能な漂準パタンメモリ3−2として備えた
不特定話者用の漂準パタンの作成では、例えば次のよう
な方法が適用される。まず、各単語ごとに多数話者のス
ペクトル系列を分類(クラスタ化)し、各クラスタの中
心もしくは各クラスタに属する音声の災均スペクトル系
列を標準パタン(マルチテンプレート)として蓄える。
上記各標準パタンメモリ3−1 ,3−2はソレぞれR
 A M ( randoa access memo
ry) 、R O M( read only mem
ory)等により構成される。マタ、これら共通の記憶
媒体としてF D crloppydisk)やH D
 (hard dlsk)等の外部記憶装置があり、フ
ァイルすることにより、繰り返し利用できる。
上記切換回路4において、認識モードに設定された場合
、上記音響分析部1からの分折パタンは類似度計算部2
に人力される。これにより、各標準パタンメモリ3−1
.3−2のメモリデータがこの類似度計算部2に順次呼
出されて、分析された入力音声との類似度計算処理が行
われる。
上記類似度計算部2における類似度計算の一実施例とし
て、複合類似度法があげられる。すなわち、入力音声の
分析パタンデータXに対し、標準パタンデータをIFg
とすれば、類似度Sは次式で与えられる。
S一Σ (x,  Vs)2 /Itxll 2 11
1F+  IN・・・(1) 二二で、腸は打切り面数であり、第3図において4軸ま
で求めているのでs−4となる。なお、打切り面数一は
4以外でも良い。上記(1)式で求められる類似度Sの
うち最も大きな値をとるカテゴリを認識結果とする。
上記構成によれば、話も、発声様式等に関して異なった
F!i類の制約を有する各種音声標準パタンに対して入
力音声との類似度計算が共通の類似度計算部で行えるた
め、装置が小型化し、簡素化され、コスト低減が図れる
。また、上記標準パタン作成部5で行う微分一直交化フ
ィルタを用い方式は、少ない学習サンプルで高い性能が
得られ、しかも複合類似度法の認識アルゴリズムをその
まま利用できる点、また、登録変更不内I能な標準パタ
ンメモリ3−2における各種標準パタン作成方法は、幅
広く複合類似度法の認識アルゴリズムとのマッチングが
良いことから、共通の類似度計算部2を設定したことに
より、音声認識性能が劣化することはない。
なお、上記実施例における各ブロックにおいて示した標
準パタンの作成方法、分類は多種に渡り、特に限定はし
ないものとし、また、類似度計算方法も各捕標準パタン
か共通な計算方法で類似度が判定できれば良い。
〔発明の効果〕
以上説明したように、話者、発声様式に関して異なった
種類の制約があっても、音声認識性能を劣化させずに、
装置の小型化、低コスト化が図れる音声認識装置が提供
できる。
【図面の簡単な説明】
第1図はこの発明による構成のブロック図、第2図はこ
の発明の具体的実施例の構成によるブロック図、第3図
は第2図中の一部の動作を説明するためのブロック図、
第4図は従来の音声認識装置の構成を示すブロック図で
ある。 1・・・音替分析部、2・・・類似度計算部、3−1・
・・登録変更可能なmfパタンメモリ、 3−2・・・登録変更不可能な標準パタンメモリ、4・
・・切換回路、5・・・標準パタン作成部。 第1図 出願人代理人 弁理士 鈴江武彦 第2図

Claims (2)

    【特許請求の範囲】
  1. (1)入力された音声から特徴パラメータを抽出する音
    響分析手段と、 話者、発声様式等に関して異なった種類の制約を有する
    音声標準パタンを記憶する制約別音声標準パタン記憶手
    段と、 上記音響分析手段で得られた分析パタンと上記制約別音
    声標準パタン記憶手段による音声標準パタンそれぞれと
    の類似度計算を共通の認識アルゴリズムを用いて行う類
    似度計算手段と を具備したことを特徴とした音声認識装置。
  2. (2)入力された音声から特徴パラメータを抽出する音
    響分析手段と、 特定話者を対象として作成される登録変更可能な音声標
    準パタンを記憶する第1の音声標準パタン記憶手段と、 不特定話者を対象として作成される登録変更不可能な音
    声標準パタンを記憶する第2の音声標準パタン記憶手段
    と、 上記音響分析手段で得られた分析パタンと上記第1、第
    2の音声標準パタン記憶手段で得られる音声標準パタン
    それぞれとの類似度計算を共通の認識アルゴリズムを用
    いて行う類似度計算手段とを具備したことを特徴とした
    音声認識装置。
JP1053166A 1989-03-06 1989-03-06 音声認識装置 Pending JPH02232696A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP1053166A JPH02232696A (ja) 1989-03-06 1989-03-06 音声認識装置
US07/487,391 US5105465A (en) 1989-03-06 1990-03-02 Speech recognition apparatus
EP19900104280 EP0386706A3 (en) 1989-03-06 1990-03-06 Speech recognition apparatus
KR1019900002914A KR900015062A (ko) 1989-03-06 1990-03-06 음성인식장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1053166A JPH02232696A (ja) 1989-03-06 1989-03-06 音声認識装置

Publications (1)

Publication Number Publication Date
JPH02232696A true JPH02232696A (ja) 1990-09-14

Family

ID=12935273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1053166A Pending JPH02232696A (ja) 1989-03-06 1989-03-06 音声認識装置

Country Status (4)

Country Link
US (1) US5105465A (ja)
EP (1) EP0386706A3 (ja)
JP (1) JPH02232696A (ja)
KR (1) KR900015062A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210189A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法およびシステム
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
JP2013152475A (ja) * 2001-03-28 2013-08-08 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU4678593A (en) * 1992-07-17 1994-02-14 Voice Powered Technology International, Inc. Voice recognition apparatus and method
KR980011004A (ko) * 1996-07-20 1998-04-30 구자홍 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US11120817B2 (en) * 2017-08-25 2021-09-14 David Tuk Wai LEONG Sound recognition apparatus

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58106329A (ja) * 1981-12-17 1983-06-24 Matsushita Electric Ind Co Ltd 加熱装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5876893A (ja) * 1981-10-30 1983-05-10 日本電気株式会社 音声認識装置
JPS58129684A (ja) * 1982-01-29 1983-08-02 Toshiba Corp パタ−ン認識装置
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
US4989248A (en) * 1983-01-28 1991-01-29 Texas Instruments Incorporated Speaker-dependent connected speech word recognition method
US4712242A (en) * 1983-04-13 1987-12-08 Texas Instruments Incorporated Speaker-independent word recognizer
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58106329A (ja) * 1981-12-17 1983-06-24 Matsushita Electric Ind Co Ltd 加熱装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210189A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法およびシステム
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
JP2013152475A (ja) * 2001-03-28 2013-08-08 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム

Also Published As

Publication number Publication date
US5105465A (en) 1992-04-14
EP0386706A3 (en) 1991-08-28
EP0386706A2 (en) 1990-09-12
KR900015062A (ko) 1990-10-25

Similar Documents

Publication Publication Date Title
EP1300831B1 (en) Method for detecting emotions involving subspace specialists
US5864807A (en) Method and apparatus for training a speaker recognition system
JPH02232696A (ja) 音声認識装置
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
KR100480506B1 (ko) 음성 인식 방법
Salvi Accent clustering in Swedish using the Bhattacharyya distance
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
JP2980382B2 (ja) 話者適応音声認識方法および装置
Al-Irhayim et al. Speech recognition of isolated Arabic words via using wavelet transformation and fuzzy neural network
JPH04324499A (ja) 音声認識装置
JP3011997B2 (ja) 参照ベクトル更新方法
JP3536380B2 (ja) 音声認識装置
JPH0323920B2 (ja)
Amornkul et al. Addable stress speech recognition with multiplexing hmm: Training and non-training decision
JP2003177785A (ja) 線形変換行列計算装置及び音声認識装置
JP3036706B2 (ja) 音声認識方法
JP2000122693A (ja) 話者認識方法および話者認識装置
JP3412501B2 (ja) タスク適応化装置及び音声認識装置
JPH1165589A (ja) 音声認識装置
JPH02251999A (ja) 標準パタン作成方式
JPS62111292A (ja) 音声認識装置
KR19990080346A (ko) 화자 적응 음성 데이터 인식 방법
JPH01319099A (ja) 音声認識装置
JPH06266397A (ja) 特徴パターン作成方式
JPH042197B2 (ja)