JPH0352640B2 - - Google Patents
Info
- Publication number
- JPH0352640B2 JPH0352640B2 JP57012792A JP1279282A JPH0352640B2 JP H0352640 B2 JPH0352640 B2 JP H0352640B2 JP 57012792 A JP57012792 A JP 57012792A JP 1279282 A JP1279282 A JP 1279282A JP H0352640 B2 JPH0352640 B2 JP H0352640B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- similarity
- recognition
- pattern
- input speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 abstract description 5
- 238000011524 similarity measure Methods 0.000 abstract 5
- 230000005236 sound signal Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
- Document Processing Apparatus (AREA)
- Image Processing (AREA)
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は入力音声を精度良く認識することので
きる音声認識装置に関する。
きる音声認識装置に関する。
近時、情報入力の有用な手段として音声認識装
置が注目されている。この音声認識装置における
音声認識には、従来より主としてパターンマツチ
ング法が採用されている。第1図はこの種、パタ
ーンマツチング法による音声認識装置の概略構成
を示すものである。同図において、図示しない音
声入力部を介して入力された音声信号は、音響処
理部1に導びかれ、A/D変換処理、雑音除去処
理、エンフアシス等の処理が施されたのち、前処
理部2に導びかれる。この前処理部2では、例え
ば入力音声のスペクトル包絡等の特徴パラメータ
を抽出して、その時系列からなる音声パターンを
求めている。識別部3では上記入力音声パターン
と、辞書4に予め登録された音声標準パターンと
のマツチング度、つまり類似度を計算し、例えば
類似度が最大となる音声標準パターンのカテゴリ
を前記入力音声の認識結果として出力している。
上記類似度の計算は、一般的には入力音声パター
ンと音声辞書パターンとのユークリツド距離を求
めたり、あるいはその内積を求める等して行われ
る。そして、上記計算された各類似度値が一定値
以下の場合には、入力音声の認識ができないとし
て、これをリジエクトすることが行われている。
置が注目されている。この音声認識装置における
音声認識には、従来より主としてパターンマツチ
ング法が採用されている。第1図はこの種、パタ
ーンマツチング法による音声認識装置の概略構成
を示すものである。同図において、図示しない音
声入力部を介して入力された音声信号は、音響処
理部1に導びかれ、A/D変換処理、雑音除去処
理、エンフアシス等の処理が施されたのち、前処
理部2に導びかれる。この前処理部2では、例え
ば入力音声のスペクトル包絡等の特徴パラメータ
を抽出して、その時系列からなる音声パターンを
求めている。識別部3では上記入力音声パターン
と、辞書4に予め登録された音声標準パターンと
のマツチング度、つまり類似度を計算し、例えば
類似度が最大となる音声標準パターンのカテゴリ
を前記入力音声の認識結果として出力している。
上記類似度の計算は、一般的には入力音声パター
ンと音声辞書パターンとのユークリツド距離を求
めたり、あるいはその内積を求める等して行われ
る。そして、上記計算された各類似度値が一定値
以下の場合には、入力音声の認識ができないとし
て、これをリジエクトすることが行われている。
ところがこのような従来装置におけるパターン
マツチング法は、音声信号の局所的な変動や雑音
に強い反面、類似した音声間の判別や音声の局所
的な差異について十分なる識別ができないと云う
認識特性を有している。例えば単語の病院
(byoin)と美容院(biyoin)との明確な識別や、
音節の「か」と「が」の判別が非常に困難であ
る。これ故、誤認識が生じたり、認識不能な結果
を得ることが多かつた。
マツチング法は、音声信号の局所的な変動や雑音
に強い反面、類似した音声間の判別や音声の局所
的な差異について十分なる識別ができないと云う
認識特性を有している。例えば単語の病院
(byoin)と美容院(biyoin)との明確な識別や、
音節の「か」と「が」の判別が非常に困難であ
る。これ故、誤認識が生じたり、認識不能な結果
を得ることが多かつた。
そこで従来、十分高い類似度値が得られないと
き、音声パターンの差異が生じる別の特徴を抽出
し、これらの特徴を対比して音声の認識判定を行
う手段が提唱されている。この手段は非常に有効
なものではあるが、高い類似度値を得て誤認識さ
れた結果や、認識対象外の音声パターン等の雑音
によつて誤認識された結果については、十分に対
処することができないと云う問題があつた。つま
り、類似した音声パターンによる誤認識結果に対
しては何らこれを防ぐことができなかつた。
き、音声パターンの差異が生じる別の特徴を抽出
し、これらの特徴を対比して音声の認識判定を行
う手段が提唱されている。この手段は非常に有効
なものではあるが、高い類似度値を得て誤認識さ
れた結果や、認識対象外の音声パターン等の雑音
によつて誤認識された結果については、十分に対
処することができないと云う問題があつた。つま
り、類似した音声パターンによる誤認識結果に対
しては何らこれを防ぐことができなかつた。
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、パターンマツチ
ングにより十分高い類似度値が得られたにも拘ら
ず、その認識が曖眛な場合であつても、安定に且
つ確実に入力音声を正しく認識することのできる
音声認識装置を提供することにある。即ち本発明
は類似した音声パターンを持つ異なる音声を明確
に分離し、且つ雑音に左右されることなく正しく
音声認識を行い得る実用性の高い音声認識装置を
提供することを目的とするものである。
ので、その目的とするところは、パターンマツチ
ングにより十分高い類似度値が得られたにも拘ら
ず、その認識が曖眛な場合であつても、安定に且
つ確実に入力音声を正しく認識することのできる
音声認識装置を提供することにある。即ち本発明
は類似した音声パターンを持つ異なる音声を明確
に分離し、且つ雑音に左右されることなく正しく
音声認識を行い得る実用性の高い音声認識装置を
提供することを目的とするものである。
本発明は、入力音声パターンと辞書に登録され
た音声標準パターンとの類似度を計算して類似度
値の高い第1位および第2位の類似度値を抽出
し、上記第1位の類似度値が一定値以上であるか
否か、および上記第1位と第2位との類似度値差
が一定値以上であるか否かを判定して前記第1位
の類似度値を得る標準パターンのカテゴリを入力
音声に対する認識結果とするか否かを主認識判定
し、この主認識判定により認識リジエクトされた
ときは、上記類似度値の第1位から第m位までを
得る各標準パターンのカテゴリの音声パラメータ
の差異が生じる特徴を用いて入力音声パターンと
の照合を行い、この照合結果に従つて認識結果を
得る補助認識を行うようにしたものである。
た音声標準パターンとの類似度を計算して類似度
値の高い第1位および第2位の類似度値を抽出
し、上記第1位の類似度値が一定値以上であるか
否か、および上記第1位と第2位との類似度値差
が一定値以上であるか否かを判定して前記第1位
の類似度値を得る標準パターンのカテゴリを入力
音声に対する認識結果とするか否かを主認識判定
し、この主認識判定により認識リジエクトされた
ときは、上記類似度値の第1位から第m位までを
得る各標準パターンのカテゴリの音声パラメータ
の差異が生じる特徴を用いて入力音声パターンと
の照合を行い、この照合結果に従つて認識結果を
得る補助認識を行うようにしたものである。
従つて本発明によれば、パターンマツチングに
よつて高い類似度が得られた場合であつても、こ
れに類似する標準パターンが存在する場合には、
音声パターンの差異を示す特徴によつて音声認識
が行われるので、類似音声パターンが存在して
も、また雑音があつても、常に安定に、且つ確実
に正しい認識結果を得ることが可能となる。そし
て、誤認識を防ぎ、認識精度の向上を図ることが
可能となる。
よつて高い類似度が得られた場合であつても、こ
れに類似する標準パターンが存在する場合には、
音声パターンの差異を示す特徴によつて音声認識
が行われるので、類似音声パターンが存在して
も、また雑音があつても、常に安定に、且つ確実
に正しい認識結果を得ることが可能となる。そし
て、誤認識を防ぎ、認識精度の向上を図ることが
可能となる。
以下、図面を参照して本発明の一実施例につき
説明する。
説明する。
第2図は実施例装置の概略構成図である。マイ
クロホン等を介して入力された音声信号は、A/
D変換器11を介して、その振幅レベルに応じて
量子化(数値化)されて取込まれる。このように
して入力された音声信号は、例えば第3図に示す
如く構成された音響処理回路12に導びかれて、
そのスペクトル情報や音韻情報が検出されるよう
になつている。即ち、音響処理回路12は、音響
処理制御回路21によつて作動制御されるチヤン
ネルフイルタ22にて入力音声信号を周波数スペ
クトル分解しており、そのスペクトル情報をパタ
ーン変換回路23を介して認識処理に適合した音
声パターンに変換して出力している。このパター
ン変換回路23は、例えば入力音声をリサンプル
して、その入力音声パターンを時間正規化処理す
る等して、入力音声の時間的なゆらぎ等を補償す
るものである。これにより、音響処理されて出力
される音声パターンは、個人差等に起因する時間
的ずれが吸収されたものとなる。一方、この音響
処理回路12では、上記入力音声パラメータの各
時点のスペクトル情報と音韻特徴辞書24に登録
された音韻の特徴情報とを音韻特徴計算回路25
により照合している。そしてこの照合により、入
力音声単語に含まれる母音や鼻音等の音韻特徴
を、前記スペクトル特徴に対する類似度計算等に
よつて求めている。このようにして、音響処理回
路12では、入力音声の特徴パラメータ時系列か
らなる音声パターンと、その音韻特徴情報がそれ
ぞれ求められている。尚、入力音声の特徴パラメ
ータとして、上述した周波数スペクトル以外のも
のを用いることも可能であり、また音韻特徴の抽
出手段も従来より提唱されている種々方式を適宜
採用することが可能である。従つて、音響処理回
路12の構成は、特に第3図に示される例に限定
されることはない。
クロホン等を介して入力された音声信号は、A/
D変換器11を介して、その振幅レベルに応じて
量子化(数値化)されて取込まれる。このように
して入力された音声信号は、例えば第3図に示す
如く構成された音響処理回路12に導びかれて、
そのスペクトル情報や音韻情報が検出されるよう
になつている。即ち、音響処理回路12は、音響
処理制御回路21によつて作動制御されるチヤン
ネルフイルタ22にて入力音声信号を周波数スペ
クトル分解しており、そのスペクトル情報をパタ
ーン変換回路23を介して認識処理に適合した音
声パターンに変換して出力している。このパター
ン変換回路23は、例えば入力音声をリサンプル
して、その入力音声パターンを時間正規化処理す
る等して、入力音声の時間的なゆらぎ等を補償す
るものである。これにより、音響処理されて出力
される音声パターンは、個人差等に起因する時間
的ずれが吸収されたものとなる。一方、この音響
処理回路12では、上記入力音声パラメータの各
時点のスペクトル情報と音韻特徴辞書24に登録
された音韻の特徴情報とを音韻特徴計算回路25
により照合している。そしてこの照合により、入
力音声単語に含まれる母音や鼻音等の音韻特徴
を、前記スペクトル特徴に対する類似度計算等に
よつて求めている。このようにして、音響処理回
路12では、入力音声の特徴パラメータ時系列か
らなる音声パターンと、その音韻特徴情報がそれ
ぞれ求められている。尚、入力音声の特徴パラメ
ータとして、上述した周波数スペクトル以外のも
のを用いることも可能であり、また音韻特徴の抽
出手段も従来より提唱されている種々方式を適宜
採用することが可能である。従つて、音響処理回
路12の構成は、特に第3図に示される例に限定
されることはない。
しかして、音響処理回路12で求められた入力
音声の音声パターンと、その音韻特徴情報はデー
タバツフアメモリ13に一時記憶されたのち、以
下に示す音声認識に供せられる。
音声の音声パターンと、その音韻特徴情報はデー
タバツフアメモリ13に一時記憶されたのち、以
下に示す音声認識に供せられる。
類似度計算回路14は、データバツフアメモリ
13に格納された音声パターンと、パターン辞書
フアイル15に予め登録された複数の音声カテゴ
リの標準パターンとの相関値、つまり類似度をそ
れぞれ計算し、その計算された類似度の情報を制
御回路16に供給している。この制御回路16は
基本的には第4図に示すように装置制御回路部2
7と、この回路部27によつて動作制御されるメ
モリ制御回路28および種々の認識判定演算を行
う演算回路29により構成される。そして、この
制御回路16では、上記計算された類似度値から
入力音声の認識結果を得るべく主認識判定を行う
と共に、この主認識判定によつて確実な認識結果
が得られない場合には、補助特徴認識部17を用
いて、前記バツフアメモリ13に格納された音韻
特徴と、前記類似度計算によつて求められた認識
候補カテゴリの特徴とを照合して、補助認識判定
処理を行つている。つまり、類似度計算による音
声認識に対して、音韻特徴の照合による認識が補
助されるようになつている。
13に格納された音声パターンと、パターン辞書
フアイル15に予め登録された複数の音声カテゴ
リの標準パターンとの相関値、つまり類似度をそ
れぞれ計算し、その計算された類似度の情報を制
御回路16に供給している。この制御回路16は
基本的には第4図に示すように装置制御回路部2
7と、この回路部27によつて動作制御されるメ
モリ制御回路28および種々の認識判定演算を行
う演算回路29により構成される。そして、この
制御回路16では、上記計算された類似度値から
入力音声の認識結果を得るべく主認識判定を行う
と共に、この主認識判定によつて確実な認識結果
が得られない場合には、補助特徴認識部17を用
いて、前記バツフアメモリ13に格納された音韻
特徴と、前記類似度計算によつて求められた認識
候補カテゴリの特徴とを照合して、補助認識判定
処理を行つている。つまり、類似度計算による音
声認識に対して、音韻特徴の照合による認識が補
助されるようになつている。
第5図は、このように構成された本装置におけ
る認識処理手順を示すもので、以下この第5図に
示される処理手順に従い、本装置の特徴ある音声
認識につき説明する。
る認識処理手順を示すもので、以下この第5図に
示される処理手順に従い、本装置の特徴ある音声
認識につき説明する。
音声信号が入力されると、音響処理回路12で
は、先ずフレーム単位で上記入力音声のスペクト
ル情報と音韻特徴とが計算される。上記スペクト
ル情報の計算は、例えば入力音声信号のMチヤン
ネルのバンドパスフイルタの出力を用いて行われ
る。そして、各フレーム毎に、そのデータが音声
の区間に属するか否かの検出が、各フレームのエ
ネルギの大きさや音韻特徴を用いて行われる。こ
れらの検出は、音声の終端が検出される迄繰返し
て行われ、これにより、1つの音声区間の上記検
出されたスペクトル情報や音韻特徴からなる特徴
パラメータ時系列で示される音声パターンが検出
される。またこのとき、各フレーム毎に無声性、
有声性、摩擦性、破裂性、鼻音等、パワーデイツ
プ等の入力音声特有の音韻特徴が判定検出され
る。
は、先ずフレーム単位で上記入力音声のスペクト
ル情報と音韻特徴とが計算される。上記スペクト
ル情報の計算は、例えば入力音声信号のMチヤン
ネルのバンドパスフイルタの出力を用いて行われ
る。そして、各フレーム毎に、そのデータが音声
の区間に属するか否かの検出が、各フレームのエ
ネルギの大きさや音韻特徴を用いて行われる。こ
れらの検出は、音声の終端が検出される迄繰返し
て行われ、これにより、1つの音声区間の上記検
出されたスペクトル情報や音韻特徴からなる特徴
パラメータ時系列で示される音声パターンが検出
される。またこのとき、各フレーム毎に無声性、
有声性、摩擦性、破裂性、鼻音等、パワーデイツ
プ等の入力音声特有の音韻特徴が判定検出され
る。
しかるのち、音声パターンの時間正規化を行う
べく、上記音声パターンの正確な音声区間検出、
つまり始端および終端の検出が行われ、この結果
に従つて上記音声パターンに対するリサンプル点
が定められる。このリサンプル点は、音声区間を
等分割して線形に定めてもよいが、音声単語中の
無音部やパワーデイツプ位置等を検出し、これら
の検出位置を節として区分された部分毎にそれぞ
れ線形にリサンプル点を定めるようにしてもよ
い。このリサンプル処理によつて、M×N次元の
音声パターンベクトルXが求められ、前記データ
バツフアメモリ13に格納される。
べく、上記音声パターンの正確な音声区間検出、
つまり始端および終端の検出が行われ、この結果
に従つて上記音声パターンに対するリサンプル点
が定められる。このリサンプル点は、音声区間を
等分割して線形に定めてもよいが、音声単語中の
無音部やパワーデイツプ位置等を検出し、これら
の検出位置を節として区分された部分毎にそれぞ
れ線形にリサンプル点を定めるようにしてもよ
い。このリサンプル処理によつて、M×N次元の
音声パターンベクトルXが求められ、前記データ
バツフアメモリ13に格納される。
このようにして求められた音声パターンベクト
ルXと、前記辞書フアイル15に登録された標準
パターンとの類似度が計算され、その計算結果に
従つて上記音声パターンベクトルXが属するカテ
ゴリの決定、つまり音声認識が行われる。このパ
ターン照合を為す類似度計算は、例えば入力音声
パターンの変動に強い複合類似度法を用いて行わ
れる。即ち、音声カテゴリCiの辞書パターンを
φij(j=1,2〜J)、‖X‖をベクトルXのノル
ムとしたとき、音声パターンベクトルXのカテゴ
リCiに対する類似度Siは Si=J 〓j=1 (X,φij)2/‖X‖2 として計算される。このような類似度計算が辞書
フアイル15に登録された標準パターンのそれぞ
れに対して行われる。
ルXと、前記辞書フアイル15に登録された標準
パターンとの類似度が計算され、その計算結果に
従つて上記音声パターンベクトルXが属するカテ
ゴリの決定、つまり音声認識が行われる。このパ
ターン照合を為す類似度計算は、例えば入力音声
パターンの変動に強い複合類似度法を用いて行わ
れる。即ち、音声カテゴリCiの辞書パターンを
φij(j=1,2〜J)、‖X‖をベクトルXのノル
ムとしたとき、音声パターンベクトルXのカテゴ
リCiに対する類似度Siは Si=J 〓j=1 (X,φij)2/‖X‖2 として計算される。このような類似度計算が辞書
フアイル15に登録された標準パターンのそれぞ
れに対して行われる。
しかして制御回路16は、上記の如く計算され
た類似度値の最も高いものから順に第1位、第2
位〜として定めたとき、まず第1位の類似度値S1
と第2位の類似度値S2とを求め、 S1>T1 S1−S2>T2 なる計算を行つている。即ち、第1位の類似度値
S1が予め設定された所定の閾値T1より大きいか
否か、つまり十分高い類似度値が得られたか否か
を判定している。また同時に第1位と第2位との
類似度値差(S1−S2)を求め、その類似度値差が
所定の閾値T2以上であるか否か、つまり、他の
候補カテゴリの類似度値と十分な差があり、その
識別が明確であるか否かの判定を行つている。そ
して制御回路17では、入力音声パターンに対し
て求められた類似度値が上記条件を満たすとき、
第1位の類似度値S1を得る標準パターンの音声カ
テゴリを入力音声の認識結果であると判定してい
る。また計算された類似度値が上記条件のいずれ
か一方を満たさない場合には、判定不能なる認識
結果を得ている。即ち、第1位の類似度値S1が閾
値T1より小さい場合には、音声パターンに良く
類似した標準パターンが存在しないとして判定
し、また類似度値差が閾値T2より小さい場合に
は、音声パターンに類似する幾つかの標準パター
ンが存在し、その明確な識別ができないとして判
定している。
た類似度値の最も高いものから順に第1位、第2
位〜として定めたとき、まず第1位の類似度値S1
と第2位の類似度値S2とを求め、 S1>T1 S1−S2>T2 なる計算を行つている。即ち、第1位の類似度値
S1が予め設定された所定の閾値T1より大きいか
否か、つまり十分高い類似度値が得られたか否か
を判定している。また同時に第1位と第2位との
類似度値差(S1−S2)を求め、その類似度値差が
所定の閾値T2以上であるか否か、つまり、他の
候補カテゴリの類似度値と十分な差があり、その
識別が明確であるか否かの判定を行つている。そ
して制御回路17では、入力音声パターンに対し
て求められた類似度値が上記条件を満たすとき、
第1位の類似度値S1を得る標準パターンの音声カ
テゴリを入力音声の認識結果であると判定してい
る。また計算された類似度値が上記条件のいずれ
か一方を満たさない場合には、判定不能なる認識
結果を得ている。即ち、第1位の類似度値S1が閾
値T1より小さい場合には、音声パターンに良く
類似した標準パターンが存在しないとして判定
し、また類似度値差が閾値T2より小さい場合に
は、音声パターンに類似する幾つかの標準パター
ンが存在し、その明確な識別ができないとして判
定している。
しかして、このようにしてパターン照合による
類似度値による判定によつて、第1位の類似度値
を得る標準パターンのカテゴリが入力音声の認識
結果がでないとしてリジエクトされたとき、制御
回路16は入力音声について次のように音声認識
を行う。即ち、上記類似度計算によつて求められ
た第1位から第m位までの類似度値を得る標準パ
ターンのカテゴリを抽出する。上記第1位から第
m位までの類似度値を得るカテゴリの抽出は、例
えば類似度値が99.5%以上であるものを抽出する
ことによつて行われる。そして、このようにして
抽出されたカテゴリについて、補助特徴認識部1
7にて、上記各カテゴリの音韻特徴と入力音声が
有する音韻特徴との照合を行わしめる。この照合
により、音韻特徴がマツチングした候補カテゴリ
を抽出して、これを前記入力音声の認識結果とし
て判定し、前記類似度計算による音声認識を補助
する。
類似度値による判定によつて、第1位の類似度値
を得る標準パターンのカテゴリが入力音声の認識
結果がでないとしてリジエクトされたとき、制御
回路16は入力音声について次のように音声認識
を行う。即ち、上記類似度計算によつて求められ
た第1位から第m位までの類似度値を得る標準パ
ターンのカテゴリを抽出する。上記第1位から第
m位までの類似度値を得るカテゴリの抽出は、例
えば類似度値が99.5%以上であるものを抽出する
ことによつて行われる。そして、このようにして
抽出されたカテゴリについて、補助特徴認識部1
7にて、上記各カテゴリの音韻特徴と入力音声が
有する音韻特徴との照合を行わしめる。この照合
により、音韻特徴がマツチングした候補カテゴリ
を抽出して、これを前記入力音声の認識結果とし
て判定し、前記類似度計算による音声認識を補助
する。
つまり、この音韻特徴の照合による音声認識の
補助は次のような意味を持つ。類似度値が或る閾
値以上である複数の候補カテゴリが存在すること
は、そのいずれのカテゴリも入力音声パターンと
して認識される可能が高い。ただこれらの候補デ
カゴリが相互に異なることは、各カテゴリの音韻
特徴等に違いがあると云える。むしろ、このよう
な音韻特徴の違いを利用しなければ、異つたカテ
ゴリ間の差異を単なる音声パターンの類似度値か
らだけでは識別できないと云える。それに加え
て、入力音声パターンの時間的なずれや、その他
の変動要因によつて、本来マツチングされるべき
カテゴリの標準パターンと入力音声パターンとの
類似度値が低下することも十分予想される。従つ
て、類似した類似度値を得るカテゴリが複数存在
する場合には、上述した補助認識手段により、そ
の音韻特徴の照合によつて候補デカゴリ中から上
記音韻特徴もマツチングしたカテゴリを抽出すれ
ば、非常に精度の高い音声認識を行うことが可能
となる。尚、この補助認識によつても認識結果と
してカテゴリが見出されない場合には、入力音声
は雑音として、つまり本装置における認識対象外
の音声として拒否される。
補助は次のような意味を持つ。類似度値が或る閾
値以上である複数の候補カテゴリが存在すること
は、そのいずれのカテゴリも入力音声パターンと
して認識される可能が高い。ただこれらの候補デ
カゴリが相互に異なることは、各カテゴリの音韻
特徴等に違いがあると云える。むしろ、このよう
な音韻特徴の違いを利用しなければ、異つたカテ
ゴリ間の差異を単なる音声パターンの類似度値か
らだけでは識別できないと云える。それに加え
て、入力音声パターンの時間的なずれや、その他
の変動要因によつて、本来マツチングされるべき
カテゴリの標準パターンと入力音声パターンとの
類似度値が低下することも十分予想される。従つ
て、類似した類似度値を得るカテゴリが複数存在
する場合には、上述した補助認識手段により、そ
の音韻特徴の照合によつて候補デカゴリ中から上
記音韻特徴もマツチングしたカテゴリを抽出すれ
ば、非常に精度の高い音声認識を行うことが可能
となる。尚、この補助認識によつても認識結果と
してカテゴリが見出されない場合には、入力音声
は雑音として、つまり本装置における認識対象外
の音声として拒否される。
以上説明したように本装置によれば、入力音声
をその音声パターンと標準パターンとの類似度計
算によつて照合すると共に、この照合によつて複
数の標準パターンとの間での識別ができないとき
には、入力音声の音韻特徴を用いた照合により上
記入力音声の認識を補助するので、非常に安定
に、且つ精度良く入力音声を認識することが可能
となる。しかも入力音声の変動に対して柔軟性の
あるパターンマツチングによつて主認識処理を行
い、更に音韻特徴によつて上記パターンマツチン
グでは識別できない類似した類似度値を得る標準
パターン間の識別を補助し得る。故に認識精度の
飛躍的な向上を図り得、雑音等に対する誤認識を
防ぐことが可能となる。従つて、その実用的利点
は多大である。
をその音声パターンと標準パターンとの類似度計
算によつて照合すると共に、この照合によつて複
数の標準パターンとの間での識別ができないとき
には、入力音声の音韻特徴を用いた照合により上
記入力音声の認識を補助するので、非常に安定
に、且つ精度良く入力音声を認識することが可能
となる。しかも入力音声の変動に対して柔軟性の
あるパターンマツチングによつて主認識処理を行
い、更に音韻特徴によつて上記パターンマツチン
グでは識別できない類似した類似度値を得る標準
パターン間の識別を補助し得る。故に認識精度の
飛躍的な向上を図り得、雑音等に対する誤認識を
防ぐことが可能となる。従つて、その実用的利点
は多大である。
尚、本発明は上記実施例に限定されるものでは
ない。例えばパターンマツチングによる音声認識
を補助する手段として、音韻特徴以外の他の特徴
パラメータを用いることも可能である。また音声
パターンの特徴パラメータ時系列も、上述した周
波数スペクトル情報に限られるものではない。ま
た不特定話者を対象とする音声認識のみならず、
言語の音素抽出としての応用も可能であり、その
利用性が広い。要するに本発明はその要旨を逸脱
しない範囲で種々変形して実施することができ
る。
ない。例えばパターンマツチングによる音声認識
を補助する手段として、音韻特徴以外の他の特徴
パラメータを用いることも可能である。また音声
パターンの特徴パラメータ時系列も、上述した周
波数スペクトル情報に限られるものではない。ま
た不特定話者を対象とする音声認識のみならず、
言語の音素抽出としての応用も可能であり、その
利用性が広い。要するに本発明はその要旨を逸脱
しない範囲で種々変形して実施することができ
る。
第1図は従来の音声認識装置の基本的な構成
図、第2図は本発明の一実施例装置の概略構成
図、第3図は実施例装置における音響処理回路の
一構成例を示す図、第4図は実施例装置における
制御回路の構成例を示す図、第5図は実施例装置
の認識処理手順を示す図である。 12……音響処理回路、13……データバツフ
アメモリ、14……類似度計算回路、15……パ
ターン辞書フアイル、16……制御回路、17…
…補助特徴認識部。
図、第2図は本発明の一実施例装置の概略構成
図、第3図は実施例装置における音響処理回路の
一構成例を示す図、第4図は実施例装置における
制御回路の構成例を示す図、第5図は実施例装置
の認識処理手順を示す図である。 12……音響処理回路、13……データバツフ
アメモリ、14……類似度計算回路、15……パ
ターン辞書フアイル、16……制御回路、17…
…補助特徴認識部。
Claims (1)
- 【特許請求の範囲】 1 入力音声の特徴パラメータ時系列からなる音
声パターンを求める手段と、上記音声パターンを
記憶するバツフアメモリと、このバツフアメモリ
に記憶された音声パターンと辞書に登録された複
数の標準パターンとの類似度をそれぞれ計算する
類似度計算回路と、この類似度計算回路により求
められた第1位の類似度値および第1位と第2位
との類似度値差から上記第1位の類似度値を得る
標準パターンのカテゴリが前記入力音声であるか
否かを認識判定する主認識手段と、この認識手段
が上記第1位の類似度値を得る標準パターンのカ
テゴリを入力音声として認識しないとき、前記類
似度計算回路で求められた第1位から第m位まで
の類似度値を得る標準パターンのカテゴリをそれ
ぞれ抽出する手段と、これらの抽出されたカテゴ
リと前記入力音声とを前記類似度計算で用いた特
徴パラメータとは別の特徴パラメータを用いてそ
れぞれ照合する手段と、この照合結果に従つて前
記入力音声のカテゴリを認識判定する補助認識手
段とを具備したことを特徴とする音声認識装置。 2 類似度計算は、入力音声の周波数スペクトル
情報を特徴パラメータとする音声パターンについ
て行われるものであつて、第1位から第m位まで
カテゴリと入力音声との照合は、その音韻特徴を
相互に比較して行われるものである特許請求の範
囲第1項記載の音声認識装置。 3 主認識手段は、第1位の類似度値が所定の第
1の閾値以上であり、且つ第1位と第2位との類
似度値差が所定第2の閾値以上であるとき、上記
第1位の類似度値を得る標準パターンのカテゴリ
を入力音声の認識結果として得るものである特許
請求の範囲第1項記載の音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57012792A JPS58130393A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
US06/462,042 US4624011A (en) | 1982-01-29 | 1983-01-28 | Speech recognition system |
DE8383300492T DE3372552D1 (en) | 1982-01-29 | 1983-01-31 | Speech recognition system |
EP83300492A EP0086589B1 (en) | 1982-01-29 | 1983-01-31 | Speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57012792A JPS58130393A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58130393A JPS58130393A (ja) | 1983-08-03 |
JPH0352640B2 true JPH0352640B2 (ja) | 1991-08-12 |
Family
ID=11815243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57012792A Granted JPS58130393A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4624011A (ja) |
EP (1) | EP0086589B1 (ja) |
JP (1) | JPS58130393A (ja) |
DE (1) | DE3372552D1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8401310B2 (en) | 2007-12-17 | 2013-03-19 | Nec Corporation | Image comparing method, apparatus and program |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4519094A (en) * | 1982-08-26 | 1985-05-21 | At&T Bell Laboratories | LPC Word recognizer utilizing energy features |
JPS59139099A (ja) * | 1983-01-31 | 1984-08-09 | 株式会社東芝 | 音声区間検出装置 |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
JPH0792673B2 (ja) * | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
CA1232686A (en) * | 1985-01-30 | 1988-02-09 | Northern Telecom Limited | Speech recognition |
US4956865A (en) * | 1985-01-30 | 1990-09-11 | Northern Telecom Limited | Speech recognition |
GB8517918D0 (en) * | 1985-07-16 | 1985-08-21 | British Telecomm | Recognition system |
US4833713A (en) * | 1985-09-06 | 1989-05-23 | Ricoh Company, Ltd. | Voice recognition system |
US4827519A (en) * | 1985-09-19 | 1989-05-02 | Ricoh Company, Ltd. | Voice recognition system using voice power patterns |
EP0255529A4 (en) * | 1986-01-06 | 1988-06-08 | Motorola Inc | FRAMEWORK COMPARISON PROCEDURE FOR RECOGNIZING WORDS IN A LARGE NOISE ENVIRONMENT. |
US4918732A (en) * | 1986-01-06 | 1990-04-17 | Motorola, Inc. | Frame comparison method for word recognition in high noise environments |
JPH0760318B2 (ja) * | 1986-09-29 | 1995-06-28 | 株式会社東芝 | 連続音声認識方式 |
JP2584249B2 (ja) * | 1986-10-31 | 1997-02-26 | 三洋電機株式会社 | 音声認識電話機 |
US4998280A (en) * | 1986-12-12 | 1991-03-05 | Hitachi, Ltd. | Speech recognition apparatus capable of discriminating between similar acoustic features of speech |
US4910784A (en) * | 1987-07-30 | 1990-03-20 | Texas Instruments Incorporated | Low cost speech recognition system and method |
EP0311022B1 (en) * | 1987-10-06 | 1994-03-30 | Kabushiki Kaisha Toshiba | Speech recognition apparatus and method thereof |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
JPH0225898A (ja) * | 1988-07-15 | 1990-01-29 | Toshiba Corp | 音声認識装置 |
JPH02150899A (ja) * | 1988-12-02 | 1990-06-11 | Toshiba Corp | 音声認識方式 |
US5255342A (en) * | 1988-12-20 | 1993-10-19 | Kabushiki Kaisha Toshiba | Pattern recognition system and method using neural network |
DE69101500T2 (de) * | 1990-01-25 | 1994-08-18 | Mitsubishi Motors Corp | Regelsystem für die Antriebsleistung von Kraftfahrzeugen. |
CA2042926C (en) * | 1990-05-22 | 1997-02-25 | Ryuhei Fujiwara | Speech recognition method with noise reduction and a system therefor |
DE69128990T2 (de) * | 1990-09-07 | 1998-08-27 | Toshiba Kawasaki Kk | Sprecherkennungsvorrichtung |
US5440742A (en) * | 1991-05-10 | 1995-08-08 | Siemens Corporate Research, Inc. | Two-neighborhood method for computing similarity between two groups of objects |
US5428788A (en) * | 1991-05-10 | 1995-06-27 | Siemens Corporate Research, Inc. | Feature ratio method for computing software similarity |
US5485621A (en) * | 1991-05-10 | 1996-01-16 | Siemens Corporate Research, Inc. | Interactive method of using a group similarity measure for providing a decision on which groups to combine |
EP0513652A2 (en) * | 1991-05-10 | 1992-11-19 | Siemens Aktiengesellschaft | Method for modelling similarity function using neural network |
US5438676A (en) * | 1991-05-10 | 1995-08-01 | Siemens Corporate Research, Inc. | Method for adapting a similarity function for identifying misclassified software objects |
US5317741A (en) * | 1991-05-10 | 1994-05-31 | Siemens Corporate Research, Inc. | Computer method for identifying a misclassified software object in a cluster of internally similar software objects |
US5388183A (en) * | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
JPH05257492A (ja) * | 1992-03-13 | 1993-10-08 | Toshiba Corp | 音声認識方式 |
US5657429A (en) | 1992-08-10 | 1997-08-12 | Computer Motion, Inc. | Automated endoscope system optimal positioning |
US7074179B2 (en) | 1992-08-10 | 2006-07-11 | Intuitive Surgical Inc | Method and apparatus for performing minimally invasive cardiac procedures |
US5762458A (en) | 1996-02-20 | 1998-06-09 | Computer Motion, Inc. | Method and apparatus for performing minimally invasive cardiac procedures |
BE1007355A3 (nl) * | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
US6463361B1 (en) | 1994-09-22 | 2002-10-08 | Computer Motion, Inc. | Speech interface for an automated endoscopic system |
US6646541B1 (en) * | 1996-06-24 | 2003-11-11 | Computer Motion, Inc. | General purpose distributed operating room control system |
US7053752B2 (en) | 1996-08-06 | 2006-05-30 | Intuitive Surgical | General purpose distributed operating room control system |
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US6714841B1 (en) | 1995-09-15 | 2004-03-30 | Computer Motion, Inc. | Head cursor control interface for an automated endoscope system for optimal positioning |
US6699177B1 (en) | 1996-02-20 | 2004-03-02 | Computer Motion, Inc. | Method and apparatus for performing minimally invasive surgical procedures |
US6436107B1 (en) | 1996-02-20 | 2002-08-20 | Computer Motion, Inc. | Method and apparatus for performing minimally invasive surgical procedures |
US5855583A (en) | 1996-02-20 | 1999-01-05 | Computer Motion, Inc. | Method and apparatus for performing minimally invasive cardiac procedures |
US6911916B1 (en) | 1996-06-24 | 2005-06-28 | The Cleveland Clinic Foundation | Method and apparatus for accessing medical data over a network |
US6496099B2 (en) | 1996-06-24 | 2002-12-17 | Computer Motion, Inc. | General purpose distributed operating room control system |
US6642836B1 (en) * | 1996-08-06 | 2003-11-04 | Computer Motion, Inc. | General purpose distributed operating room control system |
US6132441A (en) | 1996-11-22 | 2000-10-17 | Computer Motion, Inc. | Rigidly-linked articulating wrist with decoupled motion transmission |
US6951535B2 (en) * | 2002-01-16 | 2005-10-04 | Intuitive Surgical, Inc. | Tele-medicine system that transmits an entire state of a subsystem |
US8527094B2 (en) | 1998-11-20 | 2013-09-03 | Intuitive Surgical Operations, Inc. | Multi-user medical robotic system for collaboration or training in minimally invasive surgical procedures |
US6852107B2 (en) | 2002-01-16 | 2005-02-08 | Computer Motion, Inc. | Minimally invasive surgical training using robotics and tele-collaboration |
US6659939B2 (en) | 1998-11-20 | 2003-12-09 | Intuitive Surgical, Inc. | Cooperative minimally invasive telesurgical system |
US6398726B1 (en) | 1998-11-20 | 2002-06-04 | Intuitive Surgical, Inc. | Stabilizer for robotic beating-heart surgery |
US7217240B2 (en) | 1999-10-01 | 2007-05-15 | Intuitive Surgical, Inc. | Heart stabilizer |
US6726699B1 (en) | 2000-08-15 | 2004-04-27 | Computer Motion, Inc. | Instrument guide |
DE60143909D1 (de) | 2000-11-28 | 2011-03-03 | Intuitive Surgical Operations | Z und gefässokklusionsverschluss |
US20020165524A1 (en) | 2001-05-01 | 2002-11-07 | Dan Sanchez | Pivot point arm for a robotic system used to perform a surgical procedure |
US6728599B2 (en) | 2001-09-07 | 2004-04-27 | Computer Motion, Inc. | Modularity system for computer assisted surgery |
US6839612B2 (en) | 2001-12-07 | 2005-01-04 | Institute Surgical, Inc. | Microwrist system for surgical procedures |
US6793653B2 (en) | 2001-12-08 | 2004-09-21 | Computer Motion, Inc. | Multifunctional handle for a medical robotic system |
US20070129945A1 (en) * | 2005-12-06 | 2007-06-07 | Ma Changxue C | Voice quality control for high quality speech reconstruction |
TWI312945B (en) * | 2006-06-07 | 2009-08-01 | Ind Tech Res Inst | Method and apparatus for multimedia data management |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
RU2606566C2 (ru) * | 2014-12-29 | 2017-01-10 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) | Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа |
CN111639493A (zh) * | 2020-05-22 | 2020-09-08 | 上海微盟企业发展有限公司 | 一种地址信息标准化方法、装置、设备及可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3760356A (en) * | 1971-12-17 | 1973-09-18 | Honeywell Inf Systems | Technique for determining the extreme binary number from a set of binary numbers |
DE2456210C2 (de) * | 1974-11-28 | 1982-04-15 | Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt | Verfahren und Einrichtungen zur Erkennung von Mustern |
AU7529981A (en) * | 1980-09-19 | 1982-03-25 | Hitachi Limited | Language analysis by pattern recognition |
-
1982
- 1982-01-29 JP JP57012792A patent/JPS58130393A/ja active Granted
-
1983
- 1983-01-28 US US06/462,042 patent/US4624011A/en not_active Expired - Fee Related
- 1983-01-31 EP EP83300492A patent/EP0086589B1/en not_active Expired
- 1983-01-31 DE DE8383300492T patent/DE3372552D1/de not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8401310B2 (en) | 2007-12-17 | 2013-03-19 | Nec Corporation | Image comparing method, apparatus and program |
Also Published As
Publication number | Publication date |
---|---|
DE3372552D1 (en) | 1987-08-20 |
US4624011A (en) | 1986-11-18 |
EP0086589A1 (en) | 1983-08-24 |
EP0086589B1 (en) | 1987-07-15 |
JPS58130393A (ja) | 1983-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0352640B2 (ja) | ||
US4736429A (en) | Apparatus for speech recognition | |
US4780906A (en) | Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal | |
US4783802A (en) | Learning system of dictionary for speech recognition | |
US5025471A (en) | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns | |
US6553342B1 (en) | Tone based speech recognition | |
JPS62217295A (ja) | 音声認識方式 | |
JP2996019B2 (ja) | 音声認識装置 | |
JPS6138479B2 (ja) | ||
KR100391123B1 (ko) | 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 | |
EP0177854B1 (en) | Keyword recognition system using template-concatenation model | |
Sas et al. | Gender recognition using neural networks and ASR techniques | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach | |
Majidnezhad | A HTK-based method for detecting vocal fold pathology | |
JPS63213899A (ja) | 話者照合方式 | |
Ozaydin | An isolated word speaker recognition system | |
JPS6336678B2 (ja) | ||
JP2710045B2 (ja) | 音声認識方法 | |
Sahu et al. | Odia isolated word recognition using DTW | |
Khan et al. | Decision Support System for Keyword Spotting Using Theory of Evidence | |
JPH0554678B2 (ja) | ||
JPH0316038B2 (ja) | ||
Nair et al. | Comparison of Isolated Digit Recognition Techniques based on Feature Extraction | |
Zheng et al. | A Chinese speech recognition system | |
Salam et al. | Insertion reduction in speech segmentation using neural network |