JPS58130393A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS58130393A JPS58130393A JP57012792A JP1279282A JPS58130393A JP S58130393 A JPS58130393 A JP S58130393A JP 57012792 A JP57012792 A JP 57012792A JP 1279282 A JP1279282 A JP 1279282A JP S58130393 A JPS58130393 A JP S58130393A
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- voice
- place
- value
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は入力音声を精度良く認識することのできる音声
認識装置に関する。
認識装置に関する。
近時、情報入力の有用な手段として音声認識装置が注目
されている。この音声認識装置における音声認識には、
従来よシ主としてノリーンマッチング法が採用されてい
る。第1図はこの種、パターンマツチング法による音声
認識装置の概略構成4示すものである。同図において、
図示しない[7’大入力を介して入力された音声信号は
、音響処理部1に導びかれ、A/D変換処理、雑音除去
処理、エンファシス等の処理が施されたのち、前処理部
2に尋びかれる。この前処理部2では、例えば人力音声
のスペクトル包絡等の特徴・ヤラメータを抽出して、そ
の時系列からなる音声/4’ターンを求めている。識別
部3では上記入力音声・9ターンと、辞書4に予め登録
された音声標準・リーンとのマツチング度、つまシ類似
度を計算し、例えば類似度が最大となる音声標準・ヤタ
ーンのカテゴリを前記人力首府の認識結果として出力し
ている。上記類似度の計算は、一般的には入力音声・ン
ターンと音用辞書/4’ターンとのユークリッド距離を
求めたり、あるいはその内核を求める尋して行われる。
されている。この音声認識装置における音声認識には、
従来よシ主としてノリーンマッチング法が採用されてい
る。第1図はこの種、パターンマツチング法による音声
認識装置の概略構成4示すものである。同図において、
図示しない[7’大入力を介して入力された音声信号は
、音響処理部1に導びかれ、A/D変換処理、雑音除去
処理、エンファシス等の処理が施されたのち、前処理部
2に尋びかれる。この前処理部2では、例えば人力音声
のスペクトル包絡等の特徴・ヤラメータを抽出して、そ
の時系列からなる音声/4’ターンを求めている。識別
部3では上記入力音声・9ターンと、辞書4に予め登録
された音声標準・リーンとのマツチング度、つまシ類似
度を計算し、例えば類似度が最大となる音声標準・ヤタ
ーンのカテゴリを前記人力首府の認識結果として出力し
ている。上記類似度の計算は、一般的には入力音声・ン
ターンと音用辞書/4’ターンとのユークリッド距離を
求めたり、あるいはその内核を求める尋して行われる。
ぞして、上記計算された各類似度値が一定値以一トの場
合には、入力音声の認識ができないとして、これをリジ
ェクトすることが行われてし・\る。
合には、入力音声の認識ができないとして、これをリジ
ェクトすることが行われてし・\る。
ところがこのような従来装置におけるノゼターンマッチ
ング法は、音声信号の局所的な震動や雑音に強い反面、
類似した音声間の+j別や音声の局所的な差異について
十分なる識別ができないと云う認識特性t−市゛してい
る。例えば継略の病院(byoin )と美容院(bi
yoin )との明確な識別や、音節の「か」と「が」
の判別が非電に困難である。これ故、誤認識が生じたシ
、−陳不能な結果を得ることが多かった。
ング法は、音声信号の局所的な震動や雑音に強い反面、
類似した音声間の+j別や音声の局所的な差異について
十分なる識別ができないと云う認識特性t−市゛してい
る。例えば継略の病院(byoin )と美容院(bi
yoin )との明確な識別や、音節の「か」と「が」
の判別が非電に困難である。これ故、誤認識が生じたシ
、−陳不能な結果を得ることが多かった。
そこで従来、十分高い類似度値が侍られないとき、音声
・母ターンの差異が生じる別の特徴を抽出し、これらの
特徴を対比して音声の認識判定を行う手段が提唱されて
いる。この手段は非常に有効なものではあるが、高い類
似度値金得て誤認識された結果や、認識対象外の音声パ
ターン等の雑音によって誤認識された結果については、
十分に対処することかできないと云う問題があった。つ
まり、類似した音声パターンによる′ei4agit結
果に対しては何らこれを防ぐことができなかった。
・母ターンの差異が生じる別の特徴を抽出し、これらの
特徴を対比して音声の認識判定を行う手段が提唱されて
いる。この手段は非常に有効なものではあるが、高い類
似度値金得て誤認識された結果や、認識対象外の音声パ
ターン等の雑音によって誤認識された結果については、
十分に対処することかできないと云う問題があった。つ
まり、類似した音声パターンによる′ei4agit結
果に対しては何らこれを防ぐことができなかった。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、ノ臂ターンマツチングによシ十
分高い類似度値が得られたにも拘らず、その認識が曖昧
な場合であっても、安定に且つ確実に入力音Pを正しく
M識することのできる音声認識装置を提供することにあ
る。
の目的とするところは、ノ臂ターンマツチングによシ十
分高い類似度値が得られたにも拘らず、その認識が曖昧
な場合であっても、安定に且つ確実に入力音Pを正しく
M識することのできる音声認識装置を提供することにあ
る。
即ち本発明は類似した音声パターンを持つ異なる音声を
明確に分離し、且つ雑音に左右されることなく正しく音
声認識を行い得る実用性の高い音声認識装置を提供する
ことを目的とするものである。
明確に分離し、且つ雑音に左右されることなく正しく音
声認識を行い得る実用性の高い音声認識装置を提供する
ことを目的とするものである。
本発明は、入力音声パターンと辞書に登録された音声標
準パターンとの類似度を計算して類似度値の高い第1位
および第2位の類似度値を抽出し、上記第1位の類似度
値が一建値以上であるか否か、および上記第1位と第2
位との緬似度値差が一定値以上であるか古かt刊建して
前記第1位の類似度値を侍る標準・ヤターンのカテゴリ
を入力音声に対する認識結果とするか否かを主認識判定
し、この主認識判定により認識リジェクトされたときに
は、上記類似度値の第1位から第m位までを得る各標準
パターンのカテゴリの音声パラメータの差異か生じる特
慎ヲ用いて入力音声パターンとの照合を竹い、この照合
結果に従って認識結果を得る補助昭−を何うようにした
ものである。
準パターンとの類似度を計算して類似度値の高い第1位
および第2位の類似度値を抽出し、上記第1位の類似度
値が一建値以上であるか否か、および上記第1位と第2
位との緬似度値差が一定値以上であるか古かt刊建して
前記第1位の類似度値を侍る標準・ヤターンのカテゴリ
を入力音声に対する認識結果とするか否かを主認識判定
し、この主認識判定により認識リジェクトされたときに
は、上記類似度値の第1位から第m位までを得る各標準
パターンのカテゴリの音声パラメータの差異か生じる特
慎ヲ用いて入力音声パターンとの照合を竹い、この照合
結果に従って認識結果を得る補助昭−を何うようにした
ものである。
従って本発明によれば、・ノヤターンマッチンクによっ
て高い類似度が得られた場合であっても、これに類似す
る標準パターンが存在する場合には、音声i?ターンの
差異を示す特徴によって音声認識が行われるので、類似
音声パターンが存在しても、また雑音があっても、常に
安定に、且つ確実に正しい認識結果を得ることが可能と
なる。そして、誤認識を防き゛、認識精度の向上を図る
ことが可能となる。
て高い類似度が得られた場合であっても、これに類似す
る標準パターンが存在する場合には、音声i?ターンの
差異を示す特徴によって音声認識が行われるので、類似
音声パターンが存在しても、また雑音があっても、常に
安定に、且つ確実に正しい認識結果を得ることが可能と
なる。そして、誤認識を防き゛、認識精度の向上を図る
ことが可能となる。
以下、回向を参照して本発明の一実施例につき説明する
。
。
第2図は実施例装置の概略構成図である。マイクロホン
等を介して入力された音声信号は、A7/D変換器11
を介して、その振幅レベルに応じて量子化(数値化)さ
れて取込まれる。このようにして入力された音声信号は
、例えば第3図に示す如<m成されたi−曽処理回路1
2に導ひかれて、そのスペクトル情報や音韻情報が検出
されるようになっている。即ち、音響処理回路12は、
音養処理制御回路21によって作動制御されるチャンネ
ルフィルタ22にて人力す声信号を周波数スペクトル分
解しており、ぞθスペクトル情報をパターン変換回路2
3を介してg識処理に適合した音声パターンに哀換して
出力している。このノにターン変換回路23は、側光ば
入力音声をリサンプルして、七の入力首府パターンを時
間正規化処理する等して、人力音声の時間的なゆらぎ等
を匍慣するもので多る。
等を介して入力された音声信号は、A7/D変換器11
を介して、その振幅レベルに応じて量子化(数値化)さ
れて取込まれる。このようにして入力された音声信号は
、例えば第3図に示す如<m成されたi−曽処理回路1
2に導ひかれて、そのスペクトル情報や音韻情報が検出
されるようになっている。即ち、音響処理回路12は、
音養処理制御回路21によって作動制御されるチャンネ
ルフィルタ22にて人力す声信号を周波数スペクトル分
解しており、ぞθスペクトル情報をパターン変換回路2
3を介してg識処理に適合した音声パターンに哀換して
出力している。このノにターン変換回路23は、側光ば
入力音声をリサンプルして、七の入力首府パターンを時
間正規化処理する等して、人力音声の時間的なゆらぎ等
を匍慣するもので多る。
これにより、音臀処理されて出力さ扛る被片・ヤターン
は、個人屋等に起因する時…]的1−れか吸収されたも
のとなる。一方、このirw処理回路12では、上記入
力音声・ヤラメータの各時点のスペクトル情報と音韻%
似辞嚢24に登録さノ1だ音韻の特徴情報とを音韻特倣
岨典回路25によシ照合している。そしてこの照合によ
り、人力音声単語に含まれる母音や鼻音等の音韻特徴を
、前記スペクトル特徴に対する類似度耐#等によって求
めている。このようにして、自−w処理回路12では、
入力音声の特色・ゼラメータ時系列からなる音声パター
ンと、その廿頗%徴情報がそれぞれ求められている。尚
、入力音声の特徴/母うメータとして、上述した周波数
スペクトル以外のものを用いることも可能であシ、また
音韻特徴の抽出手段も従来よシ提唱されている種々方式
を適宜採用することが可能である。
は、個人屋等に起因する時…]的1−れか吸収されたも
のとなる。一方、このirw処理回路12では、上記入
力音声・ヤラメータの各時点のスペクトル情報と音韻%
似辞嚢24に登録さノ1だ音韻の特徴情報とを音韻特倣
岨典回路25によシ照合している。そしてこの照合によ
り、人力音声単語に含まれる母音や鼻音等の音韻特徴を
、前記スペクトル特徴に対する類似度耐#等によって求
めている。このようにして、自−w処理回路12では、
入力音声の特色・ゼラメータ時系列からなる音声パター
ンと、その廿頗%徴情報がそれぞれ求められている。尚
、入力音声の特徴/母うメータとして、上述した周波数
スペクトル以外のものを用いることも可能であシ、また
音韻特徴の抽出手段も従来よシ提唱されている種々方式
を適宜採用することが可能である。
従って、−f!41処理回路12の構成は、特に第3図
に示される例に限定されることはない。
に示される例に限定されることはない。
しかして、音響処理回路12で求められた入力音声の音
声パターンと、その音韻特徴情報はデータバッファメモ
リ13に一時記憶されたのち、以下に示す音声認識に供
せられる。
声パターンと、その音韻特徴情報はデータバッファメモ
リ13に一時記憶されたのち、以下に示す音声認識に供
せられる。
類似度計算回路14は、データ・守ツファメモリ13に
格納された音声パターンと、・母ターン辞書ファイル1
5に予め登録された複数の音声カテゴリの標準/4’タ
ーンとの相関値、つまシ類似度をそれぞれ計算し、その
計算され九類似度の情報を制御回路16に供粘している
。この制御回路16は基本的には第4図に示すように装
置制御回路部21と、この回路部27によって動作制御
されるメモリ制御回路28および種々の認識判定演算を
行う演算回路29により構成される。そして、この制御
回路16では、上記計算された類似度値から人力音声の
略繊粕来を得るべく主略織判定を行うと共に、この王絡
繊判定によって確実な認識結果が得られない場合には、
補助%徴認識部17を用いて、ml記バッファメモリ1
3に格納された音韻特色と、Mil記類似度計算によっ
て求められた餡猷候補カテコ′りの特徴とを照合して、
袖助認識刊定処理を(1っている。つまり、類似度計算
による#声認猷に対して、音韻特徴の照合による酩臓が
補助されるようになっている。
格納された音声パターンと、・母ターン辞書ファイル1
5に予め登録された複数の音声カテゴリの標準/4’タ
ーンとの相関値、つまシ類似度をそれぞれ計算し、その
計算され九類似度の情報を制御回路16に供粘している
。この制御回路16は基本的には第4図に示すように装
置制御回路部21と、この回路部27によって動作制御
されるメモリ制御回路28および種々の認識判定演算を
行う演算回路29により構成される。そして、この制御
回路16では、上記計算された類似度値から人力音声の
略繊粕来を得るべく主略織判定を行うと共に、この王絡
繊判定によって確実な認識結果が得られない場合には、
補助%徴認識部17を用いて、ml記バッファメモリ1
3に格納された音韻特色と、Mil記類似度計算によっ
て求められた餡猷候補カテコ′りの特徴とを照合して、
袖助認識刊定処理を(1っている。つまり、類似度計算
による#声認猷に対して、音韻特徴の照合による酩臓が
補助されるようになっている。
第5図は、このように構成された本装置にあ・ける略識
処理手j1を示すもので、以下この第5図に示される処
理手順に従い、本装置の%fahる音声認識につき説明
する。
処理手j1を示すもので、以下この第5図に示される処
理手順に従い、本装置の%fahる音声認識につき説明
する。
音声信号が入力されると、音響処理回路12では、先ず
フレーム率位で上−己入力廿−〇スペクトル情報と音韻
特徴とが計算される。上記スペクトル情報の計算は、例
えは入力廿声信号のMチャンネルのパントノ4fスフイ
ルタの出力を用いて行われる。そして、各フレーム毎に
、そのデータが音声の区間に属するか否かの検出が、各
フレームのエネルギの大きさや音韻特徴を用いて行われ
る。これらの検出は、音声の終端が検出される迄繰返し
て行われ、これによシ、1つの音声区間の上記検出され
たスペクトル情報や音韻%黴からなる特徴/4’ラメ一
タ時系列で示される音声パターンが検出される。またこ
のとき、各フレーム毎に無声性、有声性、摩擦性、破裂
性、鼻音声、・ヤワーディッグ等の入力音声特有の廿韻
%黴が判定検出される。
フレーム率位で上−己入力廿−〇スペクトル情報と音韻
特徴とが計算される。上記スペクトル情報の計算は、例
えは入力廿声信号のMチャンネルのパントノ4fスフイ
ルタの出力を用いて行われる。そして、各フレーム毎に
、そのデータが音声の区間に属するか否かの検出が、各
フレームのエネルギの大きさや音韻特徴を用いて行われ
る。これらの検出は、音声の終端が検出される迄繰返し
て行われ、これによシ、1つの音声区間の上記検出され
たスペクトル情報や音韻%黴からなる特徴/4’ラメ一
タ時系列で示される音声パターンが検出される。またこ
のとき、各フレーム毎に無声性、有声性、摩擦性、破裂
性、鼻音声、・ヤワーディッグ等の入力音声特有の廿韻
%黴が判定検出される。
しかるのち、音声パターンの時間正規化を行うべく、上
記音声・母ターンの正確な音声区間検出、つま)始端お
よび終端の検出が行われ、この結果に従って上記音声ノ
リーンに対するりサンプル点が定められる。このリサン
プル点は、音声区間を等分割して線形に定めてもよいが
、音声単語中の無音部やパワーディップ位置等を検出し
、これらの検出位kを頗として区分され九部分毎にそれ
ぞれ線形にリサンプル点を矩めるようにしてもよい。こ
のリサンプル処理シCよって、MXN次元の音声パター
ンベクトルXか求められ、前記データバッファメモ91
stC格納される。
記音声・母ターンの正確な音声区間検出、つま)始端お
よび終端の検出が行われ、この結果に従って上記音声ノ
リーンに対するりサンプル点が定められる。このリサン
プル点は、音声区間を等分割して線形に定めてもよいが
、音声単語中の無音部やパワーディップ位置等を検出し
、これらの検出位kを頗として区分され九部分毎にそれ
ぞれ線形にリサンプル点を矩めるようにしてもよい。こ
のリサンプル処理シCよって、MXN次元の音声パター
ンベクトルXか求められ、前記データバッファメモ91
stC格納される。
このようにして求められた竹片ノ母ターンベクトルXと
、前記辞書ファイル15に登録aれた標準・9ターンと
の類似度がin−され、そのalJ4結果に従って上記
音声パターンベクトルXが−するカテゴリの決定、っま
シ廿声は臓がイIわhる。このパターン照合を為す類似
度B1鼻は、νりえは入力音声・!ターンの変動に強い
似合類似度法を用いて行われる。即ち、音岸カテゴ1J
ciの辞書パターンをφ、j(j=1.2〜J)、II
X IIをベクトルXのノルムとしたとき、音声パタ
ーンベクトルXのカテゴリCtに対する類似度83は として計算される。仁のような類似度計算が辞書ファイ
ル15に登録された標準ツクターンのそれぞれに対して
行われる。
、前記辞書ファイル15に登録aれた標準・9ターンと
の類似度がin−され、そのalJ4結果に従って上記
音声パターンベクトルXが−するカテゴリの決定、っま
シ廿声は臓がイIわhる。このパターン照合を為す類似
度B1鼻は、νりえは入力音声・!ターンの変動に強い
似合類似度法を用いて行われる。即ち、音岸カテゴ1J
ciの辞書パターンをφ、j(j=1.2〜J)、II
X IIをベクトルXのノルムとしたとき、音声パタ
ーンベクトルXのカテゴリCtに対する類似度83は として計算される。仁のような類似度計算が辞書ファイ
ル15に登録された標準ツクターンのそれぞれに対して
行われる。
しかして制御回路16は、上記の如く計算された類似度
値の最も高いものから順に第1位、第2位〜として定め
たとき、まず第1位の類似度値S1と第2位の類似度値
S2とを求め、as>Tt 81−sl)’rl なる計算を行っている。即ち、第1位の類似度値g、が
予め設定され九所定の閾値T1よ)大きいか否か、つI
J)十分高い類似度値が得られたか否かを判定している
、。また同時に第1位と第2位との類似度値差(8x8
*)を求め、その類似度値差が所定の閾値18以上であ
るか否か、つま)、他の候補カテがすの類似度値と十分
な差があシ、その識別が明確であるか否かの判定全行っ
ている。そして制御回路11では、入力音声パターンに
対して求められた類似度値が上記条件を満九すきき、第
1位の類似度値S1を得る標準パターンの音声カテゴリ
を入力音声の認識結果であると判定している。また計算
された類似度値が上記条件のいずれか一方を満たさない
場合には、判定不能なる認識結果を得ている。即ち、第
1位の類似度値S1が闇値T1よシ小さい場合には、音
声・臂ターンに良く類似した標準ノ母ターンが存在しな
いとして判定し、また類似度値差が闇値T、よシ小さい
場合には、音声パターンに類似する幾つかの標準パター
ンが存在し、その明確な識別ができないとして判定して
いる。
値の最も高いものから順に第1位、第2位〜として定め
たとき、まず第1位の類似度値S1と第2位の類似度値
S2とを求め、as>Tt 81−sl)’rl なる計算を行っている。即ち、第1位の類似度値g、が
予め設定され九所定の閾値T1よ)大きいか否か、つI
J)十分高い類似度値が得られたか否かを判定している
、。また同時に第1位と第2位との類似度値差(8x8
*)を求め、その類似度値差が所定の閾値18以上であ
るか否か、つま)、他の候補カテがすの類似度値と十分
な差があシ、その識別が明確であるか否かの判定全行っ
ている。そして制御回路11では、入力音声パターンに
対して求められた類似度値が上記条件を満九すきき、第
1位の類似度値S1を得る標準パターンの音声カテゴリ
を入力音声の認識結果であると判定している。また計算
された類似度値が上記条件のいずれか一方を満たさない
場合には、判定不能なる認識結果を得ている。即ち、第
1位の類似度値S1が闇値T1よシ小さい場合には、音
声・臂ターンに良く類似した標準ノ母ターンが存在しな
いとして判定し、また類似度値差が闇値T、よシ小さい
場合には、音声パターンに類似する幾つかの標準パター
ンが存在し、その明確な識別ができないとして判定して
いる。
しかして、仁のようにして7譬タ一ン照合による類似度
値による判定によって、第1位の類似度値を得る標準パ
ターンのカテゴリが入力音声の認識結果でないとしてリ
ジェクトされたとき、制御回路16は入力音声について
次のように音声認識を行う。即ち、上記類似度計算によ
って求められた第1位から第m位までの類似度値を得る
標準パターンのカテゴリを抽出する。上記第1位から第
m位までの類似度値を得るカテゴリの抽出は、例えば類
似度値が99.5qb以上であるものを抽出することに
よって行われる。そして、このようにして抽出されたカ
テゴリについて、補助特徴認識部11にて、上記各カテ
ゴリの音韻特徴と入力音声が有する音韻特徴との照合を
行わしめる。この照合により、音韻特徴がマツチングし
た候補カテゴリを抽出して、これを前記入力音声の認識
結果として判定し、前記類似度計算による音声lj!!
識を補助する・つtシ、この音韻特徴の照合による音声
認識の補助は次のような意味を持つ、類似度値が成る闇
値以上である複数の候補カテf 17が存在することは
、そのいずれのカテゴリも入力音声パターンとしてlI
!識される可能が高い、ただこれらの候補カテゴリが相
互に異なることは、各カテfりの音韻特徴部に違いがあ
ると云える。むしろ、このような音韻特徴の違いを利用
しなければ、異ったカテゴリ間の差異を単なる音声ノ4
ターンの類似度値からだけでは識別できないと云える。
値による判定によって、第1位の類似度値を得る標準パ
ターンのカテゴリが入力音声の認識結果でないとしてリ
ジェクトされたとき、制御回路16は入力音声について
次のように音声認識を行う。即ち、上記類似度計算によ
って求められた第1位から第m位までの類似度値を得る
標準パターンのカテゴリを抽出する。上記第1位から第
m位までの類似度値を得るカテゴリの抽出は、例えば類
似度値が99.5qb以上であるものを抽出することに
よって行われる。そして、このようにして抽出されたカ
テゴリについて、補助特徴認識部11にて、上記各カテ
ゴリの音韻特徴と入力音声が有する音韻特徴との照合を
行わしめる。この照合により、音韻特徴がマツチングし
た候補カテゴリを抽出して、これを前記入力音声の認識
結果として判定し、前記類似度計算による音声lj!!
識を補助する・つtシ、この音韻特徴の照合による音声
認識の補助は次のような意味を持つ、類似度値が成る闇
値以上である複数の候補カテf 17が存在することは
、そのいずれのカテゴリも入力音声パターンとしてlI
!識される可能が高い、ただこれらの候補カテゴリが相
互に異なることは、各カテfりの音韻特徴部に違いがあ
ると云える。むしろ、このような音韻特徴の違いを利用
しなければ、異ったカテゴリ間の差異を単なる音声ノ4
ターンの類似度値からだけでは識別できないと云える。
それに加えて、入力音声ツヤターンの時間的なずれや、
その他の変動要因によって、本来マツチングされるべき
カテゴリの標準パターンと入力音声i4?ターンとの類
似度値が低下することも十分予想される。従って、類似
した類似度値を得るカテゴリが複数存在する場合には、
上述した補−認識手段にょシ、その音韻特徴の照合によ
って候補カテゴリ中から上記音韻特徴もマツチングした
カテゴリを抽出すれば、非常に精度の高い音声認識を行
うことが可能となる。
その他の変動要因によって、本来マツチングされるべき
カテゴリの標準パターンと入力音声i4?ターンとの類
似度値が低下することも十分予想される。従って、類似
した類似度値を得るカテゴリが複数存在する場合には、
上述した補−認識手段にょシ、その音韻特徴の照合によ
って候補カテゴリ中から上記音韻特徴もマツチングした
カテゴリを抽出すれば、非常に精度の高い音声認識を行
うことが可能となる。
尚、この補助認識によっても認識結果としてカテゴリが
見出されない場合には、入力音声は雑音として、っまシ
本装置における認識対象外の音声として拒否される。
見出されない場合には、入力音声は雑音として、っまシ
本装置における認識対象外の音声として拒否される。
以上説明し友ように本装置によれば、入力音声をその音
声パターンと標準パターンとの類以度計算によって照合
すると共に、この照合によって複数の標準パターンとの
間での識別ができないときには、入力音声の音韻特徴を
用いた照合によシ上記入力音声のSaWを補助するので
、非常に安定に、且つ精度良く入力音声を餡織すること
が可能となる。しかも入力音声の変動に対して柔軟性の
あるノ臂ターンマツチングにょって主認識処理を行い、
更に音韻特徴によって上記ノ譬ターンマツチングでは識
別できない類似した類似度値を得る標準ノ臂ターン間の
識別を補助し得る。故に認識精度の飛躍的な向上を図シ
得、雑音等に対する誤認識を防ぐことが可能となる。
声パターンと標準パターンとの類以度計算によって照合
すると共に、この照合によって複数の標準パターンとの
間での識別ができないときには、入力音声の音韻特徴を
用いた照合によシ上記入力音声のSaWを補助するので
、非常に安定に、且つ精度良く入力音声を餡織すること
が可能となる。しかも入力音声の変動に対して柔軟性の
あるノ臂ターンマツチングにょって主認識処理を行い、
更に音韻特徴によって上記ノ譬ターンマツチングでは識
別できない類似した類似度値を得る標準ノ臂ターン間の
識別を補助し得る。故に認識精度の飛躍的な向上を図シ
得、雑音等に対する誤認識を防ぐことが可能となる。
従って、その実用的利点は多大である。
尚、本発明は上記実施例に限定されるものではない0例
えばノ4ターンマツチングによる音声認識を補助する手
段として、音韻特徴以外の他の特徴/ヤラメータを用い
ることも可能である。
えばノ4ターンマツチングによる音声認識を補助する手
段として、音韻特徴以外の他の特徴/ヤラメータを用い
ることも可能である。
また音声パターンの特徴ノ4ラメータ時系列も、上述し
た周波数スペクトル情報に限られるものではない、また
不特定話者を対象とする音声認識のみならず、言語の音
素抽出としての応用も可能であシ、その利用性が広い。
た周波数スペクトル情報に限られるものではない、また
不特定話者を対象とする音声認識のみならず、言語の音
素抽出としての応用も可能であシ、その利用性が広い。
要するに本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。
して実施することができる。
第1図は従来の音声認識装置の基本的な構成図、第2図
は本発明の一実施例装置の概略構成図、第13図は実施
例装置における音曽処理回路の一構成例を示す図、第4
図は実施例装置における制御回路の構成例を示す図、第
5図は実施例装置の認識処理手順を示す図である。 12・・・音醤処理回路、13・・・データパンツアメ
モリ、14・・・類似度計算回路、15・・・パターン
辞書ファイル、16・・・制御回路、17・・・補助特
徴認識部。 出願人代理人 弁理士 鈴 江 武 彦第3図 第4図 第5図 第1頁の続き 0発 明 者 平井形− 川崎市幸区小向東芝町1番地東 京芝浦電気株式会社総合研究所 内 0発 明 者 坂田富生 川崎市幸区小向東芝町1番地東 京芝浦電気株式会社総合研究所 内 0発 明 者 上原堅助 川崎市幸区小向東芝町1番地東 京芝浦電気株式会社総合研究所 内 0発 明 者 高橋保夫 川崎市幸区小向東芝町1番地東 京芝浦電気株式会社総合研究所
は本発明の一実施例装置の概略構成図、第13図は実施
例装置における音曽処理回路の一構成例を示す図、第4
図は実施例装置における制御回路の構成例を示す図、第
5図は実施例装置の認識処理手順を示す図である。 12・・・音醤処理回路、13・・・データパンツアメ
モリ、14・・・類似度計算回路、15・・・パターン
辞書ファイル、16・・・制御回路、17・・・補助特
徴認識部。 出願人代理人 弁理士 鈴 江 武 彦第3図 第4図 第5図 第1頁の続き 0発 明 者 平井形− 川崎市幸区小向東芝町1番地東 京芝浦電気株式会社総合研究所 内 0発 明 者 坂田富生 川崎市幸区小向東芝町1番地東 京芝浦電気株式会社総合研究所 内 0発 明 者 上原堅助 川崎市幸区小向東芝町1番地東 京芝浦電気株式会社総合研究所 内 0発 明 者 高橋保夫 川崎市幸区小向東芝町1番地東 京芝浦電気株式会社総合研究所
Claims (3)
- (1) 入力音声の特徴・9ラメ一タ時系列からなる
音声ノリ−ンを求める手段と、上記音声パターンを配憶
するパンツアメモリと、このパンツアメモリに記憶され
た音声パターンと辞書に登録された複数の標準t’?タ
ーンとの類似度をそれぞれ計算する類似度計算回路と、
この類似度計算回路によ請求められた第1位の類似度値
および第1位と第2位との類似度値差から上記第1位O
類似度値を得る標準パターンのカテゴリカ前記入力音声
であるか否かを認識判定する主認識手段と、この認識手
段が上記第1位の類似度値を得る標準パターンのカテ了
りを入力音声としてth!!!織しないとき、前記類似
度計算回路で求められた第1位から第m位までの類似度
値を得る標準パターンのカテゴリをそれぞれ抽出する手
段と、これらの抽出されたカテゴリと前記入力音声とを
前記類似度計算で用いた特徴・ゼラメータとは別の特徴
パラメータを用いてそれぞれ照合する手段と、この照合
結果に便って1Iji[2人力音声のカテゴリをg*判
定する補助6g&手段とを具備したことを特徴とする′
1を声−猷装置。 - (2)類似度耐昇は、入力音声の拘ibスペクトル情報
を特徴パラメータとするtt′Piパターンについて行
われるものであって、第IQから第m位までカテゴリと
入力音声との照B fよ、その音韻特徴を相互に比較し
て行われるものである特許請求の範囲第1項記載の音声
認繊裟直。 - (3)主認識手段は、第1位の類似度値がJ−JT足の
第1の闇値以上であシ、且つ第1位と第2位との類似度
値差が所定第2の閾値以上であるとき、上記第1位の類
似度値を得る標準・ぐターンのカテゴリを入力音声の認
識結果として侮るものである特許請求の範囲第1項記載
の酋り1赦装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57012792A JPS58130393A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
US06/462,042 US4624011A (en) | 1982-01-29 | 1983-01-28 | Speech recognition system |
DE8383300492T DE3372552D1 (en) | 1982-01-29 | 1983-01-31 | Speech recognition system |
EP83300492A EP0086589B1 (en) | 1982-01-29 | 1983-01-31 | Speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57012792A JPS58130393A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58130393A true JPS58130393A (ja) | 1983-08-03 |
JPH0352640B2 JPH0352640B2 (ja) | 1991-08-12 |
Family
ID=11815243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57012792A Granted JPS58130393A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4624011A (ja) |
EP (1) | EP0086589B1 (ja) |
JP (1) | JPS58130393A (ja) |
DE (1) | DE3372552D1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4696041A (en) * | 1983-01-31 | 1987-09-22 | Tokyo Shibaura Denki Kabushiki Kaisha | Apparatus for detecting an utterance boundary |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4519094A (en) * | 1982-08-26 | 1985-05-21 | At&T Bell Laboratories | LPC Word recognizer utilizing energy features |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
JPH0792673B2 (ja) * | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
CA1232686A (en) * | 1985-01-30 | 1988-02-09 | Northern Telecom Limited | Speech recognition |
US4956865A (en) * | 1985-01-30 | 1990-09-11 | Northern Telecom Limited | Speech recognition |
GB8517918D0 (en) * | 1985-07-16 | 1985-08-21 | British Telecomm | Recognition system |
US4833713A (en) * | 1985-09-06 | 1989-05-23 | Ricoh Company, Ltd. | Voice recognition system |
US4827519A (en) * | 1985-09-19 | 1989-05-02 | Ricoh Company, Ltd. | Voice recognition system using voice power patterns |
EP0255529A4 (en) * | 1986-01-06 | 1988-06-08 | Motorola Inc | FRAMEWORK COMPARISON PROCEDURE FOR RECOGNIZING WORDS IN A LARGE NOISE ENVIRONMENT. |
US4918732A (en) * | 1986-01-06 | 1990-04-17 | Motorola, Inc. | Frame comparison method for word recognition in high noise environments |
JPH0760318B2 (ja) * | 1986-09-29 | 1995-06-28 | 株式会社東芝 | 連続音声認識方式 |
JP2584249B2 (ja) * | 1986-10-31 | 1997-02-26 | 三洋電機株式会社 | 音声認識電話機 |
US4998280A (en) * | 1986-12-12 | 1991-03-05 | Hitachi, Ltd. | Speech recognition apparatus capable of discriminating between similar acoustic features of speech |
US4910784A (en) * | 1987-07-30 | 1990-03-20 | Texas Instruments Incorporated | Low cost speech recognition system and method |
EP0311022B1 (en) * | 1987-10-06 | 1994-03-30 | Kabushiki Kaisha Toshiba | Speech recognition apparatus and method thereof |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
JPH0225898A (ja) * | 1988-07-15 | 1990-01-29 | Toshiba Corp | 音声認識装置 |
JPH02150899A (ja) * | 1988-12-02 | 1990-06-11 | Toshiba Corp | 音声認識方式 |
US5255342A (en) * | 1988-12-20 | 1993-10-19 | Kabushiki Kaisha Toshiba | Pattern recognition system and method using neural network |
DE69101500T2 (de) * | 1990-01-25 | 1994-08-18 | Mitsubishi Motors Corp | Regelsystem für die Antriebsleistung von Kraftfahrzeugen. |
CA2042926C (en) * | 1990-05-22 | 1997-02-25 | Ryuhei Fujiwara | Speech recognition method with noise reduction and a system therefor |
DE69128990T2 (de) * | 1990-09-07 | 1998-08-27 | Toshiba Kawasaki Kk | Sprecherkennungsvorrichtung |
EP0513652A2 (en) * | 1991-05-10 | 1992-11-19 | Siemens Aktiengesellschaft | Method for modelling similarity function using neural network |
US5317741A (en) * | 1991-05-10 | 1994-05-31 | Siemens Corporate Research, Inc. | Computer method for identifying a misclassified software object in a cluster of internally similar software objects |
US5440742A (en) * | 1991-05-10 | 1995-08-08 | Siemens Corporate Research, Inc. | Two-neighborhood method for computing similarity between two groups of objects |
US5485621A (en) * | 1991-05-10 | 1996-01-16 | Siemens Corporate Research, Inc. | Interactive method of using a group similarity measure for providing a decision on which groups to combine |
US5438676A (en) * | 1991-05-10 | 1995-08-01 | Siemens Corporate Research, Inc. | Method for adapting a similarity function for identifying misclassified software objects |
US5428788A (en) * | 1991-05-10 | 1995-06-27 | Siemens Corporate Research, Inc. | Feature ratio method for computing software similarity |
US5388183A (en) * | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
JPH05257492A (ja) * | 1992-03-13 | 1993-10-08 | Toshiba Corp | 音声認識方式 |
US5657429A (en) | 1992-08-10 | 1997-08-12 | Computer Motion, Inc. | Automated endoscope system optimal positioning |
US5762458A (en) | 1996-02-20 | 1998-06-09 | Computer Motion, Inc. | Method and apparatus for performing minimally invasive cardiac procedures |
US7074179B2 (en) | 1992-08-10 | 2006-07-11 | Intuitive Surgical Inc | Method and apparatus for performing minimally invasive cardiac procedures |
BE1007355A3 (nl) * | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
US6463361B1 (en) | 1994-09-22 | 2002-10-08 | Computer Motion, Inc. | Speech interface for an automated endoscopic system |
US7053752B2 (en) | 1996-08-06 | 2006-05-30 | Intuitive Surgical | General purpose distributed operating room control system |
US6646541B1 (en) | 1996-06-24 | 2003-11-11 | Computer Motion, Inc. | General purpose distributed operating room control system |
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US6714841B1 (en) | 1995-09-15 | 2004-03-30 | Computer Motion, Inc. | Head cursor control interface for an automated endoscope system for optimal positioning |
US5855583A (en) | 1996-02-20 | 1999-01-05 | Computer Motion, Inc. | Method and apparatus for performing minimally invasive cardiac procedures |
US6699177B1 (en) | 1996-02-20 | 2004-03-02 | Computer Motion, Inc. | Method and apparatus for performing minimally invasive surgical procedures |
US6436107B1 (en) | 1996-02-20 | 2002-08-20 | Computer Motion, Inc. | Method and apparatus for performing minimally invasive surgical procedures |
US6496099B2 (en) | 1996-06-24 | 2002-12-17 | Computer Motion, Inc. | General purpose distributed operating room control system |
US6911916B1 (en) | 1996-06-24 | 2005-06-28 | The Cleveland Clinic Foundation | Method and apparatus for accessing medical data over a network |
US6642836B1 (en) * | 1996-08-06 | 2003-11-04 | Computer Motion, Inc. | General purpose distributed operating room control system |
US6132441A (en) | 1996-11-22 | 2000-10-17 | Computer Motion, Inc. | Rigidly-linked articulating wrist with decoupled motion transmission |
US6951535B2 (en) | 2002-01-16 | 2005-10-04 | Intuitive Surgical, Inc. | Tele-medicine system that transmits an entire state of a subsystem |
US6398726B1 (en) | 1998-11-20 | 2002-06-04 | Intuitive Surgical, Inc. | Stabilizer for robotic beating-heart surgery |
US6659939B2 (en) | 1998-11-20 | 2003-12-09 | Intuitive Surgical, Inc. | Cooperative minimally invasive telesurgical system |
US6852107B2 (en) | 2002-01-16 | 2005-02-08 | Computer Motion, Inc. | Minimally invasive surgical training using robotics and tele-collaboration |
US8527094B2 (en) | 1998-11-20 | 2013-09-03 | Intuitive Surgical Operations, Inc. | Multi-user medical robotic system for collaboration or training in minimally invasive surgical procedures |
US7217240B2 (en) | 1999-10-01 | 2007-05-15 | Intuitive Surgical, Inc. | Heart stabilizer |
US6726699B1 (en) | 2000-08-15 | 2004-04-27 | Computer Motion, Inc. | Instrument guide |
EP2441394B1 (en) | 2000-11-28 | 2017-04-05 | Intuitive Surgical Operations, Inc. | Irrigator for an endoscopic instrument |
US20020165524A1 (en) | 2001-05-01 | 2002-11-07 | Dan Sanchez | Pivot point arm for a robotic system used to perform a surgical procedure |
US6728599B2 (en) | 2001-09-07 | 2004-04-27 | Computer Motion, Inc. | Modularity system for computer assisted surgery |
US6839612B2 (en) | 2001-12-07 | 2005-01-04 | Institute Surgical, Inc. | Microwrist system for surgical procedures |
US6793653B2 (en) | 2001-12-08 | 2004-09-21 | Computer Motion, Inc. | Multifunctional handle for a medical robotic system |
US20070129945A1 (en) * | 2005-12-06 | 2007-06-07 | Ma Changxue C | Voice quality control for high quality speech reconstruction |
TWI312945B (en) * | 2006-06-07 | 2009-08-01 | Ind Tech Res Inst | Method and apparatus for multimedia data management |
JP4518141B2 (ja) | 2007-12-17 | 2010-08-04 | 日本電気株式会社 | 画像照合方法及び画像照合装置並びに画像照合プログラム |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
RU2606566C2 (ru) * | 2014-12-29 | 2017-01-10 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) | Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа |
CN111639493A (zh) * | 2020-05-22 | 2020-09-08 | 上海微盟企业发展有限公司 | 一种地址信息标准化方法、装置、设备及可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3760356A (en) * | 1971-12-17 | 1973-09-18 | Honeywell Inf Systems | Technique for determining the extreme binary number from a set of binary numbers |
DE2456210C2 (de) * | 1974-11-28 | 1982-04-15 | Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt | Verfahren und Einrichtungen zur Erkennung von Mustern |
AU7529981A (en) * | 1980-09-19 | 1982-03-25 | Hitachi Limited | Language analysis by pattern recognition |
-
1982
- 1982-01-29 JP JP57012792A patent/JPS58130393A/ja active Granted
-
1983
- 1983-01-28 US US06/462,042 patent/US4624011A/en not_active Expired - Fee Related
- 1983-01-31 DE DE8383300492T patent/DE3372552D1/de not_active Expired
- 1983-01-31 EP EP83300492A patent/EP0086589B1/en not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4696041A (en) * | 1983-01-31 | 1987-09-22 | Tokyo Shibaura Denki Kabushiki Kaisha | Apparatus for detecting an utterance boundary |
Also Published As
Publication number | Publication date |
---|---|
EP0086589B1 (en) | 1987-07-15 |
EP0086589A1 (en) | 1983-08-24 |
JPH0352640B2 (ja) | 1991-08-12 |
DE3372552D1 (en) | 1987-08-20 |
US4624011A (en) | 1986-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS58130393A (ja) | 音声認識装置 | |
JP2996019B2 (ja) | 音声認識装置 | |
JPS58108590A (ja) | 音声認識装置 | |
JP2813209B2 (ja) | 大語彙音声認識装置 | |
JPS61180297A (ja) | 話者照合装置 | |
JPS6336678B2 (ja) | ||
Elghonemy et al. | Speaker independent isolated Arabic word recognition system | |
JPS62299899A (ja) | よう音・直音言い分け評価方式 | |
Sahu et al. | Odia isolated word recognition using DTW | |
Raman et al. | Performance of isolated word recognition system for confusable vocabulary | |
JPS63223696A (ja) | 音声パタ−ン作成方式 | |
JPH0316038B2 (ja) | ||
JP2891259B2 (ja) | 音声区間検出装置 | |
JPS59180598A (ja) | 音声入力方式 | |
JPS6312000A (ja) | 音声認識装置 | |
JPS63798B2 (ja) | ||
JPS60129798A (ja) | 音声認識方式 | |
JPS58176699A (ja) | 音声標準パタ−ン登録方式 | |
JPH03120434A (ja) | 音声認識装置 | |
JPS62255999A (ja) | 単語音声認識装置 | |
JPS5936299A (ja) | 音声認識装置 | |
JPH0289100A (ja) | 音声認識装置 | |
JPS5859498A (ja) | 音声認識装置 | |
JPS61180298A (ja) | 音声認識装置 | |
JPH0558556B2 (ja) |