JPS58130393A

JPS58130393A - 音声認識装置

Info

Publication number: JPS58130393A
Application number: JP57012792A
Authority: JP
Inventors: 渡辺　貞一; 篠田　英範; 麻田　治男; 恒雄新田; 洋一竹林; 平井　彰一; 坂田　富生; 上原　堅助; 保夫高橋
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1982-01-29
Filing date: 1982-01-29
Publication date: 1983-08-03
Also published as: EP0086589B1; EP0086589A1; JPH0352640B2; DE3372552D1; US4624011A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は入力音声を精度良く認識することのできる音声
認識装置に関する。

〔発明の技術的背景〕

近時、情報入力の有用な手段として音声認識装置が注目
されている。この音声認識装置における音声認識には、
従来よシ主としてノリーンマッチング法が採用されてい
る。第１図はこの種、パターンマツチング法による音声
認識装置の概略構成４示すものである。同図において、
図示しない［７’大入力を介して入力された音声信号は
、音響処理部１に導びかれ、Ａ／Ｄ変換処理、雑音除去
処理、エンファシス等の処理が施されたのち、前処理部
２に尋びかれる。この前処理部２では、例えば人力音声
のスペクトル包絡等の特徴・ヤラメータを抽出して、そ
の時系列からなる音声／４’ターンを求めている。識別
部３では上記入力音声・９ターンと、辞書４に予め登録
された音声標準・リーンとのマツチング度、つまシ類似
度を計算し、例えば類似度が最大となる音声標準・ヤタ
ーンのカテゴリを前記人力首府の認識結果として出力し
ている。上記類似度の計算は、一般的には入力音声・ン
ターンと音用辞書／４’ターンとのユークリッド距離を
求めたり、あるいはその内核を求める尋して行われる。

ぞして、上記計算された各類似度値が一定値以一トの場
合には、入力音声の認識ができないとして、これをリジ
ェクトすることが行われてし・＼る。

〔従来技術の間組点〕

ところがこのような従来装置におけるノゼターンマッチ
ング法は、音声信号の局所的な震動や雑音に強い反面、
類似した音声間の＋ｊ別や音声の局所的な差異について
十分なる識別ができないと云う認識特性ｔ−市゛してい
る。例えば継略の病院（ｂｙｏｉｎ　）と美容院（ｂｉ
ｙｏｉｎ　）との明確な識別や、音節の「か」と「が」
の判別が非電に困難である。これ故、誤認識が生じたシ
、−陳不能な結果を得ることが多かった。

そこで従来、十分高い類似度値が侍られないとき、音声
・母ターンの差異が生じる別の特徴を抽出し、これらの
特徴を対比して音声の認識判定を行う手段が提唱されて
いる。この手段は非常に有効なものではあるが、高い類
似度値金得て誤認識された結果や、認識対象外の音声パ
ターン等の雑音によって誤認識された結果については、
十分に対処することかできないと云う問題があった。つ
まり、類似した音声パターンによる′ｅｉ４ａｇｉｔ結
果に対しては何らこれを防ぐことができなかった。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、ノ臂ターンマツチングによシ十
分高い類似度値が得られたにも拘らず、その認識が曖昧
な場合であっても、安定に且つ確実に入力音Ｐを正しく
Ｍ識することのできる音声認識装置を提供することにあ
る。

即ち本発明は類似した音声パターンを持つ異なる音声を
明確に分離し、且つ雑音に左右されることなく正しく音
声認識を行い得る実用性の高い音声認識装置を提供する
ことを目的とするものである。

〔発明の概要〕

本発明は、入力音声パターンと辞書に登録された音声標
準パターンとの類似度を計算して類似度値の高い第１位
および第２位の類似度値を抽出し、上記第１位の類似度
値が一建値以上であるか否か、および上記第１位と第２
位との緬似度値差が一定値以上であるか古かｔ刊建して
前記第１位の類似度値を侍る標準・ヤターンのカテゴリ
を入力音声に対する認識結果とするか否かを主認識判定
し、この主認識判定により認識リジェクトされたときに
は、上記類似度値の第１位から第ｍ位までを得る各標準
パターンのカテゴリの音声パラメータの差異か生じる特
慎ヲ用いて入力音声パターンとの照合を竹い、この照合
結果に従って認識結果を得る補助昭−を何うようにした
ものである。

〔発明の効果〕

従って本発明によれば、・ノヤターンマッチンクによっ
て高い類似度が得られた場合であっても、これに類似す
る標準パターンが存在する場合には、音声ｉ？ターンの
差異を示す特徴によって音声認識が行われるので、類似
音声パターンが存在しても、また雑音があっても、常に
安定に、且つ確実に正しい認識結果を得ることが可能と
なる。そして、誤認識を防き゛、認識精度の向上を図る
ことが可能となる。

〔発明の実施例〕

以下、回向を参照して本発明の一実施例につき説明する
。

第２図は実施例装置の概略構成図である。マイクロホン
等を介して入力された音声信号は、Ａ７／Ｄ変換器１１
を介して、その振幅レベルに応じて量子化（数値化）さ
れて取込まれる。このようにして入力された音声信号は
、例えば第３図に示す如＜ｍ成されたｉ−曽処理回路１
２に導ひかれて、そのスペクトル情報や音韻情報が検出
されるようになっている。即ち、音響処理回路１２は、
音養処理制御回路２１によって作動制御されるチャンネ
ルフィルタ２２にて人力す声信号を周波数スペクトル分
解しており、ぞθスペクトル情報をパターン変換回路２
３を介してｇ識処理に適合した音声パターンに哀換して
出力している。このノにターン変換回路２３は、側光ば
入力音声をリサンプルして、七の入力首府パターンを時
間正規化処理する等して、人力音声の時間的なゆらぎ等
を匍慣するもので多る。

これにより、音臀処理されて出力さ扛る被片・ヤターン
は、個人屋等に起因する時…］的１−れか吸収されたも
のとなる。一方、このｉｒｗ処理回路１２では、上記入
力音声・ヤラメータの各時点のスペクトル情報と音韻％
似辞嚢２４に登録さノ１だ音韻の特徴情報とを音韻特倣
岨典回路２５によシ照合している。そしてこの照合によ
り、人力音声単語に含まれる母音や鼻音等の音韻特徴を
、前記スペクトル特徴に対する類似度耐＃等によって求
めている。このようにして、自−ｗ処理回路１２では、
入力音声の特色・ゼラメータ時系列からなる音声パター
ンと、その廿頗％徴情報がそれぞれ求められている。尚
、入力音声の特徴／母うメータとして、上述した周波数
スペクトル以外のものを用いることも可能であシ、また
音韻特徴の抽出手段も従来よシ提唱されている種々方式
を適宜採用することが可能である。

従って、−ｆ！４１処理回路１２の構成は、特に第３図
に示される例に限定されることはない。

しかして、音響処理回路１２で求められた入力音声の音
声パターンと、その音韻特徴情報はデータバッファメモ
リ１３に一時記憶されたのち、以下に示す音声認識に供
せられる。

類似度計算回路１４は、データ・守ツファメモリ１３に
格納された音声パターンと、・母ターン辞書ファイル１
５に予め登録された複数の音声カテゴリの標準／４’タ
ーンとの相関値、つまシ類似度をそれぞれ計算し、その
計算され九類似度の情報を制御回路１６に供粘している
。この制御回路１６は基本的には第４図に示すように装
置制御回路部２１と、この回路部２７によって動作制御
されるメモリ制御回路２８および種々の認識判定演算を
行う演算回路２９により構成される。そして、この制御
回路１６では、上記計算された類似度値から人力音声の
略繊粕来を得るべく主略織判定を行うと共に、この王絡
繊判定によって確実な認識結果が得られない場合には、
補助％徴認識部１７を用いて、ｍｌ記バッファメモリ１
３に格納された音韻特色と、Ｍｉｌ記類似度計算によっ
て求められた餡猷候補カテコ′りの特徴とを照合して、
袖助認識刊定処理を（１っている。つまり、類似度計算
による＃声認猷に対して、音韻特徴の照合による酩臓が
補助されるようになっている。

第５図は、このように構成された本装置にあ・ける略識
処理手ｊ１を示すもので、以下この第５図に示される処
理手順に従い、本装置の％ｆａｈる音声認識につき説明
する。

音声信号が入力されると、音響処理回路１２では、先ず
フレーム率位で上−己入力廿−〇スペクトル情報と音韻
特徴とが計算される。上記スペクトル情報の計算は、例
えは入力廿声信号のＭチャンネルのパントノ４ｆスフイ
ルタの出力を用いて行われる。そして、各フレーム毎に
、そのデータが音声の区間に属するか否かの検出が、各
フレームのエネルギの大きさや音韻特徴を用いて行われ
る。これらの検出は、音声の終端が検出される迄繰返し
て行われ、これによシ、１つの音声区間の上記検出され
たスペクトル情報や音韻％黴からなる特徴／４’ラメ一
タ時系列で示される音声パターンが検出される。またこ
のとき、各フレーム毎に無声性、有声性、摩擦性、破裂
性、鼻音声、・ヤワーディッグ等の入力音声特有の廿韻
％黴が判定検出される。

しかるのち、音声パターンの時間正規化を行うべく、上
記音声・母ターンの正確な音声区間検出、つま）始端お
よび終端の検出が行われ、この結果に従って上記音声ノ
リーンに対するりサンプル点が定められる。このリサン
プル点は、音声区間を等分割して線形に定めてもよいが
、音声単語中の無音部やパワーディップ位置等を検出し
、これらの検出位ｋを頗として区分され九部分毎にそれ
ぞれ線形にリサンプル点を矩めるようにしてもよい。こ
のリサンプル処理シＣよって、ＭＸＮ次元の音声パター
ンベクトルＸか求められ、前記データバッファメモ９１
ｓｔＣ格納される。

このようにして求められた竹片ノ母ターンベクトルＸと
、前記辞書ファイル１５に登録ａれた標準・９ターンと
の類似度がｉｎ−され、そのａｌＪ４結果に従って上記
音声パターンベクトルＸが−するカテゴリの決定、っま
シ廿声は臓がイＩわｈる。このパターン照合を為す類似
度Ｂ１鼻は、νりえは入力音声・！ターンの変動に強い
似合類似度法を用いて行われる。即ち、音岸カテゴ１Ｊ
ｃｉの辞書パターンをφ、ｊ（ｊ＝１．２〜Ｊ）、ＩＩ
　Ｘ　ＩＩをベクトルＸのノルムとしたとき、音声パタ
ーンベクトルＸのカテゴリＣｔに対する類似度８３はとして計算される。仁のような類似度計算が辞書ファイ
ル１５に登録された標準ツクターンのそれぞれに対して
行われる。

しかして制御回路１６は、上記の如く計算された類似度
値の最も高いものから順に第１位、第２位〜として定め
たとき、まず第１位の類似度値Ｓ１と第２位の類似度値
Ｓ２とを求め、ａｓ＞Ｔｔ８１−ｓｌ）’ｒｌなる計算を行っている。即ち、第１位の類似度値ｇ、が
予め設定され九所定の閾値Ｔ１よ）大きいか否か、つＩ
Ｊ）十分高い類似度値が得られたか否かを判定している
、。また同時に第１位と第２位との類似度値差（８ｘ８
＊）を求め、その類似度値差が所定の閾値１８以上であ
るか否か、つま）、他の候補カテがすの類似度値と十分
な差があシ、その識別が明確であるか否かの判定全行っ
ている。そして制御回路１１では、入力音声パターンに
対して求められた類似度値が上記条件を満九すきき、第
１位の類似度値Ｓ１を得る標準パターンの音声カテゴリ
を入力音声の認識結果であると判定している。また計算
された類似度値が上記条件のいずれか一方を満たさない
場合には、判定不能なる認識結果を得ている。即ち、第
１位の類似度値Ｓ１が闇値Ｔ１よシ小さい場合には、音
声・臂ターンに良く類似した標準ノ母ターンが存在しな
いとして判定し、また類似度値差が闇値Ｔ、よシ小さい
場合には、音声パターンに類似する幾つかの標準パター
ンが存在し、その明確な識別ができないとして判定して
いる。

しかして、仁のようにして７譬タ一ン照合による類似度
値による判定によって、第１位の類似度値を得る標準パ
ターンのカテゴリが入力音声の認識結果でないとしてリ
ジェクトされたとき、制御回路１６は入力音声について
次のように音声認識を行う。即ち、上記類似度計算によ
って求められた第１位から第ｍ位までの類似度値を得る
標準パターンのカテゴリを抽出する。上記第１位から第
ｍ位までの類似度値を得るカテゴリの抽出は、例えば類
似度値が９９．５ｑｂ以上であるものを抽出することに
よって行われる。そして、このようにして抽出されたカ
テゴリについて、補助特徴認識部１１にて、上記各カテ
ゴリの音韻特徴と入力音声が有する音韻特徴との照合を
行わしめる。この照合により、音韻特徴がマツチングし
た候補カテゴリを抽出して、これを前記入力音声の認識
結果として判定し、前記類似度計算による音声ｌｊ！！
識を補助する・つｔシ、この音韻特徴の照合による音声
認識の補助は次のような意味を持つ、類似度値が成る闇
値以上である複数の候補カテｆ　１７が存在することは
、そのいずれのカテゴリも入力音声パターンとしてｌＩ
！識される可能が高い、ただこれらの候補カテゴリが相
互に異なることは、各カテｆりの音韻特徴部に違いがあ
ると云える。むしろ、このような音韻特徴の違いを利用
しなければ、異ったカテゴリ間の差異を単なる音声ノ４
ターンの類似度値からだけでは識別できないと云える。

それに加えて、入力音声ツヤターンの時間的なずれや、
その他の変動要因によって、本来マツチングされるべき
カテゴリの標準パターンと入力音声ｉ４？ターンとの類
似度値が低下することも十分予想される。従って、類似
した類似度値を得るカテゴリが複数存在する場合には、
上述した補−認識手段にょシ、その音韻特徴の照合によ
って候補カテゴリ中から上記音韻特徴もマツチングした
カテゴリを抽出すれば、非常に精度の高い音声認識を行
うことが可能となる。

尚、この補助認識によっても認識結果としてカテゴリが
見出されない場合には、入力音声は雑音として、っまシ
本装置における認識対象外の音声として拒否される。

以上説明し友ように本装置によれば、入力音声をその音
声パターンと標準パターンとの類以度計算によって照合
すると共に、この照合によって複数の標準パターンとの
間での識別ができないときには、入力音声の音韻特徴を
用いた照合によシ上記入力音声のＳａＷを補助するので
、非常に安定に、且つ精度良く入力音声を餡織すること
が可能となる。しかも入力音声の変動に対して柔軟性の
あるノ臂ターンマツチングにょって主認識処理を行い、
更に音韻特徴によって上記ノ譬ターンマツチングでは識
別できない類似した類似度値を得る標準ノ臂ターン間の
識別を補助し得る。故に認識精度の飛躍的な向上を図シ
得、雑音等に対する誤認識を防ぐことが可能となる。

従って、その実用的利点は多大である。

尚、本発明は上記実施例に限定されるものではない０例
えばノ４ターンマツチングによる音声認識を補助する手
段として、音韻特徴以外の他の特徴／ヤラメータを用い
ることも可能である。

また音声パターンの特徴ノ４ラメータ時系列も、上述し
た周波数スペクトル情報に限られるものではない、また
不特定話者を対象とする音声認識のみならず、言語の音
素抽出としての応用も可能であシ、その利用性が広い。

要するに本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。

【図面の簡単な説明】

第１図は従来の音声認識装置の基本的な構成図、第２図
は本発明の一実施例装置の概略構成図、第１３図は実施
例装置における音曽処理回路の一構成例を示す図、第４
図は実施例装置における制御回路の構成例を示す図、第
５図は実施例装置の認識処理手順を示す図である。１２・・・音醤処理回路、１３・・・データパンツアメ
モリ、１４・・・類似度計算回路、１５・・・パターン
辞書ファイル、１６・・・制御回路、１７・・・補助特
徴認識部。出願人代理人　　弁理士　鈴　江　武　彦第３図第４図第５図第１頁の続き０発　明　者　平井形− 川崎市幸区小向東芝町１番地東京芝浦電気株式会社総合研究所内０発　明　者　坂田富生川崎市幸区小向東芝町１番地東京芝浦電気株式会社総合研究所内０発　明　者　上原堅助川崎市幸区小向東芝町１番地東京芝浦電気株式会社総合研究所内０発　明　者　高橋保夫川崎市幸区小向東芝町１番地東京芝浦電気株式会社総合研究所

Claims

【特許請求の範囲】

（１）　　入力音声の特徴・９ラメ一タ時系列からなる
音声ノリ−ンを求める手段と、上記音声パターンを配憶
するパンツアメモリと、このパンツアメモリに記憶され
た音声パターンと辞書に登録された複数の標準ｔ’？タ
ーンとの類似度をそれぞれ計算する類似度計算回路と、
この類似度計算回路によ請求められた第１位の類似度値
および第１位と第２位との類似度値差から上記第１位Ｏ
類似度値を得る標準パターンのカテゴリカ前記入力音声
であるか否かを認識判定する主認識手段と、この認識手
段が上記第１位の類似度値を得る標準パターンのカテ了
りを入力音声としてｔｈ！！！織しないとき、前記類似
度計算回路で求められた第１位から第ｍ位までの類似度
値を得る標準パターンのカテゴリをそれぞれ抽出する手
段と、これらの抽出されたカテゴリと前記入力音声とを
前記類似度計算で用いた特徴・ゼラメータとは別の特徴
パラメータを用いてそれぞれ照合する手段と、この照合
結果に便って１Ｉｊｉ［２人力音声のカテゴリをｇ＊判
定する補助６ｇ＆手段とを具備したことを特徴とする′
１を声−猷装置。
（２）類似度耐昇は、入力音声の拘ｉｂスペクトル情報
を特徴パラメータとするｔｔ′Ｐｉパターンについて行
われるものであって、第ＩＱから第ｍ位までカテゴリと
入力音声との照Ｂ　ｆよ、その音韻特徴を相互に比較し
て行われるものである特許請求の範囲第１項記載の音声
認繊裟直。
（３）主認識手段は、第１位の類似度値がＪ−ＪＴ足の
第１の闇値以上であシ、且つ第１位と第２位との類似度
値差が所定第２の閾値以上であるとき、上記第１位の類
似度値を得る標準・ぐターンのカテゴリを入力音声の認
識結果として侮るものである特許請求の範囲第１項記載
の酋り１赦装置。