JPS58224392A

JPS58224392A - 音声認識方式

Info

Publication number: JPS58224392A
Application number: JP57106936A
Authority: JP
Inventors: 久司西山; 市川　「あきら」; 中田　和男; 畑岡　信夫
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-06-23
Filing date: 1982-06-23
Publication date: 1983-12-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は音声認識方式に係シ、特に不特定話者の離散発
声１桁数字音による一連の数値データの入力に好適な音
声認識処理方式に関する。

不特定話者音声認識の最大の問題点は、話者がかわるこ
とによる音声の特性の変動、いわゆる話者変動をどのよ
うに吸収して安定で信頼性の高い音声認識を行うかにあ
る。

その対処に尚っての考え方には種々あるが、その一つに
第１２図に示すような考え方にもとづく方式がある。そ
の基本は話者変動をスタティックにスペクトルの次元に
投影した物理音響的な特性の変動、たとえば男女差、年
令差、個人の発話器管の物理的な大きさの差といった要
因と、ダイナミックに時間の次元に投影した発話特性の
変動、たとえば語尾の無声化、はや口、といった要因と
に分け、別々に対処しようとするものである。

前者に対しては、たとえば５母音のスペクトル特性を準
拠として多数話者の音声をいくつかのクラスタ（群）に
分類し、そのクラスタ別に必要とする標準音韻パタンを
作成する。たとえば数字前「１」を構成する標準音韻は
、母音／ｉ／と子音／　ｃ　ｈ　／とポーズ／＊／であ
る。また「４」を構成する標準音韻は母音／ｉ／と１０
／、撥音／Ｎ／（ン）およびｉと００間の過渡前／ｉ−
ｏ／である。

さらに語尾の母音／ｉ／、／ｕ／の無声化、鼻音または
撥音の前後における母音の鼻音化、／Ｎ／の長いのと短
いとの変形／Ｎ／と／ｎ／などの変形を考慮する。その
結果、後者の対策として、ｌつの単語に複数個の発音の
変形を考え、たとえば１からｏｔでの１０数字に対して
表１に示す１９種類の単語音韻辞書を考える。

表１この２段階にわたって、話者変動の吸収を行う不特定話
者音声認識装置のブロック構成を第２図に示す。

第２図において、入力音声２０を分析部２１でＰＡＣＯ
Ｒ分析して得た逆スペクトル係数等のパラメータを話者
クラスタ別音韻標準バタンメモリ２２と比較器２３で比
較し類似度を得ることにより、いわゆる音韻ラティス２
４が出力される。この音韻ラティス２４と複数単語音韻
系列辞書２５を整合部２６で整合させたのち、最適整合
サーチ部２７によシ認識結果としての単語番号２８が出
力される。

このような音声認識装置は公知である（斉藤収三、中田
和男；音声情報処理の基礎、オーム社（昭和５６年１１
月）１２・２音声認識の原理と構成、長高、中津；音韻
単位の標準パタンを用いた実時間単語音声認識装置２日
本音響学会音声研究会資料、８７８−２２　（１９７８
））この装置では第３図に説明的に示すように、男女別
を含むＮ個の話者クラスタを設け（たとえばＮ＝１６と
し、１〜８を男声、９〜１６を女声とする）、その各ク
ラスタについて、必要とする音韻標準パタン３１を作成
する。−単語の入力音声３０はフレーム毎に（フレーム
というのは入力音声分析の時間的単位であシ、１０〜２
０ミリ秒に選ばれるのが普通である）この各クラスタ別
の音韻標準パタン３１と比較され、各音韻について、類
似の度合をあられす定量尺度が計算され、いわゆる音韻
（音素）ラティスの形で出力される。この各音韻ラティ
スと、表１に示すような単語辞書をフレーム長を単位に
時間長を加味してあられされているＭ種類の標準単語音
韻系列辞書３２と比較し、時間軸の伸縮を考慮した非線
形伸縮整合（Ｄｒマツチングと略称ンを行い、最適整合
のものを認識結果とする。ただし、Ｄ　Ｐ　Ｉｒｉ　Ｄ
ｙｎａｍｉ　ｃｐｒｏｇｒａｍｉｎｇ　（動的計画法）
の略であシ、この手法も音声認識方式の研究者および装
置開発業者の間では公知のものである。（斉藤収三、中
田和男；音声情報処理の基礎、オーム社（５７年１１月
）１２・２音声認識の原理と構成、迫江、千葉；動的計
画法を利用した音声の時間正規化にもとづく連続音声認
識１日本音響学会誌、２７巻９号（１９７１）、　４８
３頁）これまでのところ男女の判定を行う方法がないので、入
力音声はＮ個の話者クラスタすべてと比較され、認識が
なされる。したがって男女の別が予め分っている場合に
比べて、処理量が２倍であること、また、男声の入力を
女性の話者クラスタで認識することにより起る誤認識（
逆の場合、女声入力を男性の話者クラスタで認識するこ
とによシ起る誤認識）が多くあシ、これが認識率を低め
ている一因となっていることが従来技術において、問題
点となっている。

本発明の目的は上記のような原理にもとづく不特定話者
音声認識方式において、音声の認識率を改善する方式を
提供することにある。

上記原理にもとづく不特定話者音声認識の結果の一例を
第４図に示す。これは話者のクラスタ化およびその結果
による音韻標準パタンの作成には関与してない別の新し
い女性話者（話者番号１゜５．６，５０．・・・、９２
までの計１０名）により発声された１から０までの１桁
数字音の認識結果である。第４図には誤った結果のみ記
入されている。

誤った認識結果の表示で／の上に書かれているのは、第
１候補すなわちもつとも単語辞書の内容とよく整合した
と判定された結果であり、／の下に書かれているのは、
第２候補すなわち２番目によく整合したと判定された結
果である。

またＣは１から０までの数字前以外の制御語（ハイ、イ
イエ、モウイチド、トリケシ、オワリなど）に誤認識さ
れたことを示す。

総計１７１固（１０人の１０数字だから入力データ総数
は１００個）の誤りのうち、○で囲ったものは、第２候
補すら正解とはなっていない場合を示す。

さて、この結果が、どのような話者のクラスタによる認
識結果であったかを考える。クラスタの最大の分離要因
は男女別であり、話者クラスタは男女別についてはあら
かじめ人為的に分けて行なわれている。そこで男女いず
れのクラスタの音韻標準バタンを使って認識が行なわれ
たかを分析してみると第５図に示すようになる。ここで
○は第１候補が男声バタンによって選ばれ、それが正解
であったものを示し、・はそれが誤りであったものを示
す。・は女声バタンによって認識されながら、その第１
候補が誤りであったものを示す。

また、／の上側の数字は男声パタンによって選ばれた第
１候補の誤りの個数を示し、／の下側の数字は第１候補
が誤υであった個数を示す。

この結果から、この例については次のようにいえる。

１）男声パタンにより選ばれた第１候補　１５個→１５
％　うち誤り　９個１９／１５−６０％２）女声バタン
により選ばれた第１候補　８５個→８５％　うち誤り　
８１固、８／８５＃９％すなわち、ａ）女声は大部分女声話者クラスタによって認識される
。　約８５％ｂ）そのときの誤りは少ない　１０％以下Ｃ）女声が男
声話者クラスタによって認識される率は低い　約１５％ｄ）　　Ｌかし、そのときの誤り率は高い　約６０％そ
こで、例えばこの例で、対象を女声と限って女声の話者
クラスタによってのみ認識したら、どうなるであろうか
。その結果を第６図に示す。

男声パタンによる認識の誤りはほとんど改善され男声で
正解であったものは、女声クラスタに限定してもやはり
正解であることがわかる。

すなわち、第１候補が誤シの個数は１０個（１０％）で
、男女混用の場合の１７個（１７％）にくらべ太幅に改
善されている。

また、第２候補が誤り（○で囲んだ場合）の個数も５個
（５％）で、男女混用の場合の９個（９％）にくらべ太
幅に改善されている。

いいかえれば、あらかじめ話者が男女いずれかがわかっ
ていれば、話者クラスタを男または女に限定することに
よって、誤りを軽減することができる。

しかし実際には、話者の男女別を事前に知ることはでき
ない。

そこで、大部分の認識、約８５％、すなわち４桁の数字
であればその３桁まで、８桁の数字であればその６〜７
桁まで、は正しい性別の話者クラスタで認識されるとい
う仮定のもとに次のように考える。

１）入力音声（１桁数字音）を認識する。そのとき、話
者クラスタをあらかじめ男女に分けておき、混用するこ
となく使用し、次の結果を求める。

男声としたときの第１および第２候補Ｃ（７）　、　Ｃ
（−）女声としたときの第１および第２候補ｄ；ゝ、Ｃ
（、ｆ）２）上記２つの第１候補を比較し、よシ整合度
の高い方（性別）の結果を仮結果として登録し、残りを
予備候補として記憶しておく。

すなわち（む）、Ｃ３ブ）　、　　（Ｃ（ｔ’　、　Ｃ
”ｚ’　）について岬とＣ（：）を比較し　ｃ　（７）
の方がよりよく整合しておれば、仮認識結果　Ｃ（７）、岬　とする、予備候補　　Ｃ（：）、Ｃ（：）３）　　ｎ桁数字を入力し終った時点で、その各桁の仮
認識結果のリストの性別多数決から未知話者の性別を推
定する。

４）その結果から仮認識結果をみなおして、性が異なっ
ている桁があれば、その桁の仮認識結果をその桁の予備
候補でおきかえる（仮蝉識結果の性をそろえる）。

５）上記４）の結果を認識結果として、入力話者に応答
し、その確認を求める。

この結果、上記実験例で示すように、現行手法の誤シを
軽減することができる。

以下、本発明の一実施例を第７図により説明する。なお
同図に示す個別の機能を実現する専用ハードウェアの構
成については公知であり、またマイクロプロセッサなど
によって実現することは容易であるので、ここでは処理
の手順を主にのべる。

入力音声１は分析部２によ・りてフレーム単位に分析さ
れる。分析の例としては、たとえば線形予測分析手法に
よって、相関係数１ｒ＋　）、ｉ＝Ｑ〜ｐと残差波形Ｅ
Ｎに分析される。これらの手法は公知である。次に比較
部３によって、スイッチＳＩを通して交互に指定される
話者クラスタ別の廿韻標準パタ／４，５と順次比較され
、その類似の度合が音韻ラティス６として出力される。

類似の度合は、たとえば次式の対数尤度比で評価きれる
。

ｒ　＝　Ｌｏｇ　（Σｒｐ　Ａ　ｐ　／　ＥＮ　）　＞
　Ｏ・”（υ　−１ここで（Ａ、）は音韻標準パタンの一表現法であシ、逆
スペクトル係数と呼ばれるものである。

この計算法についても公知である。

その結果の音韻ラティス６の一例を説明的に表１に示す
。表１中の数値は入力未知音声の各フレーム（す１．÷
２．φ３．・・・）が、おる特定話者クラスタの各音韻
標準バタン（同表の左端の欄に示す）とどの位よく整合
しているかを（１）式の尺度を使ってあられしたもので
あシ、完全に整合すれば数１直ＦｉＯとなる。

表　　２この縫韻ラティス出力と単語音韻系列辞書７の各単語と
の時間軸非線形伸縮整合が整合部８でとられる。

このとき、話者クラスタ別音韻標準ノくタン４゜５は、
それぞれ男声用のＮｔ個と、女声用のＮ２個からなりこ
れらの総計がＮになる。選択部９における第１および第
２候補の選択は、男女別に行なわれる。

選択の結果、男声としての認識結果ｃ（、＠　、　Ｃ（
２＋および女声としての認識結果　（、＊）　、　ｃ　
（、’）はスイッチＳｍの切換えによシ別々にバッファ
レジスタ（→ ｌＯおよび１１に一旦記憶される。そこで０１とＣψが
比較部１２によって定量的に比較され、その結果にもと
づいて選択記憶制御部１３の働きによって仮認識結果ス
タック１４または予備候補スタック１５にスイッチＳ３
を通してふり分けられて記憶される。

Ｎ桁数字行声の一連の１桁毎の入力が終了と、仮認識結
果スタック１４内のＮ個の結果の性別が比較され、性別
決定部１６において多数決によって男２女いずれかに決
定される。その結果にもとづいて仮認識結果訂正部１７
によってスタック１４の内に異なった性の認識結果があ
れば、予備候補スタック１５内の対応するものと入れか
えられて最終的な認識結果とされ、応答確認部１８へ送
られる。

Ｎ桁が偶数であり、最悪多数決で行えない場合前回の性
の決定結果にしたがうものとする。

以上説明したごとく本発明によれば、誤った話者クラス
タ、とくに男声と女声の混用による誤認識をさけ、認識
結果を改善（誤ｇ識率の低減）することができる。さら
に制御を複雑にすれば、１回の呼の中で話者が入れかわ
ることはないから、最初のＮ桁の入力で性別が推定芒れ
、応答確認の結果、その認識結果が正しかったとき、ま
たは誤りがごく少なかったときは、以後この呼が完了す
るまでは性別がかわることはないと考え、話者クラスタ
を男女いずれか一方に限定することができ、認識のため
の処理量を半減することができる。

【図面の簡単な説明】

第１図は公知の不特定話者音声認識の原理説明図、第２
図は公知の不特定話者音声認識装置のブロック構成図、
第３図は公知の複数音韻標準バタンと複数単語音韻系列
辞書の使用法説明図、第４図〜第６図は本発明の方式に
よる不特定話者音声認識結果を示す図、第７図は本発明
による不特定話者音声認識装置のブロック構成図である
。

Claims

【特許請求の範囲】

複数の単語からなる入力音声と物理的音響特性の異なる
話者クラスタ別に用意された標準バタンとを照合し、話
者クラスタ別に上記各単語の仮認識結果を求め、該仮認
識結果よシ上記入力音声の属する話者クラスタを推定し
、該推定された話者クラスタに対応した上記仮認識結果
を上記入力音声と認識することを特徴とする音声認識方
式。