JPS608898A

JPS608898A - 音声認識装置

Info

Publication number: JPS608898A
Application number: JP58117422A
Authority: JP
Inventors: 桜庭　孝宏; 杉原　澄子
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-06-29
Filing date: 1983-06-29
Publication date: 1985-01-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（イ）発明の技術分野本発明は音声認識装置に係り、特にマルチテンプレート
方式に改良を加えた音声認識装置に関する。

（ｒ））技術の背景従来の音声認識装置には、使用者の音声を登Ｓし、その
登録した音声と入力した音声とを照合して最も似ている
ものを認識結果として出力する特定話者音声認識装置が
ある。

この型式の音声認識装置には、１つの語に複数の辞書を
用意するマルチテンプレート方式のものや、これに学習
処理を導入して上記方式を更に発展させたものがあるが
、この後者の方式になるものであっても、その辞書登録
における発声の態様や、発生される語の性質に対する分
析がいまだ十分でなく、その結果として、用意しなＬ−
Ｊればならない辞書容量はなお多くにならざるを得ない
のみならず、そのために認識時間が長くなる等更に改善
すべき余地が残されている。

Ｇ”ｉ従来技術と問題点上記の特定話者音声認識装置の初期においては、１つの
語に１つの辞書を用意する場合ζこ生ずる誤認識を回避
せんとして発声のばらつきに対処する辞書、即ち１つの
語に複数の辞書を用意するいゎゆるマルチテンプレート
方式の音声認識装置が開発された。この装置においては
、各語毎にその語を発７ｉｉ　ｌ、た場合に生じｉｑる
各種音声を十分に登録している場合にはその効果を期待
出来る。しかし、実際にｔＪ、音声登録を続りて行なう
場合が多く、その登録の際の発声が同様なものになり易
いため、−マルチテンブレ−Ｉ・化のすＪ果は稀釈化さ
れてしまう。

そこで、登録か終了したら、入力音声と対応するｊＡの
辞１１１の照合距「１１１の近いものについて特定比イ
・Ｘ（入カフ１声と登録音声とを合成し一ζｉ′￥た学
習音声をその語の登録１１声として町今ε？を１１なう
とい・）学習処理を行ない、徐々に発声の異なる辞７１
に４る下段を採用している。

このようにして、すべての語に複数の辞書を持たＵ゛て
も、その登録の際に同様な発声になる音声が登録される
場合には、依然として十述したと同様マルチテンブレー
Ｉ・化の効果を発揮出来ない。

又、語によっ−（は発声し易（ばらつきの出にくいもの
や、類似語がなく誤Ｊ７３識しにくいものがある。

、二のような語について子連のようなマルチテンプレー
ト化を行なう必要性は乏しい。

仁）発明の目的本発明は上述したようなＩｊｆｌ来装置の有する欠点に
鑑みて創案されたもので、その目的は用意しなければな
らない辞書数を大幅に削減して認識時間の短縮化を達成
しろる音声認識装置を提供することにある。

（ホ）発明の構成そして、この目的はマルチテンブレー１・方式の辞書を
有し、その辞書内容を学習処理により更新する手段を有
する音声認識装置において、上記学習処理におりる認識
順位をめる手段と、その認識順位が予め決められた順位
に達したか否かを判定する手段と、上記予め決められた
順位に達していないことに応答して−Ｊ二記学習処理を
継続させ、それに達したとき入力背定パラメータの」−
記辞書への追加登録処理に入る手段とを備えて構成する
ことによって達成される。

（へ）発明の実施例原生、添付図面を参照して本発明の詳細な説明する。

添イ旧２１面は本発明の一実施例を示す。Ｉは使用＝Ｑ
」Ｊから発声された音声を受音するマイクロボンで、２
はマイクロボン１に接続された音声特徴抽出部である。

３は音声特徴抽出部２から出力された入力音声パラメー
タを格納する入力音声パラメータ照合部ァである。入力
音声バラノータバソファ３の出力は登録学習制御部４へ
接続されると共に、パラメータ照合部５へ接続され、そ
こへの入力音声パラメータは登録学習制御部４の制御の
下にある登録音声パラメータ辞書部６から出力される登
録音声バラメークとパラメータ照合部５で照合され、登
録音声パラメータ毎に照合距離を認識制御部７へ与える
ようにパラメータ照合部５は構成されている。又、登録
音声パラメータ辞書部６の登録音声パラメータ出力は登
録学習制御部４へ接続され、登録学習制御部４は後述す
るような学習処理結果の学習音声パラメータ又は入力音
声バラメークを登録音声パラメータ辞書部６に再登録又
は追加登録するように構成されている。

認識制御部７はパラメータ照合部５から照合距離を受け
て最も照合距離の近い辞書を認識結果の辞書とし、その
辞書情報を認識辞書情報として線８上に送出すると共に
上記最も照合距離の近い辞書が何語であるかを示す情報
を登録学習制御部４の制御の下にある辞書ディレクトリ
部９から冴で認識結果を線１０上に送出し、又そのとき
の認識順位情報を線１１上に送出するように構成されて
いる。線８は登録学習制御部４へ接続されている。

１２は装置に登録モート、学習モード又は認識モードを
設定し、次候補要求信号を発生ずるためのもので、認識
制御部７及び登録学習制御部４へ接続されている。

１３は線■０上に正解の認識結果が出されたときの順位
が辞書追加を行なわなｃノればならない予め決められた
順位に達したとき線１４」二に辞書追加要求信号を発生
ずる辞書追加制御部で、線■４は登録学習制御部４へ接
続されている。

１５は登録学習制御部４で処理される音声パラメータを
格納するバッファである。

次に、上述した構成の本発明装置の動作を説明する。

本発明を実施する装置には、登録モート、学習モート及
び認識モードがあワて、装置は先ず、使用−１ｔＪによ
る操作パネルの操作により登録モート−に設定される。

この登録モードにおいて、使用者Ｕが登録すべき語をマ
イクロホン１へ四番ノで順次に発声する。

マイクロホン１から入力された音声は音声特徴抽出部２
で認識用音声パラメータに変換され、その入力音声パラ
メータは入力音声パラメータバッファ３に格納される。

格納された入力音声パラメータは登録学習？ｌｉｌ＋御
部４の制御ａ１１により登録音声パラメータ辞書部（ｊ
に登録されると共に、その登録された辞書とり１応する
辞膚ディレク１り部９に登録語の識別情報が登録される
。

このような処理が登録したいすべての語について行なわ
れる。

その終了後、使用打Ｕ　４；ｔ：操作パネル１２から学
習モートを設定し、再び登録モー１−の場合と同様にし
、て音声を入力させる。その入力された音声は音声特徴
抽出部２に与えられ、そこで音声パラメータの抽出処理
が行なわれる。抽出された入力音声パラメータは入力音
声パラメータバッファ３に格納される。

この入力音声パラメータバッファ３の入力音声パラメー
タは登録学習制御部４の制御の下に登録音声パラメータ
辞書部６に登録されているすべての登録音声パラメータ
と順番にパラメータ照合部５で照合され、その照合完了
の都度照合距離を認識制御部７へ送る。

これらの照合が終了すると、認識制御部７では、照合距
離の最も近い辞書を認識結果の辞書とすると共に、その
辞書が何語であるかを辞書ディレクトリ部９から得てそ
の認識結果を線１０上に送出する。これと同時的に、認
識制御部７から線８を経て与えられる認識辞書情報に基
づいて、登録学習制御部４が上述認識結果の辞■を学習
相手の辞書とし、その辞書内容と入力音声パラメータと
を特定の比率で合成して学習音声パラメータを作成Ｊ°
る。その学習音声パラメータはｘ、４．’＋＋１合声）
々ラメータハノファ１５に格納される。

上述した認ＭＢｉ果を使用者（Ｊがチ、ニックし、それ
が誤認識のものである場合には、使用７ｆ　Ｕ　＆よＩ
榮作パネル１２を１榮作して次の認識候？＋ｔｉを要ｊ
；１−る。

この要求に応答して認識制御部７は欠に照合「巨Ｆｊｌ
ｌが近い別の語についての認識結果を次候補として出力
する。登録学習制御部４では、新しし１認識辞壱：　Ｉ
ｉ　？ｕに応答して百びヒ述と同様の手順により′ｙ習
音声パラメータを作成し、それを学習音声ノイラメータ
ハノファ１５に再格納する。

このようにして、認識結果Ｇこ正解力咄）ｊされ、て使
用ｆイＵが次の語の学習作業に移り、音声力（入ツノさ
れると、登録学習制御部４は学習音声）々ラメータバッ
ファ１５の音声パラメータを学習Ｇこ用Ｇ）た登録音声
パラメータ辞書に再登録し、１つのＫｎの学習処理を終
了する。

上述のような学習処理において、認識結果Ｇこ正解が出
力されるときの線１１上の認識順位情幸■力（辞書追加
を行なうべき予め決められた順位にｉ幸しているならば
、辞書追加制御部１３から線１４上に辞書追加要求信号
が送出される。この信号を受けた登録学習制御部４は上
述したような学習処理の代りに、入力音声パラメータを
新辞書に登録する処理に移る。即ち、その入力音声パラ
メータは学習音声パラメータバッファ１５に格納され、
そのパラメータは認識結果に正解が出力され、使用者Ｕ
が次の語の学習作業に移り、その語の音声が入力される
と、登録学習制御部４は学習音声パラメータ照合部ァ１
５の音声パラメータを登録音声パラメータ辞書部６の空
辞書に登録すると共に、その辞書識別情報を上記空辞書
に関連イ」けて辞書ディレクトリ部９に登録する。この
ようにして上述認識順位情報を出力するに至った語につ
いてはマルチテンプレート化が行なわれる。

なお、上記実施例においては、辞書追加要求はその語乃
至語群に最適の基準又はこれに準する基準が設定され−
でなされるのがよい。

（１）発明のすＪ果以−ヒ述べたように、本発明によれば、すべての語がマ
ルチテンプレート化されるのではなく、誤認識し易い語
についてマルチテンプレート化されるように構成されて
いるので、登録音声パラメータ辞書の容量を大幅に削減
し得る。これは又照合時間の短縮となるから、認識に要
する時間も短くて済む等の効果が得られる。

【図面の簡単な説明】

添付図面は本発明の一実施例を示す。図中、１はマイクロホン、２は音声特徴抽出部、３は入
力音声パラメータバッファ、４は登録学習制御部、５は
パラメータ照合部、６は登録音声パラメータ辞書部、７
は認識制御部、９は辞書ディレクトリ部、１２は操作パ
ネル、１３は辞書追加制御部、１５は学習音声パラメー
タ照合部ァである。

Claims

【特許請求の範囲】

マルチテンプレート方式の辞書を有し、その辞書内容を
学習処理により更新する手段を有する音声認識装置にお
いて、上記学習処理におりる認識順位をめる手段と、そ
の認８ｉｉｌｌ順位が予め決められた順位に達したか否
かを判定する手段と、上記予め決められた順位に達して
いないことに応答して上記学習処理を相続させ、それに
達したとき入力音声パラメータの」二記辞書への追加登
録処理に入る手段とを備えて構成したことを特徴とする
音声認識装置。