JPH0777998A

JPH0777998A - 連続単語音声認識装置

Info

Publication number: JPH0777998A
Application number: JP5222361A
Authority: JP
Inventors: Tomoyasu Fujii; 友康藤井; Hisamori Taniguchi; 久衛谷口
Original assignee: NipponDenso Co Ltd
Current assignee: Denso Corp
Priority date: 1993-09-07
Filing date: 1993-09-07
Publication date: 1995-03-20
Anticipated expiration: 2018-12-10
Also published as: JP3477751B2

Abstract

(57)【要約】【目的】入力音声中に認識すべき単語以外の音声（不
要語）が含まれていても、音声認識を精度良く行なうこ
とのできる連続単語音声認識装置を提供する。【構成】単語辞書内に、認識すべき単語（必要語）の
音響的特徴量と共に、全ての必要語の平均特徴量を不要
語の音響的特徴量として登録しておく。そして音声認識
時には、外部からの入力音声を所定のフレーム周期で順
次分析してその特徴量を抽出した後（ステップ３０
０）、ＤＰマッチング法により、上記単語辞書を用い
て、入力音声中の単語系列を認識する（ステップ３１０
〜４３０）。またこの単語系列には不要語として認識し
た単語が含まれているため、この単語系列の中から不要
語として認識した単語を除去する（ステップ４４０）。
この結果、入力音声中に不要語が存在する場合に、不要
語を必要語であると誤認識してしまうことがなく、単語
系列の認識精度を向上できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、認識すべき単語の音響
的特徴量が登録された単語辞書を用いて、外部からの入
力音声に含まれる単語系列を認識する連続単語音声認識
装置に関する。

【０００２】

【従来の技術】従来より、この種の連続単語音声認識装
置では、まず、外部からの入力音声を所定周期で分析し
て音響的特徴量を順次抽出し、周知のＤＰマッチング法
等によって、その抽出された音響的特徴量の時系列デー
タを、単語辞書に認識すべき単語毎に登録されている音
響的特徴量を用いて、何れかの単語の音響的特徴量に最
も近似したデータ列毎に区分し、その区分したデータ列
毎に、対応する音響的特徴量が表わす単語を割り当てる
ことによって、入力音声の単語系列を認識するようにし
ている。

【０００３】このため、入力音声が予め単語辞書に登録
されている単語のみから構成されている場合には音声認
識を良好に行うことができるものの、入力音声の単語の
途中に無音部分が多く含まれていたり、入力音声中に単
語辞書に登録されていない音声（不要語）が含まれてい
ると、音声認識を良好に行うことができず、単語系列を
誤認識してしまうといった問題があった。

【０００４】一方、こうした問題を解決するために、従
来より、例えば特開昭６１−２００９５号公報に開示さ
れているように、認識すべき単語の音声から無音部分を
除去した音声データに基づき各単語の音響的特徴量を生
成して単語辞書に登録しておき、この単語辞書を用いて
入力音声の単語系列を認識する際には、入力音声から無
音区間を除去した音声データを用いるようにする、とい
ったことが提案されている。

【０００５】

【発明が解決しようとする課題】しかし、こうした対策
では、入力音声の単語の途中に無音区間が多く含まれて
いる場合の認識精度を向上することはできるものの、入
力音声中に不要語が含まれている場合の誤認識を防止す
ることはできず、音声認識を精度良く実行させるには、
音声認識装置に不要語が入力されることのないよう、使
用者が発声する音声以外の音が音声認識装置に入力され
ないようにし、しかも使用者が単語辞書に登録されてい
る単語のみを発声しなければならない、といった問題が
あった。

【０００６】本発明は、こうした問題に鑑みなされたも
ので、入力音声中に認識すべき単語以外の音声（不要
語）が含まれている場合にも、音声認識を精度良く実行
することのできる連続単語音声認識装置を提供すること
を目的としている。

【０００７】

【課題を解決するための手段】かかる目的を達成するた
めになされた本発明は、図１に例示する如く、認識すべ
き複数の単語の音響的特徴量が、各単語毎に予め格納さ
れた単語辞書記憶手段と、外部からの入力音声を所定周
期で分析して音響的特徴量を順次抽出する音響分析手段
と、該音響分析手段にて順次抽出された音響的特徴量の
時系列データを、上記単語辞書記憶手段に格納された音
響的特徴量に最も近似したデータ列毎に区分し、各デー
タ列毎に、対応する音響的特徴量が表わす単語を割り当
て、上記入力音声の単語系列を認識する音声認識手段
と、該音声認識手段により認識された単語系列を外部装
置に出力する出力手段と、を備えた連続単語音声認識装
置において、上記単語辞書記憶手段に、上記各単語の音
響的特徴量に加えて、音声認識を必要としない不要語の
音響的特徴量を、上記音声認識手段にて認識すべき単語
の音響的特徴量として格納しておき、更に、上記音声認
識手段により認識された単語系列の中から、上記不要語
として認識された単語を除去して、上記出力手段に出力
する不要語除去手段を設けたことを特徴としている。

【０００８】

【作用】上記のように本発明の連続単語音声認識装置に
おいては、単語辞書記憶手段に、認識すべき複数の単語
の音響的特徴量と共に、音声認識を必要としない不要語
の音響的特徴量が、音声認識手段にて認識すべき単語の
音響的特徴量として格納されている。

【０００９】そして、外部から音声が入力されると、ま
ず、音響分析手段が、その入力音声を所定周期で順次分
析して音響的特徴量を順次抽出する。すると、音声認識
手段が、音響分析手段にて順次抽出された音響的特徴量
の時系列データを、単語辞書記憶手段に格納された単語
及び不要語の音響的特徴量に最も近似したデータ列毎に
区分し、その区分したデータ列毎に、対応する音響的特
徴量が表わす単語或は不要語を割り当ることによって、
入力音声中の単語系列を認識する。

【００１０】また、このように音声認識手段が入力音声
中の単語系列を認識すると、不要語除去手段が、その単
語系列の中から不要語として認識された単語を除去して
出力手段に出力する。この結果、出力手段からは、入力
音声に含まれている認識すべき単語が時系列に連続的に
出力されることとなり、外部装置には、使用者が音声入
力した必要な単語系列のみが提供されることとなる。

【００１１】即ち、本発明では、単語辞書として、認識
すべき単語の音響的特徴量だけでなく、音声認識する必
要のない不要語の音響的特徴量をも登録しておき、音声
認識手段にて、入力音声に含まれる不要語も一つの単語
として認識することにより、入力音声中の不要語の領域
が認識すべき何れかの単語であると誤認識されるのを防
止しているのである。

【００１２】なお、不要語の単語辞書としては、認識す
べき単語以外の音声を認識可能な音響的特徴量を登録し
ておけば良く、その個数としては１個でも複数でもよい
が、請求項２に記載の如く、認識すべき各単語の音響的
特徴量を平均化したものを設定しておけば、１個の辞書
で不要語を良好に認識することができるようになる。こ
れは、認識すべき単語の音響的特徴量を平均化した平均
特徴量は分散が大きく、入力音声中の不要語の部分は、
認識すべき単語の音響的特徴量よりもその平均特徴量に
より近くなるからである。

【００１３】

【実施例】以下に本発明の実施例を図面と共に説明す
る。まず図２は本発明が適用された実施例の連続単語音
声認識装置（以下、単に音声認識装置という。）全体の
構成を表わすブロック図である。なお、図２は、音声認
識装置の機能的構成を表わすブロック図であり、ハード
的構成を表わすものではない。

【００１４】図２に示す如く、本実施例の音声認識装置
は、音声認識に使用する単語辞書１０を作成する辞書作
成部２と、辞書作成部２により作成された単語辞書１０
を用いて外部から入力された音声中の単語系列を認識す
る認識部４とから構成されている。

【００１５】ここで、辞書作成部２は、ＣＰＵ，ＲＯ
Ｍ，ＲＡＭ等からなるマイクロコンピュータの処理によ
り、音声認識に必要な単語辞書１０を作成して、その作
成した単語辞書１０を、ＲＡＭやＩＣカード等の記憶素
子の所定の記憶領域に格納するためのものであり、予め
音声認識すべき単語（以下、必要語という。）毎に収集
された必要語音声データ６を用いて、音声認識に使用す
る各必要語の音響的特徴量を求め、これを必要語認識用
の辞書として設定する必要語辞書作成部１２と、同じく
必要語音声データ６を用いて、音声認識の必要のない不
要語の音響的特徴量を求め、これを不要語認識用の辞書
として設定する不要語辞書作成部１４とを備えている。

【００１６】また、認識部４は、周囲の音声をデジタル
データに変換して取り込むためのマイクロフォン，Ａ／
Ｄ変換器等からなる音声入力部２２と、この音声入力部
２２からの入力データと単語辞書１０とから、入力音声
中の単語系列を認識する音声認識部２４と、音声認識部
２４による認識結果を、外部の表示装置や認識結果に応
じて作動する外部装置に出力する認識結果出力部２６と
から構成されている。なお、音声認識部２４は、必要語
辞書作成部１２及び不要語辞書作成部１４と同様、マイ
クロコンピュータの処理により実現される。

【００１７】次に、上記必要語辞書作成部１２，不要語
辞書作成部１４，及び音声認識部２４の動作を図３〜図
５に示すフローチャートに沿って説明する。まず図３
は、必要語辞書作成部１２において実行される必要語辞
書作成処理を表わすフローチャートである。

【００１８】図３に示す如く、この必要語辞書作成処理
が開始されると、必要語音声データ６に含まれる全て
（Ｎ個）の必要語を１個ずつ順に単語辞書１０に登録す
るために、まずステップ１００にて、必要語の数をカウ
ントするカウンタｎに初期値「１」を設定する初期化の
処理を実行する。

【００１９】そして続くステップ１１０では、必要語音
声データ６からカウンタｎの値に対応した必要語（ｎ）
の音声データを読み込み、次ステップ１２０にて、その
読み込んだ音声データをフレーム周期（例えば２０ｍse
c.）毎に音響分析し、音響的特徴量（例えばケプストラ
ム）を抽出する。

【００２０】なお、ステップ１１０の音声データの読み
込みは、必要語（ｎ）を構成する音声データがｍ個ある
場合には、ｍ個の音声データを全て読む込むことによっ
て実行される。また、このように必要語（ｎ）を構成す
る音声データがｍ個ある場合、ステップ１２０では、ｍ
個の音響的特徴量が求められることになる。

【００２１】次にステップ１３０では、上記ステップ１
２０で求めたｍ個の音響的特徴量を平均化して、必要語
（ｎ）全体の音響的特徴量である一つの平均特徴量を求
め、続くステップ１４０にて、この平均特徴量を必要語
（ｎ）の音響的特徴量として単語辞書１０の必要語
（ｎ）の項目に書込む。

【００２２】そして、続くステップ１５０では、カウン
タｎの値が登録すべき必要語の個数Ｎになっているか否
かを判断することにより、必要語音声データ６に含まれ
る全て（Ｎ個）の必要語について辞書作成が行われたか
否かを判断し、Ｎ個の必要語全てについて辞書作成が行
われていなければ、ステップ１６０にて、当該処理を、
必要語音声データ６中の次の必要語の辞書作成に移行す
べく、カウンタｎの値をインクリメントし、再度ステッ
プ１１０に移行する。また、ステップ１５０にて、Ｎ個
の必要語全てについて辞書作成が行われたと判断される
と、そのまま当該処理を終了する。

【００２３】このように、当該必要語辞書作成処理にお
いては、必要語音声データ６内の各必要語毎に平均特徴
量を求めて、単語辞書１０に登録する。このため、単語
辞書１０には、必要語の個数に応じたＮ個の辞書項目が
設定され、各必要語の辞書項目にその必要語全体を表わ
す音響的特徴量が格納されることとなる。

【００２４】次に、図４は不要語辞書作成部１４におい
て実行される不要語辞書作成処理を表わすフローチャー
トである。図４に示す如く、この不要語辞書作成処理が
開始されると、必要語音声データ６に含まれる全て（Ｎ
個）の必要語の音響分析を行うために、まずステップ２
００にて、必要語の数をカウントするカウンタｎに初期
値「１」を設定する初期化の処理を実行する。

【００２５】そして続くステップ２１０では、必要語音
声データ６からカウンタｎの値に対応した必要語（ｎ）
の音声データを読み込み、次ステップ２２０にて、その
読み込んだ音声データをフレーム周期（例えば２０ｍse
c.）毎に音響分析し、音響的特徴量（例えばケプストラ
ム）を抽出する。なお、このステップ２１０及びステッ
プ２２０の処理は、必要語辞書作成処理のステップ１１
０及びステップ１２０と同様に実行される。

【００２６】こうして、必要語（ｎ）の音響分析が終了
すると、今度はステップ２３０にて、カウンタｎの値が
必要語の個数Ｎになっているか否かを判断することによ
り、必要語音声データ６に含まれる全て（Ｎ個）の必要
語についての音響分析が終了したか否かを判断する。そ
して、Ｎ個の必要語全てについての音響分析が終了して
いなければ、ステップ２４０に移行して、必要語音声デ
ータ６中の次の必要語について音響分析を行うべく、カ
ウンタｎの値をインクリメントし、再度ステップ２１０
に移行する。

【００２７】一方、ステップ２３０にて、Ｎ個の必要語
全てについての音響分析が終了したと判断されると、今
度はステップ２５０に移行して、上記ステップ２２０を
繰返し実行することにより求められた全て（Ｎ個）の必
要語の音響的特徴量を平均化することにより、全必要語
を平均化した１つの平均特徴量を求める。そして続くス
テップ２６０にて、この平均特徴量を不要語の音響的特
徴量として、単語辞書１０の不要語の項目に書き込み、
当該処理を終了する。

【００２８】このように、当該不要語辞書作成処理にお
いては、全ての必要語の平均特徴量を不要語の音響的特
徴量として単語辞書１０に登録する。このため、単語辞
書１０は、必要語の個数Ｎに１を加えた「Ｎ＋１」個の
辞書項目を持つことになる。なお、不要語の音響的特徴
量として全ての必要語の平均特徴量を設定するのは、全
ての必要語の平均特徴量は分散が大きくなるため、入力
音声中の不要語の部分は必要語の特徴量よりも全ての必
要語の平均特徴量により近くなるからである。つまり、
本実施例では、全ての必要語の平均特徴量を不要語の音
響的特徴量として設定することにより、入力音声中の不
要語を一つの不要語辞書にて正確に認識できるようにし
ているのである。

【００２９】次に、図５は音声認識部２４において実行
される音声認識処理を表わすフローチャートである。図
５に示す如く、この音声認識処理が開始されると、まず
ステップ３００にて、音声入力部２２から入力された音
声データを、所定のフレーム周期（例えば２０ｍsec.）
毎に順次音響分析して音響的特徴量（例えばケプストラ
ム）を抽出する音響分析手段としての処理を実行すると
共に、この音響分析によって各フレーム毎に得られた音
響的特徴量の個数をフレーム長Ｆとして記憶する。

【００３０】このようにステップ３００にて、入力音声
を所定のフレーム周期で音響分析した音響的特徴量の時
系列データが得られると、今度はステップ３１０〜ステ
ップ４３０において、周知のＤＰマッチング法によっ
て、この時系列データをいくつかの区間に分けて、各区
間が単語辞書１０に格納されたどの単語に対応している
かを求める音声認識手段としての処理を実行する。

【００３１】即ち、入力音声の音響的特徴量がフレーム
毎に格納された時系列データを、フレーム単位で分割可
能な全ての区間に分けて、各区間毎に、その区間内のデ
ータ（音響的特徴量）と単語辞書１０に登録されている
必要語及び不要語の音響的特徴量との一致度（距離）を
算出し、その距離が最小となる区間毎に全フレームを区
切って、各区間に距離が最小となる単語を割り当てるこ
とにより、入力音声中の単語系列を求めるのである。

【００３２】以下、この処理を順に沿って説明する。図
５に示す如く、まずステップ３１０にて、以降の処理で
使用する変数Ｔ（１），Ｓ（１），Ｗ（１）に初期値
「０」を設定する初期化の処理を実行する。そして、続
くステップ３２０及び３３０にて、上記音響的特徴量の
時系列データの内、単語辞書１０に対する距離の算出対
象となる領域を表わす終点フレームｊ及び始点フレーム
ｉにそれぞれ初期値「１」を設定し、更に続くステップ
３４０にて、距離の算出に使用する単語辞書１０内の単
語の項目番号ｎに初期値「１」を設定する。

【００３３】次に、続くステップ３５０では、上記ステ
ップ３００にて得られた時系列データの中から、上記ス
テップ３２０，３３０にて初期設定されるか以降の処理
で更新された始点フレームｉから終点フレームｊまでの
音響的特徴量を読み込むと共に、単語辞書１０から項目
番号ｎの単語の音響的特徴量を読み込み、これら各特徴
量の一致度を表わす距離Ｄij（ｎ）を、先頭フレームか
ら始点フレームｉまでに算出された距離であるＴ（ｉ）
を初期値として算出する。

【００３４】そして続くステップ３６０では、単語辞書
１０の項目番号ｎが単語辞書１０に登録された単語の個
数「Ｎ＋１」と一致しているか否かを判断することによ
り、ｉフレームからｊフレームまでの音響的特徴量につ
いて、単語辞書１０に登録された全ての単語（つまりＮ
個の必要語と１個の不要語）との距離を計算したか否か
を判断し、ステップ３６０にて、単語辞書１０に登録さ
れた全ての単語との距離の計算が終了していないと判断
された場合には、ステップ３７０に移行し、上記ステッ
プ３５０にて次の項目番号（ｎ＋１）の単語との距離を
算出させるために、項目番号ｎの値をインクリメントし
て、再度ステップ３５０に移行する。

【００３５】一方、ステップ３６０にて、ｉフレームか
らｊフレームまでの音響的特徴量について、単語辞書１
０に登録された全ての単語との距離の計算が終了したと
判断されると、ステップ３８０に移行して、始点フレー
ムｉが終点フレームｊと一致しているか否かを判断する
ことにより、始点フレームｉを終点フレームｊまで１フ
レームずつずらして距離の計算を行ったか否かを判断す
る。そして、このステップ３８０にて、始点フレームｉ
が終点フレームｊと一致していないと判断された場合に
は、ステップ３９０に移行して、始点フレームｉを次の
フレーム（ｉ＋１）にずらして距離の計算を行うべく、
始点フレームｉの値をインクリメントして、再度ステッ
プ３４０に移行する。

【００３６】この結果、始点フレームｉが１フレーム分
ずれた領域にて、単語辞書１０に登録された項目番号１
の単語から項目番号「Ｎ＋１」の単語（つまり不要語）
までの全ての単語についての距離が再度算出されること
となり、この処理を繰り返すことにより、時系列データ
の先頭フレームから終点フレームｊまでの時系列データ
内にてフレーム単位で分割可能な全ての領域における入
力音声の音響的特徴量と単語辞書１０に登録された全て
の単語の組合せとの距離が算出されることとなる。

【００３７】また次に、ステップ３８０にて、始点フレ
ームｉが終点フレームｊと一致していると判断される
と、続くステップ４００にて、現在設定されている終点
フレームｊに対して上記ステップ３５０にて繰返し算出
された距離Ｄij（ｎ）の中から、その値が最小となる距
離「ｍｉｎＤij（ｎ）」を選択し、その距離の値を変数
Ｔ（ｊ）、その距離に対応した始点フレームｉの値を変
数Ｓ（ｊ）、その距離に対応した単語辞書１０の辞書項
目ｎを変数Ｗ（ｊ）、として記憶する。

【００３８】そして続くステップ４１０では、終点フレ
ームｊの値がフレーム長Ｆの値に一致したか否かを判断
することにより、終点フレームｊを初期値「１」から時
系列データの終了フレームＦまで１フレームずつずらし
て上記ステップ３３０〜４００までの処理を実行したか
否かを判断し、このステップ４１０にて、終点フレーム
ｊの値がフレーム長Ｆの値に一致していないと判断され
ると、ステップ４２０に移行して、終点フレームｊを１
フレームずらして上記ステップ３３０〜４００の処理を
実行すべく、終点フレームｊの値をインクリメントし、
再度ステップ３３０に移行する。

【００３９】この結果、終点フレームｊが１フレーム分
ずれた先頭フレームから終点フレームｊまでの時系列デ
ータ内にて、フレーム単位で分割可能な全ての領域にお
ける入力音声の音響的特徴量と単語辞書１０に登録され
た全ての単語の組合せとの距離が算出され、その距離が
最小となる区間が求められることとなり、この処理を繰
返し実行することにより、ステップ４００にて、終点フ
レーム「１」から終点フレーム「Ｆ」までの各領域にお
ける変数の配列Ｔ（１），Ｔ（２），…Ｔ（Ｆ）、Ｓ
（１），Ｓ（２），…Ｓ（Ｆ）、及びＷ（１），Ｗ
（２），…Ｗ（Ｆ）が設定されることとなる。

【００４０】そして、ステップ４００にて、変数Ｔ
（Ｆ）、Ｓ（Ｆ）、Ｗ（Ｆ）が求められた場合には、終
点フレームｊの値がフレーム長Ｆの値に対応しているこ
とから、ステップ４１０にて肯定判断されて、処理はス
テップ４３０に移行する。ステップ４３０では、上記ス
テップ４００にて順次求められた変数Ｓ（ｊ）と変数Ｗ
（ｊ）とをｊ＝Ｆの終了フレーム側から逆にたどること
により、単語辞書１０に登録されている単語との距離の
総和が最小となる単語系列を求める。

【００４１】つまり、変数Ｓ（ｊ）は、入力音声の時系
列データの第１フレームから第ｊフレームまでの領域に
おいて、単語辞書１０に登録されている単語との距離の
総和が最小となる組み合せの最後の区間を表わし、また
変数Ｗ（ｊ）はその区間の単語を表わしているため、Ｗ
（Ｆ）には最後の区間に対応する単語が記憶され、Ｓ
（Ｆ）には最後の区間の始点フレームが記憶されている
ことになる。このため、ステップ４００にて順次求めら
れた変数Ｓ（ｊ）と変数Ｗ（ｊ）とをｊ＝Ｆの終了フレ
ーム側から逆にたどることにより、変数Ｗ（Ｆ）に対応
した単語を最終の単語として設定し、変数Ｓ（Ｆ）が表
わす始点フレームより１つ前のフレームを終点フレーム
ｊとする変数Ｗ（ｊ）を見れば最後から２番目の単語が
分かるため、この単語を最後から２番目の区間の単語と
して設定し、更にこの最後から２番目の単語の始点フレ
ームを表わす変数Ｓ（ｊ）から更に一つ前の単語を見つ
けて設定する、といった手順で、入力音声の単語系列を
簡単に求めることができるのである。

【００４２】こうして、ステップ４３０にて、入力音声
の単語系列が求められると、ステップ４４０に移行し、
この単語系列の中から不要語として認識されている単語
を除去する不要語除去手段としての処理を実行する。つ
まり、単語辞書１０には、Ｎ個の必要語以外に１個の不
要語が登録されており、入力音声の時系列データ中、こ
の不要語の音響的特徴量に近似した区間は不要語として
認識されて、単語系列が設定されているので、この単語
系列から不要語と認識されている単語を除去することに
より、必要語のみの単語系列を生成するのである。この
結果、認識結果出力部２６からは、この必要語のみから
なる単語系列を表わすデータが出力されることとなる。

【００４３】以上説明したように、本実施例の音声認識
装置においては、単語辞書１０に、認識すべき単語であ
る必要語の音響的特徴量と共に、全ての必要語の音響的
特徴量を平均化した平均特徴量を不要語の音響的特徴量
として登録しておくことにより、音声認識時に、入力音
声中の不要語の領域が、その登録した不要語辞書を用い
て不要語として認識されるようにし、しかも音声認識終
了後は、その認識結果から、不要語として認識された単
語を除去することにより、必要語のみからなる単語系列
を出力するようにされている。

【００４４】このため、入力音声中に不要語が含まれて
いる場合に、従来のように、その不要語の領域を単語辞
書に登録されている何れかの必要語であると誤認識して
しまうといったことがなく、単語系列の認識精度を向上
することができ、外部装置に対して、使用者が発した正
確な単語系列を出力することができるようになる。

【００４５】ここで、本実施例の音声認識装置では、音
声認識をＤＰマッチング法により行うように構成した
が、例えばＨＭＭ（隠れマルコフモデル）を使用して音
声認識を行うようにしてもよい。なお、この場合、単語
辞書作成時には、図３及び図４におけるステップ１３０
及びステップ２５０にて必要語及び不要語の音響的特徴
量を求める際に、フレーム周期毎に音響分析して得られ
た音響的特徴量（例えばケプストラム）の平均特徴量を
求める代わりに、Forward-Backwardアルゴリズム等を用
いてＨＭＭのパラメータを推定し、ステップ１４０及び
ステップ２６０にて、その求められたＨＭＭのパラメー
タを、必要語及び不要語の音響的特徴量として単語辞書
１０に登録するようにすればよく、また音声認識時に
は、図５におけるステップ３５０にて、始点フレームｉ
から終点フレームｊまでの音響的特徴量の時系列データ
と単語辞書項目ｎの音響的特徴量との距離Ｄij（ｎ）を
計算する代わりに、単語辞書項目ｎのパラメータを持つ
モデルに基づいて、始点フレームｉから終点フレームｊ
までの音響的特徴量の時系列データの尤度を計算し、ス
テップ４００にて、距離Ｄij（ｎ）が最小となる区間の
始点フレームｉ及び辞書項目ｎを求める代りに、尤度が
最大となる区間の始点フレームｉ及び辞書項目ｎを求め
るようにすればよい。

【００４６】

【発明の効果】以上説明したように、本発明の連続単語
音声認識装置においては、単語辞書として、認識すべき
単語の音響的特徴量だけでなく、音声認識する必要のな
い不要語の音響的特徴量をも登録しておき、音声認識時
には、入力音声に含まれる不要語も一つの単語として認
識し、音声認識終了後は、その認識結果から、不要語と
して認識された単語を除去することにより、必要語のみ
からなる単語系列を出力するようにされている。

【００４７】このため、本発明によれば、入力音声中に
不要語が含まれている場合に、従来のように、その不要
語を認識すべき単語であると誤認識してしまうといった
ことがなく、単語系列の認識精度を向上することがで
き、外部装置に対して、使用者が発した正確な単語系列
を出力することができるようになる。

【図面の簡単な説明】

【図１】本発明の構成を例示するブロック図である。

【図２】実施例の音声認識装置の構成を表わすブロック
図である。

【図３】実施例の必要語辞書作成部において実行される
必要語辞書作成処理を表わすフローチャートである。

【図４】実施例の不要語辞書作成部において実行される
不要語辞書作成処理を表わすフローチャートである。

【図５】実施例の音声認識部において実行される音声認
識処理を表わすフローチャートである。

【符号の説明】

２…辞書作成部４…認識部６…必要語音声デー
タ１０…単語辞書１２…必要語辞書作成部１４…
不要語辞書作成部２２…音声入力部２４…音声認識部２６…認識
結果出力部

Claims

【特許請求の範囲】

【請求項１】認識すべき複数の単語の音響的特徴量
が、各単語毎に予め格納された単語辞書記憶手段と、外部からの入力音声を所定周期で分析して音響的特徴量
を順次抽出する音響分析手段と、該音響分析手段にて順次抽出された音響的特徴量の時系
列データを、上記単語辞書記憶手段に格納された音響的
特徴量に最も近似したデータ列毎に区分し、各データ列
毎に、対応する音響的特徴量が表わす単語を割り当て、
上記入力音声の単語系列を認識する音声認識手段と、該音声認識手段により認識された単語系列を外部装置に
出力する出力手段と、を備えた連続単語音声認識装置において、上記単語辞書記憶手段に、上記各単語の音響的特徴量に
加えて、音声認識を必要としない不要語の音響的特徴量
を、上記音声認識手段にて認識すべき単語の音響的特徴
量として格納しておき、更に、上記音声認識手段により認識された単語系列の中
から、上記不要語として認識された単語を除去して、上
記出力手段に出力する不要語除去手段を設けたことを特
徴とする連続単語音声認識装置。
【請求項２】上記不要語の音響的特徴量が、上記認識
すべき各単語の音響的特徴量を平均化したものであるこ
とを特徴とする請求項１に記載の連続単語音声認識装
置。