JP3457578B2

JP3457578B2 - 音声合成を用いた音声認識装置および音声認識方法

Info

Publication number: JP3457578B2
Application number: JP18030899A
Authority: JP
Inventors: 靖子加藤
Original assignee: NEC Electronics Corp
Current assignee: NEC Electronics Corp
Priority date: 1999-06-25
Filing date: 1999-06-25
Publication date: 2003-10-20
Anticipated expiration: 2019-06-25
Also published as: JP2001013983A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成を用いた
音声認識装置および音声認識方法に関する。

【０００２】

【従来の技術】従来の音素単位のマッチングによる音声
認識装置を図６を参照して説明する。

【０００３】図６において、「認識辞書作成部」は認識
対象となる「登録単語文字列」から認識処理時に必要な
情報を取り出して「認識単語辞書」を作成する。

【０００４】「入力音声分析部」は話者がマイクから入
力した音声の「特徴パターン」を抽出する。「認識マッ
チング部」は上記作成された「認識単語辞書」および
「標準パターン」を用いて音素単位のマッチングによる
認識処理を行い、「認識結果」である認識結果候補を出
力する。

【０００５】しかしながら、従来の音素単位のマッチン
グによる音声認識装置においては、次のような課題があ
る。すなわち、単語を登録する際に音響的によく似た単
語が登録されている場合、それらを構成する音素に共通
するものが多くなってしまう。そのため、マッチング
処理で用いるマルコフモデルパターンが類似したものに
なり、認識時に両単語の識別が困難となる。

【０００６】よって誤認識する割合が増加したり、認識
結果の確度を高めるために、発話者に再度発声を求める
必要が生じたりする。

【０００７】この従来例を改良した技術の一例として特
開平9-6387号公報がある。

【０００８】この従来例は、類似単語同士の識別能力が
優れた音声認識装置を提供することを目的とした装置で
ある。図７に示すように、音声入力手段であるマイクに
より入力された音声から「単語音声切り出し部」が単語
音声を切り出し、「特徴抽出部」において特徴データを
抽出する。

【０００９】「状態数推定部」は、特徴データからマル
コフモデルによりモデル化する際の単語音声に対する状
態数を推定する。「類似単語判定部」は、新たに登録し
ようとする単語音声と類似した単語が既に登録されてい
ないか判定する。

【００１０】「状態数加算部」は、推定した状態数を増
やし、「学習部」では、特徴データを単語モデルに当て
はめてマルコフモデルパラメータを求める。

【００１１】「照合判定部」は、各単語モデルに対して
尤度計算を行い、認識候補を判定し、「判定結果出力
部」から認識結果を出力する。「照合判定部」では、マ
ッチング処理の際、学習したマルコフモデルパラメータ
からなる「音声辞書ファイル」を用いる。

【００１２】

【発明が解決しようとする課題】しかしながら、前述の
改良を行った音声認識装置においては、次のような課題
がある。

【００１３】類似単語の登録時には発声音声を元にマル
コフモデルパラメータを学習する必要があるため、認識
対象単語の登録処理が容易でない。

【００１４】また、発声による登録が必要となるため、
不特定話者の認識率を向上させるためには多数の話者に
よる発声音声を収集する必要が生じてしまう。

【００１５】本発明の目的は、類似単語間の差を拡大
し、類似した単語が認識対象として登録された場合に、
認識誤りを減少できる音声認識装置及び方法を提供する
ことにある。

【００１６】

【課題を解決するための手段】本発明の音声認識装置
は、構成音素が類似した単語が格納される類似単語辞書
部と、通常の認識処理に使用する認識単語が格納される
認識単語辞書部と、前記類似単語辞書部のデータから形
成される合成音声のそれぞれの特徴パターンを格納する
合成音声特徴パターン部と、音声入力手段と、前記音声
入力手段により入力された入力音声の特徴パターンを形
成する入力音声分析部と、前記入力音声の特徴パターン
と前記認識単語辞書のデータから認識結果候補を出力す
る認識マッチング部と、前記認識結果候補に類似単語が
存在するかどうかを判定する判定手段と、前記判定結果
が類似単語が存在すると判定したとき前記入力音声の特
徴パターンと前記類似単語辞書部に格納されている類似
単語毎のマッチング処理を行い第１の類似単語認識結果
を出力する第１の類似単語マッチング部と、前記判定結
果が類似単語が存在すると判定したとき前記入力音声の
特徴パターンと前記合成音声特徴パターンのデータとの
マッチング処理を行い前記類似単語毎に第２の類似単語
認識結果を出力する第２の類似単語マッチング部と、前
記第１の類似単語認識結果及び第２の類似単語認識結果
を比較して確度の高い単語を認識結果として出力する類
似単語認識結果比較部とを有することを特徴とする。

【００１７】本発明の音声認識方法は、構成音素が類似
した単語を類似単語辞書部に格納するステップと、通常
の認識処理に使用する認識単語を認識単語辞書部に格納
するステップと、前記類似単語辞書部のデータから形成
される合成音声のそれぞれの特徴パターンを合成音声特
徴パターン部に格納するステップと、音声入力ステップ
と、前記音声入力ステップにより入力された入力音声の
特徴パターンを形成する入力音声分析ステップと、前記
入力音声の特徴パターンと前記認識単語辞書のデータか
ら認識結果候補を出力する認識マッチングステップと、
前記認識結果候補に類似単語が存在するかどうかを判定
する判定ステップと、前記判定結果が類似単語が存在す
ると判定したとき前記入力音声特徴パターンと前記類似
単語辞書部に格納されている類似単語毎のマッチング処
理を行い第１の類似単語認識結果を出力する第１の類似
単語マッチングステップと、前記判定結果が類似単語が
存在すると判定したとき前記入力音声の特徴パターンと
前記合成音声特徴パターンのデータとのマッチング処理
を行い類似単語毎に第２の類似単語認識結果を出力する
第２の類似単語マッチングステップと、前記第１の類似
単語認識結果及び第２の類似単語認識結果を比較して確
度の高い単語を認識結果として出力する類似単語認識結
果比較ステップとを有することを特徴とする。

【００１８】

【発明の実施の形態】次に、本発明の第１の実施例を図
面を参照して説明する。

【００１９】図１において、「認識辞書作成部」は、認
識対象として入力される登録単語文字列から、認識処理
時に必要となる情報を抽出して認識単語辞書２を作成
し、同時に構成音素が類似した単語を抽出して類似単語
辞書１を作成する。

【００２０】「警告出力部」は、抽出された類似単語を
発話者に提示し、発声時の注意を促す。

【００２１】「入力音声分析部」は、マイクから入力さ
れた音声からその特徴パターンを抽出する。

【００２２】「認識マッチング部３」は、予め音素毎に
学習された標準パターンと認識単語辞書と前述の特徴パ
ターンを元にマッチング処理を行い、入力された音声に
対して最も類似度の高い単語を認識結果候補として出力
する。

【００２３】「認識結果候補判定部」では、出力された
認識結果候補に類似単語が含まれ、かつ、それら候補間
の認識尤度の差が小さいものについて行われる、より詳
細な情報を得るための認識処理を行うかどうかを判定す
る。認識結果候補に類似単語が含まれない、または、候
補間の認識尤度が大きい、つまり、第一位候補が発声し
た単語である確率が高い場合は、次の認識処理を行わ
ず、それを認識結果として出力する。

【００２４】「合成音声出力部」は、入力される類似単
語のテキストから合成音声波形を出力する。

【００２５】「合成音声分析部」は、合成音声波形から
その特徴パターンを抽出する。

【００２６】「類似単語認識マッチング部１」は、入力
された音声の特徴パターンを元に類似単語を対象として
マッチング処理を行い、類似単語認識結果１を出力す
る。

【００２７】「類似単語認識マッチング部２」は、合成
音声から抽出された特徴パターンを元に類似単語を対象
としてマッチング処理を行い、類似単語認識結果２を出
力する。

【００２８】「類似単語認識結果比較部」は、類似単語
認識結果１と類似単語認識結果２を元に最終的な認識結
果を判定して出力する。

【００２９】このようにして、本願発明では、合成音声
波形を入力とする音声認識処理より出力される認識結果
と、認識対象単語より抽出した類似単語を対象とした音
声認識処理より出力される認識結果とをあわせて認識結
果判定を行うので、構成音素が類似した認識対象単語に
おける認識性能を向上することができる。

【００３０】図１を参照すると、本発明の一実施例とし
ての音声認識装置が示されている。図において、本実施
例は、認識辞書作成部と警告出力部と入力音声分析部と
認識マッチング部と認識結果候補判定部と合成音声出力
部と合成音声分析部と類似単語認識マッチング部１と類
似単語認識マッチング部２と類似単語認識結果比較部と
を含む。

【００３１】図１を参照して構成について詳細を説明す
る。

【００３２】図１の認識辞書作成部における動作を図２
に示すフローチャートを使用して説明する。

【００３３】まず、入力された登録単語文字列をそれぞ
れ単語を構成する音素列に変換する(STEP10)。

【００３４】次に、変換された音素列を元に、登録され
た単語群の中から構成音素が類似した単語を検出する(S
TEP11)。このとき、例えば単語間で一致する構成音素列
の単語全体に対する割合を示す値に閾値を設けることな
どにより、類似であるか否かの判定を行うことができ
る。

【００３５】次に、STEP11で類似単語が検出されたかど
うかを判定し、検出されていればSTEP13へ、検出されて
いなければSTEP14へ進む(STEP12)。

【００３６】STEP13では、検出された類似単語から類似
単語辞書を作成する。類似単語辞書に格納される情報と
しては、単語を構成する音素列の他に例えば類似単語を
構成する各音素に対するガウス分布を示す混合数を通常
の認識処理における値より拡張したものや類似単語の表
記（発声時のアクセント情報がわかるもの）などがあ
る。

【００３７】STEP14では、通常の認識処理時に使用する
認識単語辞書を作成する。例えば単語を構成する音素列
情報を認識単語辞書として格納する。

【００３８】次に、図１のマイクから音声を入力し、認
識結果候補を判定するまでの処理における動作を図３に
示すフローチャートを使用して説明する。

【００３９】まず、認識対象となる単語から類似単語が
検出されたかどうか判定し(STEP20)、検出されていれば
STEP21へ、検出されていなければSTEP22へ進む。

【００４０】STEP21では、警告出力部より類似単語一覧
を発話者に提示し発声時の注意を促す。

【００４１】STEP22では、マイクから入力された音声の
分析処理を行い、特徴パターンを出力する。

【００４２】このとき、共立出版株式会社、今井聖著
「音声認識」（以下文献１とする）に記載されているメ
ルケプストラム分析を行うことで特徴パターンを得るこ
とができる。

【００４３】次に、得られた特徴パターンと標準パター
ン間のマッチング処理を行う(STEP23)。例えば文献１に
記載されているＤＰマッチング法およびＨＭＭを用いた
方法により特徴パターンと標準パターン間の距離を計算
し、認識対象となる各単語の累積距離を算出することが
できる。

【００４４】認識対象単語の中からSTEP23で得られた処
理尤度の高い単語を認識結果候補として出力する(STEP2
4)。

【００４５】次に、出力された認識結果候補の中に類似
単語として検出されたものが含まれているか判定する(S
TEP25)。含まれていればSTEP26へ、含まれていなければ
STEP31へ進む。

【００４６】STEP26では、認識結果候補中に含まれた類
似単語の尤度から認識結果候補の確度を判定する。判定
の基準には、例えば類似単語候補間の尤度差を用いるこ
とができる。また、判定時に用いる尤度差の閾値は、例
えば、システムを評価することにより予め決定しておく
ことができる。

【００４７】次に、認識結果候補の確度により類似単語
認識処理を行うかどうか判定する(STEP27)。行う場合は
STEP28へ、行わない場合はSTEP31へ進む。

【００４８】STEP28では、類似単語認識処理１を行う。
ここでの処理の詳細については、別途図４を用いて説明
する。

【００４９】STEP29では、類似単語認識処理２を行う。
ここでの処理の詳細については、別途図５を用いて説明
する。

【００５０】STEP30では、STEP28およびSTEP29で得られ
た双方の類似単語認識結果を比較検討して確度が高いと
判断された単語を最終的な認識結果として出力する。

【００５１】次に、図４を参照すると、本発明の一実施
例における類似単語認識マッチング処理１のフローチャ
ートが示されている。

【００５２】まず、図３におけるSTEP22で得られる特徴
パターンを入力とし、類似単語でのマッチング処理を行
う(STEP100)。この時、図２におけるSTEP13において追
加された、類似単語の構成音素に対するガウス分布を示
す混合数でもってマッチング処理を行うことにより、よ
り確度の高い結果を得ることができる。

【００５３】次に、各類似単語毎の認識結果を類似単語
認識結果１として出力する(STEP101)。

【００５４】次に、図５を参照すると、本発明の一実施
例における類似単語認識マッチング処理２のフローチャ
ートが示されている。

【００５５】まず、類似単語文字列を音声合成処理への
入力とし、それぞれの合成音声を出力する(STEP200)。
ここで単語文字列から合成音声を出力する方法としては
例えば啓学出版、新居康彦・大崎正巳著、「音声処理と
ＤＳＰ」（以下文献２とする）に記載されている、テキ
ストを構文解析した後、得られた音素の素片編集を行う
といった方法がある。

【００５６】次に、出力された合成音声の分析処理を行
いそれぞれの特徴パターンを出力する(STEP201)。この
時の分析処理は図３におけるSTEP22と同様の処理を行え
ばよい。

【００５７】次に、STEP201で得られた合成音声の特徴
パターンと図３におけるSTEP22で得られた入力音声の特
徴パターン間のマッチング処理を行い、それらの距離値
を求める(STEP202)。

【００５８】次に、STEP202で得られた各類似単語に対
する合成音声と発声音声間の距離値を類似単語認識結果
２としてそれぞれ出力する(STEP203)。

【００５９】本発明の他の実施例として、その基本的構
成は上記の通りであるが、「類似単語認識マッチング部
１」と「類似単語認識マッチング部２」をひとつにまと
め、「類似単語認識マッチング部」としてもよい。

【００６０】この場合、「入力音声分析部」では、類似
単語が検出されている時には特徴パターンの他にパラメ
ータ数を拡張した拡張特徴パターンを抽出する。パラメ
ータ数の拡張は、例えば、図３におけるSTEP22の処理で
抽出されるメルケプストラムの次元数を増加させるなど
の手法が挙げられる。また、「合成音声分析部」でも同
様に、入力される合成音声波形に対する拡張特徴パター
ンを抽出する。「類似単語認識マッチング部」では、入
力された音声の拡張特徴パターンと合成音声波形に対す
る拡張特徴パターン間のマッチング処理を行って距離値
を求め、「類似単語認識結果比較部」でそれらの類似度
によって認識結果を判定する。ここでのマッチング処理
は、通常のマッチング処理と同様に文献１に記載されて
いるＤＰマッチング法およびＨＭＭを用いる方法で行え
ばよい。

【００６１】また、その他の実施例として、その基本的
構成は前述の通りであるが、類似単語辞書として格納さ
れる情報の内、類似単語のアクセント情報を得るための
手段として、前述した実施例中で用いた単語の表記でな
く、単語のかなとアクセント情報を組み合わせたものを
用いてもよい。この場合、合成音声出力部では、表記を
解析して出力する音声波形に対応する発音情報に変換す
る処理を省くことができる。

【００６２】

【発明の効果】本発明によれば、以上説明したように、
本発明においては、以下に記載するような効果を奏す
る。

【００６３】第１の効果は、認識対象単語から音素列の
類似した単語を抜き出し、それらについてより詳細な特
徴パターンを用いてマッチング処理を行うことにより、
類似単語間の差を拡大し、類似した単語が認識対象とし
て登録された場合に、それらの発話に対する認識誤りを
減少させることである。

【００６４】第２の効果は、一定のパターンで音声を出
力できる音声合成を用いることによって一意に決まる特
徴パターンを自動的に作成することができ、特に音声認
識機能と音声合成機能とを搭載したシステムにおいて
は、特徴パラメータを拡張する場合に新規学習を行う必
要がなく、また、拡張された特徴パラメータを格納する
領域を必要としないことである。

【００６５】第３の効果は、予め抜き出した音素列の類
似した単語を話者に明示することにより、発話時に丁寧
に発話することを促すことができることである。保
持不良に関しては訂正回路で一旦訂正後、直ちに対象と
な

【図面の簡単な説明】

【図１】本発明の第１の実施例を示すシステムの図であ
る。

【図２】図１に示す認識単語辞書作成のフローを示す図
である。

【図３】図１に示す認識結果出力までのフローを示す図
である。

【図４】図１に示す類似単語認識処理のフローを示す図
である。

【図５】図１に示す類似単語認識処理２をフローを示す
図である。

【図６】第１の従来例を示す図である。

【図７】第２の従来例を示す図である。

【符号の説明】

１類似単語辞書２認識単語辞書３認識マッチング部４類似単語認識マッチング部１５類似単語認識マッチング部２６類似単語認識結果比較部

フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/06 G10L 15/22

Claims

(57)【特許請求の範囲】

【請求項１】構成音素が類似した単語が格納される類
似単語辞書部と、通常の認識処理に使用する認識単語が
格納される認識単語辞書部と、前記類似単語辞書部のデ
ータから形成される合成音声のそれぞれの特徴パターン
を格納する合成音声特徴パターン部と、音声入力手段
と、前記音声入力手段により入力された入力音声の特徴
パターンを形成する入力音声分析部と、前記入力音声の
特徴パターンと前記認識単語辞書のデータから認識結果
候補を出力する認識マッチング部と、前記認識結果候補
に類似単語が存在するかどうかを判定する判定手段と、
前記判定結果が類似単語が存在すると判定したとき前記
入力音声の特徴パターンと前記類似単語辞書部に格納さ
れている類似単語毎のマッチング処理を行い第１の類似
単語認識結果を出力する第１の類似単語マッチング部
と、前記判定結果が類似単語が存在すると判定したとき
前記入力音声の特徴パターンと前記合成音声特徴パター
ンのデータとのマッチング処理を行い前記類似単語毎に
第２の類似単語認識結果を出力する第２の類似単語マッ
チング部と、前記第１の類似単語認識結果及び第２の類
似単語認識結果を比較して確度の高い単語を認識結果と
して出力する類似単語認識結果比較部とを有することを
特徴とする音声合成を用いた音声認識装置。
【請求項２】前記類似単語が検出された時に発生時の
注意を発生する警告出力部を有する請求項１記載の音声
合成を用いた音声認識装置。
【請求項３】前記類似単語辞書部は入力された登録単
語文字列をそれぞれ単語を構成する音素列に変換し構成
音素が類似した単語を類似単語として格納することを特
徴とする請求項１記載の音声合成を用いた音声認識装
置。
【請求項４】構成音素が類似した単語を類似単語辞書
部に格納するステップと、通常の認識処理に使用する認
識単語を認識単語辞書部に格納するステップと、前記類
似単語辞書部のデータから形成される合成音声のそれぞ
れの特徴パターンを合成音声特徴パターン部に格納する
ステップと、音声入力ステップと、前記音声入力ステッ
プにより入力された入力音声の特徴パターンを形成する
入力音声分析ステップと、前記入力音声の特徴パターン
と前記認識単語辞書のデータから認識結果候補を出力す
る認識マッチングステップと、前記認識結果候補に類似
単語が存在するかどうかを判定する判定ステップと、前
記判定結果が類似単語が存在すると判定したとき前記入
力音声特徴パターンと前記類似単語辞書部に格納されて
いる類似単語毎のマッチング処理を行い第１の類似単語
認識結果を出力する第１の類似単語マッチングステップ
と、前記判定結果が類似単語が存在すると判定したとき
前記入力音声の特徴パターンと前記合成音声特徴パター
ンのデータとのマッチング処理を行い類似単語毎に第２
の類似単語認識結果を出力する第２の類似単語マッチン
グステップと、前記第１の類似単語認識結果及び第２の
類似単語認識結果を比較して確度の高い単語を認識結果
として出力する類似単語認識結果比較ステップとを有す
ることを特徴とする音声認識方法。
【請求項５】前記類似単語が検出された時に発生時の
注意を発生する警告出力ステップを有する請求項４記載
の音声認識方法。
【請求項６】前記類似単語辞書部は入力された登録単
語文字列をそれぞれ単語を構成する音素列に変換し構成
音素が類似した単語を類似単語として格納することを特
徴とする請求項４記載の音声認識方法。