JP3457578B2 - 音声合成を用いた音声認識装置および音声認識方法 - Google Patents
音声合成を用いた音声認識装置および音声認識方法Info
- Publication number
- JP3457578B2 JP3457578B2 JP18030899A JP18030899A JP3457578B2 JP 3457578 B2 JP3457578 B2 JP 3457578B2 JP 18030899 A JP18030899 A JP 18030899A JP 18030899 A JP18030899 A JP 18030899A JP 3457578 B2 JP3457578 B2 JP 3457578B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- word
- similar word
- similar
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
音声認識装置および音声認識方法に関する。
認識装置を図6を参照して説明する。
対象となる「登録単語文字列」から認識処理時に必要な
情報を取り出して「認識単語辞書」を作成する。
力した音声の「特徴パターン」を抽出する。「認識マッ
チング部」は上記作成された「認識単語辞書」および
「標準パターン」を用いて音素単位のマッチングによる
認識処理を行い、「認識結果」である認識結果候補を出
力する。
グによる音声認識装置においては、次のような課題があ
る。すなわち、単語を登録する際に音響的によく似た単
語が登録されている場合、それらを構成する音素に共通
するものが多くなってしまう。 そのため、マッチング
処理で用いるマルコフモデルパターンが類似したものに
なり、認識時に両単語の識別が困難となる。
結果の確度を高めるために、発話者に再度発声を求める
必要が生じたりする。
開平9-6387号公報がある。
優れた音声認識装置を提供することを目的とした装置で
ある。図7に示すように、音声入力手段であるマイクに
より入力された音声から「単語音声切り出し部」が単語
音声を切り出し、「特徴抽出部」において特徴データを
抽出する。
コフモデルによりモデル化する際の単語音声に対する状
態数を推定する。「類似単語判定部」は、新たに登録し
ようとする単語音声と類似した単語が既に登録されてい
ないか判定する。
やし、「学習部」では、特徴データを単語モデルに当て
はめてマルコフモデルパラメータを求める。
尤度計算を行い、認識候補を判定し、 「判定結果出力
部」から認識結果を出力する。「照合判定部」では、マ
ッチング処理の際、学習したマルコフモデルパラメータ
からなる「音声辞書ファイル」を用いる。
改良を行った音声認識装置においては、次のような課題
がある。
コフモデルパラメータを学習する必要があるため、認識
対象単語の登録処理が容易でない。
不特定話者の認識率を向上させるためには多数の話者に
よる発声音声を収集する必要が生じてしまう。
し、類似した単語が認識対象として登録された場合に、
認識誤りを減少できる音声認識装置及び方法を提供する
ことにある。
は、構成音素が類似した単語が格納される類似単語辞書
部と、通常の認識処理に使用する認識単語が格納される
認識単語辞書部と、前記類似単語辞書部のデータから形
成される合成音声のそれぞれの特徴パターンを格納する
合成音声特徴パターン部と、音声入力手段と、前記音声
入力手段により入力された入力音声の特徴パターンを形
成する入力音声分析部と、前記入力音声の特徴パターン
と前記認識単語辞書のデータから認識結果候補を出力す
る認識マッチング部と、前記認識結果候補に類似単語が
存在するかどうかを判定する判定手段と、前記判定結果
が類似単語が存在すると判定したとき前記入力音声の特
徴パターンと前記類似単語辞書部に格納されている類似
単語毎のマッチング処理を行い第1の類似単語認識結果
を出力する第1の類似単語マッチング部と、前記判定結
果が類似単語が存在すると判定したとき前記入力音声の
特徴パターンと前記合成音声特徴パターンのデータとの
マッチング処理を行い前記類似単語毎に第2の類似単語
認識結果を出力する第2の類似単語マッチング部と、前
記第1の類似単語認識結果及び第2の類似単語認識結果
を比較して確度の高い単語を認識結果として出力する類
似単語認識結果比較部とを有することを特徴とする。
した単語を類似単語辞書部に格納するステップと、通常
の認識処理に使用する認識単語を認識単語辞書部に格納
するステップと、前記類似単語辞書部のデータから形成
される合成音声のそれぞれの特徴パターンを合成音声特
徴パターン部に格納するステップと、音声入力ステップ
と、前記音声入力ステップにより入力された入力音声の
特徴パターンを形成する入力音声分析ステップと、前記
入力音声の特徴パターンと前記認識単語辞書のデータか
ら認識結果候補を出力する認識マッチングステップと、
前記認識結果候補に類似単語が存在するかどうかを判定
する判定ステップと、前記判定結果が類似単語が存在す
ると判定したとき前記入力音声特徴パターンと前記類似
単語辞書部に格納されている類似単語毎のマッチング処
理を行い第1の類似単語認識結果を出力する第1の類似
単語マッチングステップと、前記判定結果が類似単語が
存在すると判定したとき前記入力音声の特徴パターンと
前記合成音声特徴パターンのデータとのマッチング処理
を行い類似単語毎に第2の類似単語認識結果を出力する
第2の類似単語マッチングステップと、前記第1の類似
単語認識結果及び第2の類似単語認識結果を比較して確
度の高い単語を認識結果として出力する類似単語認識結
果比較ステップとを有することを特徴とする。
面を参照して説明する。
識対象として入力される登録単語文字列から、認識処理
時に必要となる情報を抽出して認識単語辞書2を作成
し、同時に構成音素が類似した単語を抽出して類似単語
辞書1を作成する。
発話者に提示し、発声時の注意を促す。
れた音声からその特徴パターンを抽出する。
学習された標準パターンと認識単語辞書と前述の特徴パ
ターンを元にマッチング処理を行い、入力された音声に
対して最も類似度の高い単語を認識結果候補として出力
する。
認識結果候補に類似単語が含まれ、かつ、それら候補間
の認識尤度の差が小さいものについて行われる、より詳
細な情報を得るための認識処理を行うかどうかを判定す
る。認識結果候補に類似単語が含まれない、または、候
補間の認識尤度が大きい、つまり、第一位候補が発声し
た単語である確率が高い場合は、次の認識処理を行わ
ず、それを認識結果として出力する。
語のテキストから合成音声波形を出力する。
その特徴パターンを抽出する。
された音声の特徴パターンを元に類似単語を対象として
マッチング処理を行い、類似単語認識結果1を出力す
る。
音声から抽出された特徴パターンを元に類似単語を対象
としてマッチング処理を行い、類似単語認識結果2を出
力する。
認識結果1と類似単語認識結果2を元に最終的な認識結
果を判定して出力する。
波形を入力とする音声認識処理より出力される認識結果
と、認識対象単語より抽出した類似単語を対象とした音
声認識処理より出力される認識結果とをあわせて認識結
果判定を行うので、構成音素が類似した認識対象単語に
おける認識性能を向上することができる。
ての音声認識装置が示されている。図において、本実施
例は、認識辞書作成部と警告出力部と入力音声分析部と
認識マッチング部と認識結果候補判定部と合成音声出力
部と合成音声分析部と類似単語認識マッチング部1と類
似単語認識マッチング部2と類似単語認識結果比較部と
を含む。
る。
に示すフローチャートを使用して説明する。
れ単語を構成する音素列に変換する(STEP10)。
た単語群の中から構成音素が類似した単語を検出する(S
TEP11)。このとき、例えば単語間で一致する構成音素列
の単語全体に対する割合を示す値に閾値を設けることな
どにより、類似であるか否かの判定を行うことができ
る。
うかを判定し、検出されていればSTEP13へ、検出されて
いなければSTEP14へ進む(STEP12)。
単語辞書を作成する。類似単語辞書に格納される情報と
しては、単語を構成する音素列の他に例えば類似単語を
構成する各音素に対するガウス分布を示す混合数を通常
の認識処理における値より拡張したものや類似単語の表
記(発声時のアクセント情報がわかるもの)などがあ
る。
認識単語辞書を作成する。例えば単語を構成する音素列
情報を認識単語辞書として格納する。
識結果候補を判定するまでの処理における動作を図3に
示すフローチャートを使用して説明する。
検出されたかどうか判定し(STEP20)、検出されていれば
STEP21へ、検出されていなければSTEP22へ進む。
を発話者に提示し発声時の注意を促す。
分析処理を行い、特徴パターンを出力する。
「音声認識」(以下文献1とする)に記載されているメ
ルケプストラム分析を行うことで特徴パターンを得るこ
とができる。
ン間のマッチング処理を行う(STEP23)。例えば文献1に
記載されているDPマッチング法およびHMMを用いた
方法により特徴パターンと標準パターン間の距離を計算
し、認識対象となる各単語の累積距離を算出することが
できる。
理尤度の高い単語を認識結果候補として出力する(STEP2
4)。
単語として検出されたものが含まれているか判定する(S
TEP25)。含まれていればSTEP26へ、含まれていなければ
STEP31へ進む。
似単語の尤度から認識結果候補の確度を判定する。判定
の基準には、例えば類似単語候補間の尤度差を用いるこ
とができる。また、判定時に用いる尤度差の閾値は、例
えば、システムを評価することにより予め決定しておく
ことができる。
認識処理を行うかどうか判定する(STEP27)。行う場合は
STEP28へ、行わない場合はSTEP31へ進む。
ここでの処理の詳細については、別途図4を用いて説明
する。
ここでの処理の詳細については、別途図5を用いて説明
する。
た双方の類似単語認識結果を比較検討して確度が高いと
判断された単語を最終的な認識結果として出力する。
例における類似単語認識マッチング処理1のフローチャ
ートが示されている。
パターンを入力とし、類似単語でのマッチング処理を行
う(STEP100)。この時、図2におけるSTEP13において追
加された、類似単語の構成音素に対するガウス分布を示
す混合数でもってマッチング処理を行うことにより、よ
り確度の高い結果を得ることができる。
認識結果1として出力する(STEP101)。
例における類似単語認識マッチング処理2のフローチャ
ートが示されている。
入力とし、それぞれの合成音声を出力する(STEP200)。
ここで単語文字列から合成音声を出力する方法としては
例えば啓学出版、新居康彦・大崎正巳著、「音声処理と
DSP」(以下文献2とする)に記載されている、テキ
ストを構文解析した後、得られた音素の素片編集を行う
といった方法がある。
いそれぞれの特徴パターンを出力する(STEP201)。この
時の分析処理は図3におけるSTEP22と同様の処理を行え
ばよい。
パターンと図3におけるSTEP22で得られた入力音声の特
徴パターン間のマッチング処理を行い、それらの距離値
を求める(STEP202)。
する合成音声と発声音声間の距離値を類似単語認識結果
2としてそれぞれ出力する(STEP203)。
成は上記の通りであるが、「類似単語認識マッチング部
1」と「類似単語認識マッチング部2」をひとつにまと
め、「類似単語認識マッチング部」としてもよい。
単語が検出されている時には特徴パターンの他にパラメ
ータ数を拡張した拡張特徴パターンを抽出する。パラメ
ータ数の拡張は、例えば、図3におけるSTEP22の処理で
抽出されるメルケプストラムの次元数を増加させるなど
の手法が挙げられる。また、「合成音声分析部」でも同
様に、入力される合成音声波形に対する拡張特徴パター
ンを抽出する。「類似単語認識マッチング部」では、入
力された音声の拡張特徴パターンと合成音声波形に対す
る拡張特徴パターン間のマッチング処理を行って距離値
を求め、「類似単語認識結果比較部」でそれらの類似度
によって認識結果を判定する。ここでのマッチング処理
は、通常のマッチング処理と同様に文献1に記載されて
いるDPマッチング法およびHMMを用いる方法で行え
ばよい。
構成は前述の通りであるが、類似単語辞書として格納さ
れる情報の内、類似単語のアクセント情報を得るための
手段として、前述した実施例中で用いた単語の表記でな
く、単語のかなとアクセント情報を組み合わせたものを
用いてもよい。この場合、合成音声出力部では、表記を
解析して出力する音声波形に対応する発音情報に変換す
る処理を省くことができる。
本発明においては、以下に記載するような効果を奏す
る。
類似した単語を抜き出し、それらについてより詳細な特
徴パターンを用いてマッチング処理を行うことにより、
類似単語間の差を拡大し、類似した単語が認識対象とし
て登録された場合に、それらの発話に対する認識誤りを
減少させることである。
力できる音声合成を用いることによって一意に決まる特
徴パターンを自動的に作成することができ、特に音声認
識機能と音声合成機能とを搭載したシステムにおいて
は、特徴パラメータを拡張する場合に新規学習を行う必
要がなく、また、拡張された特徴パラメータを格納する
領域を必要としないことである。
似した単語を話者に明示することにより、発話時に丁寧
に発話することを促すことができることである。 保
持不良に関しては訂正回路で一旦訂正後、直ちに対象と
な
る。
である。
である。
である。
図である。
Claims (6)
- 【請求項1】 構成音素が類似した単語が格納される類
似単語辞書部と、通常の認識処理に使用する認識単語が
格納される認識単語辞書部と、前記類似単語辞書部のデ
ータから形成される合成音声のそれぞれの特徴パターン
を格納する合成音声特徴パターン部と、音声入力手段
と、前記音声入力手段により入力された入力音声の特徴
パターンを形成する入力音声分析部と、前記入力音声の
特徴パターンと前記認識単語辞書のデータから認識結果
候補を出力する認識マッチング部と、前記認識結果候補
に類似単語が存在するかどうかを判定する判定手段と、
前記判定結果が類似単語が存在すると判定したとき前記
入力音声の特徴パターンと前記類似単語辞書部に格納さ
れている類似単語毎のマッチング処理を行い第1の類似
単語認識結果を出力する第1の類似単語マッチング部
と、前記判定結果が類似単語が存在すると判定したとき
前記入力音声の特徴パターンと前記合成音声特徴パター
ンのデータとのマッチング処理を行い前記類似単語毎に
第2の類似単語認識結果を出力する第2の類似単語マッ
チング部と、前記第1の類似単語認識結果及び第2の類
似単語認識結果を比較して確度の高い単語を認識結果と
して出力する類似単語認識結果比較部とを有することを
特徴とする音声合成を用いた音声認識装置。 - 【請求項2】 前記類似単語が検出された時に発生時の
注意を発生する警告出力部を有する請求項1記載の音声
合成を用いた音声認識装置。 - 【請求項3】 前記類似単語辞書部は入力された登録単
語文字列をそれぞれ単語を構成する音素列に変換し構成
音素が類似した単語を類似単語として格納することを特
徴とする請求項1記載の音声合成を用いた音声認識装
置。 - 【請求項4】 構成音素が類似した単語を類似単語辞書
部に格納するステップと、通常の認識処理に使用する認
識単語を認識単語辞書部に格納するステップと、前記類
似単語辞書部のデータから形成される合成音声のそれぞ
れの特徴パターンを合成音声特徴パターン部に格納する
ステップと、音声入力ステップと、前記音声入力ステッ
プにより入力された入力音声の特徴パターンを形成する
入力音声分析ステップと、前記入力音声の特徴パターン
と前記認識単語辞書のデータから認識結果候補を出力す
る認識マッチングステップと、前記認識結果候補に類似
単語が存在するかどうかを判定する判定ステップと、前
記判定結果が類似単語が存在すると判定したとき前記入
力音声特徴パターンと前記類似単語辞書部に格納されて
いる類似単語毎のマッチング処理を行い第1の類似単語
認識結果を出力する第1の類似単語マッチングステップ
と、前記判定結果が類似単語が存在すると判定したとき
前記入力音声の特徴パターンと前記合成音声特徴パター
ンのデータとのマッチング処理を行い類似単語毎に第2
の類似単語認識結果を出力する第2の類似単語マッチン
グステップと、前記第1の類似単語認識結果及び第2の
類似単語認識結果を比較して確度の高い単語を認識結果
として出力する類似単語認識結果比較ステップとを有す
ることを特徴とする音声認識方法。 - 【請求項5】 前記類似単語が検出された時に発生時の
注意を発生する警告出力ステップを有する請求項4記載
の音声認識方法。 - 【請求項6】 前記類似単語辞書部は入力された登録単
語文字列をそれぞれ単語を構成する音素列に変換し構成
音素が類似した単語を類似単語として格納することを特
徴とする請求項4記載の音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18030899A JP3457578B2 (ja) | 1999-06-25 | 1999-06-25 | 音声合成を用いた音声認識装置および音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18030899A JP3457578B2 (ja) | 1999-06-25 | 1999-06-25 | 音声合成を用いた音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001013983A JP2001013983A (ja) | 2001-01-19 |
JP3457578B2 true JP3457578B2 (ja) | 2003-10-20 |
Family
ID=16080951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18030899A Expired - Fee Related JP3457578B2 (ja) | 1999-06-25 | 1999-06-25 | 音声合成を用いた音声認識装置および音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3457578B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4570509B2 (ja) * | 2005-04-22 | 2010-10-27 | 富士通株式会社 | 読み生成装置、読み生成方法及びコンピュータプログラム |
KR102413616B1 (ko) | 2019-07-09 | 2022-06-27 | 구글 엘엘씨 | 온-디바이스 음성 인식 모델 트레이닝을 위한 텍스트 세그먼트의 온-디바이스 음성 합성 |
-
1999
- 1999-06-25 JP JP18030899A patent/JP3457578B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001013983A (ja) | 2001-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
US6085160A (en) | Language independent speech recognition | |
JP4224250B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
US20100004931A1 (en) | Apparatus and method for speech utterance verification | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
JP2004325635A (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
Tzudir et al. | Analyzing RMFCC feature for dialect identification in Ao, an under-resourced language | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
JP3457578B2 (ja) | 音声合成を用いた音声認識装置および音声認識方法 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
Kawai et al. | Lyric recognition in monophonic singing using pitch-dependent DNN | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
Lertwongkhanakool et al. | An automatic real-time synchronization of live speech with its transcription approach | |
Likitsupin et al. | Acoustic-phonetic approaches for improving segment-based speech recognition for large vocabulary continuous speech | |
Bassan et al. | An experimental study of continuous automatic speech recognition system using MFCC with Reference to Punjabi | |
JP3277522B2 (ja) | 音声認識方法 | |
Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
JP3110025B2 (ja) | 発声変形検出装置 | |
JP2010145784A (ja) | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム | |
JP2943473B2 (ja) | 音声認識方法 | |
Takahashi et al. | Isolated word recognition using pitch pattern information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030630 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070801 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080801 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080801 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090801 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090801 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100801 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100801 Year of fee payment: 7 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100801 Year of fee payment: 7 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110801 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120801 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120801 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130801 Year of fee payment: 10 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |