JPH0199094A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0199094A JPH0199094A JP62256637A JP25663787A JPH0199094A JP H0199094 A JPH0199094 A JP H0199094A JP 62256637 A JP62256637 A JP 62256637A JP 25663787 A JP25663787 A JP 25663787A JP H0199094 A JPH0199094 A JP H0199094A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- section
- input
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[発明の目的]
(産業上の利用分野)
本発明は音声認識で用いられる辞書パターンの作成に必
要な学習パターンを効果的に収集することのできる音声
認識装置に関する。
要な学習パターンを効果的に収集することのできる音声
認識装置に関する。
(従来の技術)
音声の認識処理は、通常、入力音声の音声区間検出され
た部分の音声パターンと、認識辞書に予め登録された認
識対象語量の辞書パターンとを照合し、その類似度や距
離を計算する等して行われる。従ってこのような音声認
識処理を行う以前に認識対象語量の音声パターンを収集
し、これを辞書パターンとして認識辞書に登録しておく
必要がある。
た部分の音声パターンと、認識辞書に予め登録された認
識対象語量の辞書パターンとを照合し、その類似度や距
離を計算する等して行われる。従ってこのような音声認
識処理を行う以前に認識対象語量の音声パターンを収集
し、これを辞書パターンとして認識辞書に登録しておく
必要がある。
ところで認識辞書に登録する辞書パターンを作成する上
で、入力音声からその音声区間を正確に検出し、音声区
間の音声パターンだけを抽出することが非常に重要であ
る。仮に音声区間を誤って検出し、その検出結果に従っ
て音声パターンを抽出して認識辞書に登録した場合、そ
の後の音声認識における誤認識の原因となる。これ故、
音声区間検出は音声認識の精度を高める上での非常に重
要な役割を担う。
で、入力音声からその音声区間を正確に検出し、音声区
間の音声パターンだけを抽出することが非常に重要であ
る。仮に音声区間を誤って検出し、その検出結果に従っ
て音声パターンを抽出して認識辞書に登録した場合、そ
の後の音声認識における誤認識の原因となる。これ故、
音声区間検出は音声認識の精度を高める上での非常に重
要な役割を担う。
さてこの音声区間検出は、一般に入力音声レベルに対し
て成る閾値を設定し、この閾値に基づいて音声区間と無
音区間、ノイズを区別して行われる。その他にも種々の
音声区間検出法が提唱されているが、入力音声の音声区
間を100%正確に検出することは困難である。この為
、認識辞書に登録する辞書パターンを如何にして精度良
く収集するかと云う点で問題が残されている。
て成る閾値を設定し、この閾値に基づいて音声区間と無
音区間、ノイズを区別して行われる。その他にも種々の
音声区間検出法が提唱されているが、入力音声の音声区
間を100%正確に検出することは困難である。この為
、認識辞書に登録する辞書パターンを如何にして精度良
く収集するかと云う点で問題が残されている。
(発明が解決しようとする問題点)
このように従来にあっては入力音声に対する音声区間の
検出精度が補償されない為、認識辞書を精度良く構成し
て音声認識処理に供する上で問題があった。
検出精度が補償されない為、認識辞書を精度良く構成し
て音声認識処理に供する上で問題があった。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、正確に音声区間検出されて抽出
された音声パターンだけを認識辞書に登録して認識精度
の向上を図ることのできる音声認識装置を提供すること
にある。
の目的とするところは、正確に音声区間検出されて抽出
された音声パターンだけを認識辞書に登録して認識精度
の向上を図ることのできる音声認識装置を提供すること
にある。
[発明の構成]
(問題点を解決するための手段)
本発明は入力音声の音声区間を検出し、この検出音声区
間の入力音声パターンと認識辞書に登録されている辞書
パターンとを照合して上記入力音声を認識する音声認識
装置において、上記認識辞書へのパターン登録時に入力
音声を記憶し、入力音声に対する音声区間検出情報に従
って記憶された人力音声中から検出音声区間の入力音声
を読出して再生し、この再生音声に対して音声区間検出
が正しく行われたことを示す情報が入力されたとき、上
記検出音声区間の音声パターンを認識辞書に登録するよ
うにしたことを特徴とするものである。
間の入力音声パターンと認識辞書に登録されている辞書
パターンとを照合して上記入力音声を認識する音声認識
装置において、上記認識辞書へのパターン登録時に入力
音声を記憶し、入力音声に対する音声区間検出情報に従
って記憶された人力音声中から検出音声区間の入力音声
を読出して再生し、この再生音声に対して音声区間検出
が正しく行われたことを示す情報が入力されたとき、上
記検出音声区間の音声パターンを認識辞書に登録するよ
うにしたことを特徴とするものである。
(作用)
本発明によれば音声区間検出された部分の入力音声だけ
が再生されてその音声区間検出が正しく行われたか否か
が間合わせられ、音声区間検出が正しく行われたことを
示す情報が入力されたときにだけ、その検出音声区間の
音声パターンが抽出されて認識辞書に登録される。換言
すれば誤った音声区間検出がなされた場合には、その検
出音声区間の音声パターンの認識辞書への登録が効果的
に防止される。この結果、認識辞書の精度を高めて認識
精度の向上を図ることが可能となる。
が再生されてその音声区間検出が正しく行われたか否か
が間合わせられ、音声区間検出が正しく行われたことを
示す情報が入力されたときにだけ、その検出音声区間の
音声パターンが抽出されて認識辞書に登録される。換言
すれば誤った音声区間検出がなされた場合には、その検
出音声区間の音声パターンの認識辞書への登録が効果的
に防止される。この結果、認識辞書の精度を高めて認識
精度の向上を図ることが可能となる。
(実施例)
以下、図面を参照して本発明の一実施例につき説明する
。
。
第1図は本発明の一実施例に係る音声認識装置の要部概
略構成図である。
略構成図である。
音声入力部1を介して音声が入力されると、その入力音
声は音声区間検出部2に与えられると共に、音声圧縮部
3を介して音声データ圧縮された後、音声記憶部4に記
憶されるようになっている。
声は音声区間検出部2に与えられると共に、音声圧縮部
3を介して音声データ圧縮された後、音声記憶部4に記
憶されるようになっている。
音声区間検出部2は上記入力音声に対して所定の閾値処
理を施す等して音声の始端と終端とを検出し、その音声
区間を検出している。
理を施す等して音声の始端と終端とを検出し、その音声
区間を検出している。
しかして前記音声記憶部4は上記音声区間検出= 5
− 部2にて検出された音声区間の情報に基づき、該当音声
区間の音声信号だけを選択的に抽出している。この選択
抽出された音声区間の音声信号が音声再生部5に与えら
れて音声再生出力される。
− 部2にて検出された音声区間の情報に基づき、該当音声
区間の音声信号だけを選択的に抽出している。この選択
抽出された音声区間の音声信号が音声再生部5に与えら
れて音声再生出力される。
このようにして音声区間検出され、この検出音声区間の
音声が再生出力されると、この再生音声に対して発話者
により音声区間の検出が正しく行われたか否かが判断さ
れる。つまり発話者は発生入力した音声が、上記音声区
間検出の下で正確に検出されたか否かを判断することに
なる。この判断結果である正誤の情報が正誤入力部6か
ら指示入力される。
音声が再生出力されると、この再生音声に対して発話者
により音声区間の検出が正しく行われたか否かが判断さ
れる。つまり発話者は発生入力した音声が、上記音声区
間検出の下で正確に検出されたか否かを判断することに
なる。この判断結果である正誤の情報が正誤入力部6か
ら指示入力される。
しかして正誤入力部6から音声区間の検出が正しいこと
を示す情報が指°示入力されると、認識辞書メモリ7は
音響分析部8にて検出されている上記音声区間の入力音
声パターンを辞書パターンとして取込み、これを登録し
ている。このような辞書パターンの認識辞書メモリ7へ
の登録が上述した音声区間検出の正誤情報に従って制御
されながら順次行われる。
を示す情報が指°示入力されると、認識辞書メモリ7は
音響分析部8にて検出されている上記音声区間の入力音
声パターンを辞書パターンとして取込み、これを登録し
ている。このような辞書パターンの認識辞書メモリ7へ
の登録が上述した音声区間検出の正誤情報に従って制御
されながら順次行われる。
尚、音響分析部8は入力音声をフィルタリング処理する
等してその特徴パラメータ系列を求め、検出された音声
区間の特徴パラメータ系列を上記入力音声の音声パター
ンとして求めるものである。
等してその特徴パラメータ系列を求め、検出された音声
区間の特徴パラメータ系列を上記入力音声の音声パター
ンとして求めるものである。
以上のようにして認識辞書メモリ7への辞書パターンの
登録が行われた後、音声認識時には、前記音声入力部1
を介して人力された入力音声に対して音声区間検出部2
にて音声区間検出し、検゛出された音声区間について音
響分析部8にて求められた音声パターンと、認識辞書メ
モリ7に登録されている辞書パターンとの間での類似度
等を音声認識部9にて計算し、その類似度値を相互に比
較する等して前記入力音声に対する認識結果が求められ
る。
登録が行われた後、音声認識時には、前記音声入力部1
を介して人力された入力音声に対して音声区間検出部2
にて音声区間検出し、検゛出された音声区間について音
響分析部8にて求められた音声パターンと、認識辞書メ
モリ7に登録されている辞書パターンとの間での類似度
等を音声認識部9にて計算し、その類似度値を相互に比
較する等して前記入力音声に対する認識結果が求められ
る。
この音声認識部9における認識処理法は上述した類似度
計算の他、従来より種々提唱されている音声認識アルゴ
リスムを適宜採用して行われる。
計算の他、従来より種々提唱されている音声認識アルゴ
リスムを適宜採用して行われる。
第2図は上述した如く構成された音声認識装置における
音声パターン登録処理の流れを示すものである。この処
理は、先ず音声パターンが登録済みか否かの確認を行っ
てから起動される(ステップa)。そして認識辞書メモ
リ7に対して既に音声パターン(辞書パターン)が登録
されている場合には、入力された音声に対する認識処理
を行う(ステップb)。
音声パターン登録処理の流れを示すものである。この処
理は、先ず音声パターンが登録済みか否かの確認を行っ
てから起動される(ステップa)。そして認識辞書メモ
リ7に対して既に音声パターン(辞書パターン)が登録
されている場合には、入力された音声に対する認識処理
を行う(ステップb)。
これに対して認識辞書メモリ7への音声パターンの登録
がなされていない場合には、音声パターン作成の為の音
声の入力要求を行い、認識対象語堂の音声を入力する(
ステップC)。そして入力音声を前記音声記憶部4に記
憶すると共に、その音声区間検出を行う(ステップd)
。この検出結果に従ってその検出音声区間の音声信号を
前記音声記憶部4から読み出し、その音声を再生出力し
て音声区間検出が正しく行われたか否かの確認を発声者
に求める(ステップe)。
がなされていない場合には、音声パターン作成の為の音
声の入力要求を行い、認識対象語堂の音声を入力する(
ステップC)。そして入力音声を前記音声記憶部4に記
憶すると共に、その音声区間検出を行う(ステップd)
。この検出結果に従ってその検出音声区間の音声信号を
前記音声記憶部4から読み出し、その音声を再生出力し
て音声区間検出が正しく行われたか否かの確認を発声者
に求める(ステップe)。
この状態で前記正誤入力部6を介する発声者からの正誤
の指示情報の入力を待ち、その入力情報から音声区間検
出が正しく行われたか否かを判定する(ステップf)。
の指示情報の入力を待ち、その入力情報から音声区間検
出が正しく行われたか否かを判定する(ステップf)。
この判定の結果、音声区間検出に誤りがあった場合には
、前述したステップCからの処理を繰返し実行し、音声
パターンの再入力を行う。
、前述したステップCからの処理を繰返し実行し、音声
パターンの再入力を行う。
以上の処理によって音声区間検出が正しく行われたこと
が確認されたとき、その検出音声区間から求められる前
記入力音声の音声パターンを前記認識辞書メモリ7に登
録する(ステップg)。
が確認されたとき、その検出音声区間から求められる前
記入力音声の音声パターンを前記認識辞書メモリ7に登
録する(ステップg)。
しかる後、登録すべく全ての音声パターンについて認識
辞書メモリ7に登録したか否かを判定しくステップh)
、登録終了である場合には前述した認識処理に移行する
(ステップb)。また未登録の音声パターンが存在する
場合には、その音声パターンについての登録処理を同様
にして繰返し実行する。
辞書メモリ7に登録したか否かを判定しくステップh)
、登録終了である場合には前述した認識処理に移行する
(ステップb)。また未登録の音声パターンが存在する
場合には、その音声パターンについての登録処理を同様
にして繰返し実行する。
具体的には数字の「1;イチ」を辞書登録する場合、ノ
イズを含む音声として、例えば「ええと、イチ」なる音
声が入力されることがある。この場合、音声区間検出部
2では「ええと」をノイズとして検出することができな
いことから、「イチ」の音声パターンを「エエトイチ」
として検出してしまう。この結果、従来にあっては音声
認識時に「イチ」なる音声が入力されてもこれを認識す
ることができないと云う問題があった。
イズを含む音声として、例えば「ええと、イチ」なる音
声が入力されることがある。この場合、音声区間検出部
2では「ええと」をノイズとして検出することができな
いことから、「イチ」の音声パターンを「エエトイチ」
として検出してしまう。この結果、従来にあっては音声
認識時に「イチ」なる音声が入力されてもこれを認識す
ることができないと云う問題があった。
しかし本装置にあっては音声区間の検出結果に従って、
辞書登録しようとする音声パターンが「エエトイチ」で
あることが音声再生されてその確認が促されることにな
るので、これを効果的に排除して音声の再入力が促され
る。この結果、正しく音声区間検出された音声パターン
のみを辞書登録していくことが可能となる。
辞書登録しようとする音声パターンが「エエトイチ」で
あることが音声再生されてその確認が促されることにな
るので、これを効果的に排除して音声の再入力が促され
る。この結果、正しく音声区間検出された音声パターン
のみを辞書登録していくことが可能となる。
また「もう1度;モウイチド」なる音声パターンを辞書
登録しようとする場合、例えばその入力音声に途切れが
生じて「モウ」と「イチビ」との間に無音期間が生じる
ことがある。このような場合には、音声区間検出が「モ
ウ」に対してのみ行われ、「イチビ」をノイズとして看
做して切捨てることがある。この結果、「もう1度」に
対する音声パターンが「モウ」として登録される虞れが
ある。
登録しようとする場合、例えばその入力音声に途切れが
生じて「モウ」と「イチビ」との間に無音期間が生じる
ことがある。このような場合には、音声区間検出が「モ
ウ」に対してのみ行われ、「イチビ」をノイズとして看
做して切捨てることがある。この結果、「もう1度」に
対する音声パターンが「モウ」として登録される虞れが
ある。
このような場合にあっても本装置にあっては、音声区間
検出された結果が音声再生されるので、誤った音声区間
検出が行われた場合には、これを効果的に排除して正し
い音声パターンだけを辞書登録することが可能となる。
検出された結果が音声再生されるので、誤った音声区間
検出が行われた場合には、これを効果的に排除して正し
い音声パターンだけを辞書登録することが可能となる。
このように本装置によれば、音声パターンの辞書登録時
に誤って検出された音声パターンを効果的に排除するこ
とができるので、認識辞書の精度を十分に高いものとす
ることができ、ひいては認識性能の向上を図ることが可
能となる。
に誤って検出された音声パターンを効果的に排除するこ
とができるので、認識辞書の精度を十分に高いものとす
ることができ、ひいては認識性能の向上を図ることが可
能となる。
尚、本発明は上述した実施例に限定されるものではない
。例えば複数の音声パターンを収集して認識辞書を学習
するような場合、誤った音声区間検出によって求められ
た音声パターンが与えられると、その学習効果が悪くな
ることがある。このような不具合に対しても本装置は十
分にその効果を発揮する。また音声分析を音声区間検出
が正しく行われた場合にのみ起動するようにしても良い
。
。例えば複数の音声パターンを収集して認識辞書を学習
するような場合、誤った音声区間検出によって求められ
た音声パターンが与えられると、その学習効果が悪くな
ることがある。このような不具合に対しても本装置は十
分にその効果を発揮する。また音声分析を音声区間検出
が正しく行われた場合にのみ起動するようにしても良い
。
その他、本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。
して実施することができる。
[発明の効果]
以上説明したように本発明によれば非常に簡易に音声区
間検出が正しく行われたか否かを確認し、正しく検出さ
れた音声区間の音声パターンだけを辞書登録に用いるの
で、認識辞書の精度を高め、音声認識性能の向上を図り
得る等の実用上多大なる効果を奏しうる。
間検出が正しく行われたか否かを確認し、正しく検出さ
れた音声区間の音声パターンだけを辞書登録に用いるの
で、認識辞書の精度を高め、音声認識性能の向上を図り
得る等の実用上多大なる効果を奏しうる。
第1図は本発明の一実施例に係る音声認識装置の要部概
略構成図、第2図は実施例装置における音声パターンの
辞書登録処理の流れを示す図である。 ■・・・音声入力部、2・・・音声区間検出部、3・・
・音声圧縮部、4・・・音声記憶部、5・・・音声再生
部、6・・・正誤入力部、7・・・認識辞書メモリ、8
・・・音響分析部、9・・・音声認識部。 出願人代理人 弁理士 鈴江武彦
略構成図、第2図は実施例装置における音声パターンの
辞書登録処理の流れを示す図である。 ■・・・音声入力部、2・・・音声区間検出部、3・・
・音声圧縮部、4・・・音声記憶部、5・・・音声再生
部、6・・・正誤入力部、7・・・認識辞書メモリ、8
・・・音響分析部、9・・・音声認識部。 出願人代理人 弁理士 鈴江武彦
Claims (2)
- (1)入力音声の音声区間を検出し、この検出音声区間
の入力音声パターンと認識辞書に登録されている辞書パ
ターンとを照合して上記入力音声を認識する音声認識装
置において、 前記入力音声を記憶する手段と、記憶された入力音声に
対する音声区間検出情報に従って上記記憶手段から検出
音声区間の入力音声を読出して再生する手段と、この再
生音声に対して音声区間検出が正しく行われたことを示
す情報が入力されたとき、上記検出音声区間の音声パタ
ーンを認識辞書に登録する手段とを具備したことを特徴
とする音声認識装置。 - (2)入力音声はデータ圧縮されて記憶されるものであ
る特許請求の範囲第1項記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62256637A JPH0199094A (ja) | 1987-10-12 | 1987-10-12 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62256637A JPH0199094A (ja) | 1987-10-12 | 1987-10-12 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0199094A true JPH0199094A (ja) | 1989-04-17 |
Family
ID=17295373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62256637A Pending JPH0199094A (ja) | 1987-10-12 | 1987-10-12 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0199094A (ja) |
-
1987
- 1987-10-12 JP JP62256637A patent/JPH0199094A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8050909B2 (en) | Apparatus and method for post-processing dialogue error in speech dialogue system using multilevel verification | |
CN109599108A (zh) | 一种听写辅助方法及听写辅助装置 | |
JP6220304B2 (ja) | 音声識別装置 | |
JP2996019B2 (ja) | 音声認識装置 | |
JP2829014B2 (ja) | 音声認識装置及び方法 | |
JPH0199094A (ja) | 音声認識装置 | |
JP2838848B2 (ja) | 標準パターン登録方式 | |
CN113838469A (zh) | 一种身份识别方法、系统及存储介质 | |
US6438521B1 (en) | Speech recognition method and apparatus and computer-readable memory | |
JP2975772B2 (ja) | 音声認識装置 | |
JPS59121099A (ja) | 音声区間検出装置 | |
JP3031081B2 (ja) | 音声認識装置 | |
JP4146949B2 (ja) | 音声処理装置 | |
JPH0754434B2 (ja) | 音声認識装置 | |
JP2000148187A (ja) | 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体 | |
JPH02272495A (ja) | 音声認識装置 | |
JP2901976B2 (ja) | パターン照合予備選択方式 | |
JPH02210499A (ja) | 標準パターン登録方式 | |
JPS58130394A (ja) | 音声認識装置 | |
JPH0469957B2 (ja) | ||
JPS6064397A (ja) | 音声認識装置 | |
JPH0316038B2 (ja) | ||
JPH079598B2 (ja) | 音声認識装置における標準パラメ−タの修正方法 | |
JPH07210186A (ja) | 音声登録装置 | |
JPS61262798A (ja) | 音声区間検出装置 |