JP2004219471A

JP2004219471A - 音声認識装置

Info

Publication number: JP2004219471A
Application number: JP2003003499A
Authority: JP
Inventors: Toshiyuki Nanba; 利行難波
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-01-09
Filing date: 2003-01-09
Publication date: 2004-08-05

Abstract

【課題】録音した音声パターンを再生する読み出し信号が供給されるタイミングは重要であり、前記読み出し信号が供給されるタイミングが不定であると、音声認識が成功したときの操作レスポンスの低下を招くという課題がある。
【解決手段】音声認識が失敗すると、音声再生判定部２０の認識可否判定部２０ｂの判定結果が音声再生可否判定部２０ａへ供給され、カウンタ２３ａが、前記認識可否判定部２０ｂから供給された判定結果をもとに認識不可回数の計数値を「１」増加させ、前記カウンタ２３ａの認識不可回数の計数値が所定の回数に達していると、音声再生部１８にディジタル信号として記録されている音声区間の音声データを録音再生制御部１６の読出し回路１６ｃが読み出し、音声再生部１８へ出力し、前記音声データをアナログ信号へ変換し再生する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、音声の認識を行う音声認識装置に関し、特に音声認識が誤認識となった場合に入力された音声の確認が出来るようにし、前記入力された音声について音声認識が失敗した原因をその音声の発声者が自覚できるようにすることで、音声認識の認識率を向上できる音声認識装置に関するものである。
【０００２】
【従来の技術】
従来の音声認識装置では、音声パターンと低レベルの閾値および高レベルの閾値に応じて録音要求信号や録音中止信号を出力するとともに、これら信号に対応して音声区間を検出し、また、前記信号に基づいて音声パターンを録音したり録音を中止することで、音声パターンの始端を欠くことなく音声パターンのみを確実に録音し、さらにこの録音した音声パターンと特徴パターン記憶部に記憶した音声の特徴パターンとを一致させ、前記録音した音声パターンを再生することで前記特徴パターン記憶部に記憶された音声パターンを確認できるようにして認識率を向上させるようにしている（例えば、特許文献１参照）。
【０００３】
【特許文献１】
特開平６−１０２８９４号公報（５頁、第１図、第２図、第３図）
【０００４】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、録音した音声パターンの再生は外部から供給された読み出し信号をもとに行われるが、前記読み出し信号が供給されるタイミングについては何ら開示されていない。一般に音声認識機能を利用する場合、音声認識装置のユーザにおいては、通常の会話速度で発する音声を音声認識装置が円滑に失敗することなく音声認識することを期待しているため、前記読み出し信号が供給されるタイミングは重要であり、前記読み出し信号が供給されるタイミングが不定であると、ユーザが次の音声を発声して次の音声認識に移行する際の操作レスポンスの低下を招くという課題がある。
【０００５】
この発明は、上記のような課題を解決するためになされたものであって、音声認識の対象となった入力された音声を最適なタイミングで再生し、音声認識を行う際の操作レスポンスを損ねない音声認識装置を提供することを目的とする。
【０００６】
【課題を解決するための手段】
この発明に係る音声認識装置は、同一音声区間について、音声パターン記憶部に記憶した音声パターンと特徴パターン記憶部に記憶されている音声パターンとの類似度に基づいて、音声認識が成功したか失敗したかの判定を行う認識可否判定部と、前記認識可否判定部による音声認識の判定結果をもとに、前記音声パターン記憶部に記憶した音声を再生し出力する音声再生部とを備えるようにしたものである。
【０００７】
この発明に係る音声認識装置は、同一音声区間について、音声パターン記憶部に記憶した音声パターンを再生し、特徴パターン記憶部に記憶されている音声パターンと比較するトリガを入力する操作部と、前記操作部により入力されたトリガをもとに、前記音声パターン記憶部に記憶した音声パターンを再生する音声再生部とを備えるようにしたものである。
【０００８】
【発明の実施の形態】
以下、この発明の実施の一形態について説明する。
実施の形態１．
図１は、この実施の形態１の音声認識装置の構成を示すブロック図である。この音声認識装置は、音声入力部１１、音声分析部１２、音声区間検出部１３、特徴パターン記憶部１４、認識計算部１５、録音再生制御部１６、音声パターン記憶部１７、音声再生部１８と、音声再生判定部２０および操作部２２を備えている。
【０００９】
音声入力部１１は、例えばマイクロフォンにより構成され、入力された音声に応じて電気的に変化する音声信号へ変換する。
音声分析部１２はＡ／Ｄ変換器１２ａを有し、音声入力部１１から供給された音声信号をディジタル信号に変換し音声パターンを生成する。
音声区間検出部１３は、マイクロプロセッサ１３ａとメモリ１３ｂを備えており、メモリ１３ｂにはマイクロプロセッサ１３ａの動作に必要なプログラムが格納されている。マイクロプロセッサ１３ａは、音声分析部１２から供給される音声パターンから音声区間を検出し、録音要求信号や録音中断信号を生成する。音声区間検出部１３には、特徴パターン記憶部１４と認識計算部１５と録音再生制御部１６とが接続されている。
【００１０】
特徴パターン記憶部１４は、音声区間検出部１３において検出された音声区間に対応する音声パターンを記憶したものであり、例えばＲＡＭにより構成されている。
認識計算部１５は、音声区間検出部１３から出力される音声パターンと特徴パターン記憶部１４に記憶されている音声パターンとの類似度を計算するものである。
【００１１】
録音再生制御部１６の入力端は音声入力部１１の出力端へ接続され、また録音再生制御部１６の出力端は音声パターン記憶部１７および音声再生部１８と接続されている。録音再生制御部１６は、Ａ／Ｄ変換器１６ａと書込み回路１６ｂと読出し回路１６ｃを有している。Ａ／Ｄ変換器１６ａは、音声入力部１１から供給された音声信号をディジタル信号へ変換し音声パターンを生成する。書込み回路１６ｂは、音声区間検出部１３から供給される録音要求信号に応じて、Ａ／Ｄ変換器１６ａから出力される音声パターンを音声パターン記憶部１７へ書き込んだり、録音中断信号に応じて音声パターンの書込みを中断制御する。読出し回路１６ｃは、音声再生判定部２０から供給される読出し信号に応じて音声パターン記憶部１７に記憶されている音声パターンを順次読み出して音声再生部１８へ供給する。
【００１２】
音声パターン記憶部１７は、例えばＲＡＭにより構成されており、録音再生制御部１６から供給される音声パターンを記憶する。
音声再生部１８は、Ｄ／Ａ変換器１８ａを有し、録音再生制御部１６の制御に応じて、音声パターン記憶部１７から読み出された音声パターンをアナログ信号へ変換し音声出力する。
音声再生判定部２０は、認識計算部１５と録音再生制御部１６との間に接続され、認識計算部１５の出力結果をもとに音声再生の可否判定を行い、録音再生制御部１６を制御する構成となっている。音声再生判定部２０は、また、操作部２２から出力された操作信号２１を入力するようにも構成されており、操作信号２１をトリガに録音再生制御部１６を制御できる。この操作信号２１は、操作パネルやリモートコントローラ送信器の操作部２２の操作により発生する。
なお、音声再生判定部２０は、音声区間検出部１３に内蔵した、マイクロプロセッサ１３ａを利用する構成としてもよい。
【００１３】
図２は、この実施の形態１の音声認識装置における特徴部分を構成する音声再生判定部２０とその周辺部の詳細構成を示すブロック図である。図２において図１と同一または相当の部分については同一の符号を付し説明を省略するが、音声再生判定部２０は音声再生可否判定部２０ａと認識可否判定部２０ｂと操作キー判定部２０ｃを備えている。
音声再生可否判定部２０ａは、カウンタ２３ａとキー識別テーブル２３ｂを備えており、前記カウンタ２３ａは認識可否判定部２０ｂの判定結果における認識不可の回数の計数に利用される。また、前記キー識別テーブル２３ｂは、操作キー判定部２０ｃによる操作キーの判定に用いられる。音声再生可否判定部２０ａは、認識可否判定部２０ｂによる判定結果または操作キー判定部２０ｃによる判定結果をもとに音声再生の可否判定を行い、その音声再生可否判定結果を録音再生制御部１６へ出力する。
【００１４】
認識可否判定部２０ｂは、認識計算部１５の出力結果をもとに認識可否、すなわち音声認識結果が成功したか失敗したかの判定を行うものである。操作キー判定部２０ｃは、操作部２２から出力された操作信号２１をもとに前記キー識別テーブル２３ｂを利用して操作されたキーを判定する。
【００１５】
次に動作について説明する。
図３は、この音声認識装置の動作を示すフローチャートであり、以下、このフローチャートに従って動作を説明する。
先ず、音声入力部１１へ音声を入力すると（ステップＳＴ１１）、入力された音声に応じた電気信号へ変換され音声分析部１２へ出力される。そして、この音声分析部１２のＡ／Ｄ変換器１２ａによりディジタル信号へ変換され、音声パターンが生成され出力される。この音声パターンは音声区間検出部１３へ出力され、音声区間検出部１３のマイクロプロセッサ１３ａにより音声区間の検出が行われる。この音声区間の検出に伴い音声区間検出部１３からは録音開始信号および録音中断信号が録音再生制御部１６へ出力される。録音再生制御部１６では、前記録音開始信号および録音中断信号をもとに前記検出された音声区間の音声を音声パターン記憶部１７へ記憶する（ステップＳＴ１２）。
【００１６】
次に、特徴パターン記憶部１４に記憶されている特長パターンと、前記音声区間の音声パターンとの一致度を認識計算部１５において計算し、認識処理を行う（ステップＳＴ１３）。そして、この認識計算部１５における認識結果が成功であるか失敗であるかを、音声再生判定部２０の認識可否判定部２０ｂが、前記一致度の閾値を前記計算した一致度が越えているか否かをもとに判定し（ステップＳＴ１４）、認識計算部１５において計算した前記一致度がその閾値を越えており認識結果が成功であれば、その認識結果を提示し（ステップＳＴ１５）、次に、操作キー判定部２０ｃにおいて再生キーが押下されたか否かを判定し（ステップＳＴ１６）、再生キーが押下されているのであれば、音声再生部１８に記録されている前記音声区間の音声を録音再生制御部１６の読出し回路１６ｃが読み出し、音声再生部１８へ出力する。音声再生部１８では、Ｄ／Ａ変換器１８ａが前記読み出された音声をアナログ信号へ変換し再生する（ステップＳＴ２１）。
ステップＳＴ１６において再生キーが押下されていない場合には、前記音声区間の音声を再生する必要はないので、音声の認識成功処理を行い（ステップＳＴ１７）、認識結果を提示する（ステップＳＴ１８）。
【００１７】
また、ステップＳＴ１４において認識結果が失敗である場合には、音声再生判定部２０の認識可否判定部２０ｂの判定結果が音声再生可否判定部２０ａへ供給され、音声再生可否判定部２０ａが備えている前記カウンタ２３ａが、前記認識可否判定部２０ｂから供給された判定結果をもとに認識不可回数の計数値を「１」増加させる（ステップＳＴ１９）。次に、前記カウンタ２３ａの認識不可回数の計数値が所定の回数（例えばｎ回）を越えているか否かを判定し（ステップＳＴ２０）、前記カウンタ２３ａの認識不可回数の計数値が所定の回数に達していない場合にはステップＳＴ１１へ戻り、ステップＳＴ１１以降の処理を繰り返す。一方、ステップＳＴ２０において前記カウンタ２３ａの認識不可回数の計数値が所定の回数に達していると、音声再生部１８にディジタル信号として記録されている前記音声区間の音声データを録音再生制御部１６の読出し回路１６ｃが読み出し、音声再生部１８へ出力する。音声再生部１８では、Ｄ／Ａ変換器１８ａが前記読み出された音声データをアナログ信号へ変換し再生する（ステップＳＴ２１）。
なお、ステップＳＴ２０においてカウンタ２３ａの認識不可回数の計数値が所定の回数を越えているか否かを判定するのに使用される前記所定の回数を「１回」とすれば、音声再生部１８は、認識可否判定部２０ｂが音声認識の失敗を判定すると、音声パターン記憶部１７に記憶した入力された音声は、音声認識が失敗したタイミングで再生され出力されることになる。
【００１８】
ステップＳＴ２１において音声パターン記憶部１７から読み出された音声データの再生処理が行われた後、音声の再入力があるか否かを判定する（ステップＳＴ２２）。この結果、再入力がある場合、ステップＳＴ１１へ戻り、ステップＳ１１以降の処理を繰り返す。また、音声の再入力がない場合、前記ステップＳＴ１４の判定結果が認識成功であるか失敗であるかに応じ、認識成功であれば成功処理を行い（ステップＳＴ１７）、その認識結果を提示する（ステップＳＴ１８）。また認識失敗であれば、その認識結果を提示する（ステップＳＴ１８）。
【００１９】
以上のように、この実施の形態によれば、音声認識に成功したときには、そのときに記録した音声の再生は行わず、直ちに次の音声認識操作に移行できるため、音声認識が成功した場合の操作レスポンスを損なうことがなく、また、音声認識に失敗したときには認識できなかった音声が再生されてユーザ自身が確認できるため、次回からの音声認識に際し成功する確率の高い音声入力についてユーザへフィードバックすることが可能になる効果がある。
【００２０】
また、音声認識に成功したときであっても、ユーザが誤認識していると判断したときには、再生キーを押下することで音声パターン記憶部１７に記録した音声データを再生し、発話内容を確認できる効果がある。
【００２１】
また、ユーザは音声認識の失敗の回数が少ない場合、次の操作を続いて行いたい場合が多く、音声認識された音声を聞き直すようなことはないが、音声認識の失敗の回数が多くなると、時間を要することになっても音声認識に失敗した音声がどのように入力されているのかを自ら聞き直したくなるものであるが、この音声認識装置ではこのような場合にも自動的に音声認識に失敗した音声を再生してユーザ自身が聞き直すことが出来、また、この場合の再生のタイミングは図３のフローチャートに示すステップＳＴ２０における所定の回数（例えばｎ回）を調整することで、ユーザにとって最適なタイミングで、音声認識に失敗した音声を自動的に再生してユーザ自身が聞き直すことが出来、ユーザは音声認識に失敗しない音声を入力するにはどのようにすればよいかを容易に確認できる音声認識装置が得られる。
【００２２】
【発明の効果】
以上のように、この発明によれば、同一音声区間について、音声パターン記憶部に記憶した音声パターンと特徴パターン記憶部に記憶されている音声パターンとの類似度に基づいて、音声認識が成功したか失敗したかの判定を行う認識可否判定部と、前記認識可否判定部による音声認識の判定結果をもとに、前記音声パターン記憶部に記憶した音声を再生出力する音声再生部とを備えるように構成したので、音声認識に成功したときには、そのときに記録した音声の再生は行わず、直ちに次の音声認識操作に移行できるため、音声認識が成功した場合の操作レスポンスを損なうことがなく、また、音声認識に失敗したときには、音声認識を失敗したタイミングで、認識できなかった音声が再生されてユーザ自身が確認できるため、音声認識の対象となった入力された音声を最適なタイミングで再生でき、音声認識を行う際の操作レスポンスを損ねることがなく、次回からの音声認識に際し成功する確率の高い音声入力についてユーザへのフィードバックが可能になる効果がある。
【００２３】
この発明によれば、同一音声区間について、音声パターン記憶部に記憶した音声パターンを再生し、特徴パターン記憶部に記憶されている音声パターンと比較するトリガを入力する操作部と、前記操作部により入力されたトリガをもとに、前記音声パターン記憶部に記憶した音声パターンを再生する音声再生部とを備えるように構成したので、音声認識に成功したときであって、例えばユーザが誤認識していると判断したときには、操作部を操作することでユーザにとって最適なタイミングで音声パターン記憶部に記録した音声データを再生でき、発話内容を確認できる効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１の音声認識装置の構成を示すブロック図である。
【図２】この発明の実施の形態１の音声認識装置における特徴部分を構成する音声再生判定部とその周辺部の詳細構成を示すブロック図である。
【図３】この発明の実施の形態１の音声認識装置の動作を示すフローチャートである。
【符号の説明】
１４特徴パターン記憶部、１７音声パターン記憶部、１８音声再生部、２０ａ音声再生可否判定部、２０ｂ認識可否判定部、２２操作部、２３ａ
カウンタ。

Claims

入力された音声の音声パターンと、特徴パターン記憶部に記憶されている音声パターンとを比較し、前記入力された音声の音声認識を行う音声認識装置において、
前記入力された音声の音声パターンを記憶する音声パターン記憶部と、同一音声区間について、前記音声パターン記憶部に記憶した音声パターンと前記特徴パターン記憶部に記憶されている音声パターンとの類似度に基づいて、音声認識が成功したか失敗したかの判定を行う認識可否判定部と、
前記認識可否判定部による音声認識の判定結果をもとに、前記音声パターン記憶部に記憶した音声を再生出力する音声再生部と
を備えたことを特徴とする音声認識装置。
音声再生部は、認識可否判定部が音声認識の失敗を判定すると、音声パターン記憶部に記憶した音声を再生出力することを特徴とする請求項１記載の音声認識装置。
認識可否判定部により音声認識失敗と判定された回数を計数するカウンタと、前記カウンタの計数値が所定の値に達しているかいないかに応じて音声再生を行うか否かを判定する音声再生可否判定部とを備え、音声再生部は、前記音声再生可否判定部が、前記カウンタの計数値が所定の値に達していることによる音声再生を判定すると、音声パターン記憶部に記憶した音声を再生し出力することを特徴とする請求項１記載の音声認識装置。
入力された音声の音声パターンと、特徴パターン記憶部に記憶されている音声パターンとを比較し、前記入力された音声の音声認識を行う音声認識装置において、
前記入力された音声の音声パターンを記憶する音声バージョン記憶部と、同一音声区間について、前記音声パターン記憶部に記憶した音声パターンを再生し、前記特徴パターン記憶部に記憶されている音声パターンと比較するトリガを入力する操作部と、前記操作部により入力されたトリガをもとに、前記音声パターン記憶部に記憶した音声パターンを再生する音声再生部と
を備えたことを特徴とする音声認識装置。