JP2004219471A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2004219471A
JP2004219471A JP2003003499A JP2003003499A JP2004219471A JP 2004219471 A JP2004219471 A JP 2004219471A JP 2003003499 A JP2003003499 A JP 2003003499A JP 2003003499 A JP2003003499 A JP 2003003499A JP 2004219471 A JP2004219471 A JP 2004219471A
Authority
JP
Japan
Prior art keywords
voice
recognition
unit
storage unit
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003003499A
Other languages
English (en)
Inventor
Toshiyuki Nanba
利行 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2003003499A priority Critical patent/JP2004219471A/ja
Publication of JP2004219471A publication Critical patent/JP2004219471A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】録音した音声パターンを再生する読み出し信号が供給されるタイミングは重要であり、前記読み出し信号が供給されるタイミングが不定であると、音声認識が成功したときの操作レスポンスの低下を招くという課題がある。
【解決手段】音声認識が失敗すると、音声再生判定部20の認識可否判定部20bの判定結果が音声再生可否判定部20aへ供給され、カウンタ23aが、前記認識可否判定部20bから供給された判定結果をもとに認識不可回数の計数値を「1」増加させ、前記カウンタ23aの認識不可回数の計数値が所定の回数に達していると、音声再生部18にディジタル信号として記録されている音声区間の音声データを録音再生制御部16の読出し回路16cが読み出し、音声再生部18へ出力し、前記音声データをアナログ信号へ変換し再生する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は、音声の認識を行う音声認識装置に関し、特に音声認識が誤認識となった場合に入力された音声の確認が出来るようにし、前記入力された音声について音声認識が失敗した原因をその音声の発声者が自覚できるようにすることで、音声認識の認識率を向上できる音声認識装置に関するものである。
【0002】
【従来の技術】
従来の音声認識装置では、音声パターンと低レベルの閾値および高レベルの閾値に応じて録音要求信号や録音中止信号を出力するとともに、これら信号に対応して音声区間を検出し、また、前記信号に基づいて音声パターンを録音したり録音を中止することで、音声パターンの始端を欠くことなく音声パターンのみを確実に録音し、さらにこの録音した音声パターンと特徴パターン記憶部に記憶した音声の特徴パターンとを一致させ、前記録音した音声パターンを再生することで前記特徴パターン記憶部に記憶された音声パターンを確認できるようにして認識率を向上させるようにしている(例えば、特許文献1参照)。
【0003】
【特許文献1】
特開平6−102894号公報(5頁、第1図、第2図、第3図)
【0004】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、録音した音声パターンの再生は外部から供給された読み出し信号をもとに行われるが、前記読み出し信号が供給されるタイミングについては何ら開示されていない。一般に音声認識機能を利用する場合、音声認識装置のユーザにおいては、通常の会話速度で発する音声を音声認識装置が円滑に失敗することなく音声認識することを期待しているため、前記読み出し信号が供給されるタイミングは重要であり、前記読み出し信号が供給されるタイミングが不定であると、ユーザが次の音声を発声して次の音声認識に移行する際の操作レスポンスの低下を招くという課題がある。
【0005】
この発明は、上記のような課題を解決するためになされたものであって、音声認識の対象となった入力された音声を最適なタイミングで再生し、音声認識を行う際の操作レスポンスを損ねない音声認識装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
この発明に係る音声認識装置は、同一音声区間について、音声パターン記憶部に記憶した音声パターンと特徴パターン記憶部に記憶されている音声パターンとの類似度に基づいて、音声認識が成功したか失敗したかの判定を行う認識可否判定部と、前記認識可否判定部による音声認識の判定結果をもとに、前記音声パターン記憶部に記憶した音声を再生し出力する音声再生部とを備えるようにしたものである。
【0007】
この発明に係る音声認識装置は、同一音声区間について、音声パターン記憶部に記憶した音声パターンを再生し、特徴パターン記憶部に記憶されている音声パターンと比較するトリガを入力する操作部と、前記操作部により入力されたトリガをもとに、前記音声パターン記憶部に記憶した音声パターンを再生する音声再生部とを備えるようにしたものである。
【0008】
【発明の実施の形態】
以下、この発明の実施の一形態について説明する。
実施の形態1.
図1は、この実施の形態1の音声認識装置の構成を示すブロック図である。この音声認識装置は、音声入力部11、音声分析部12、音声区間検出部13、特徴パターン記憶部14、認識計算部15、録音再生制御部16、音声パターン記憶部17、音声再生部18と、音声再生判定部20および操作部22を備えている。
【0009】
音声入力部11は、例えばマイクロフォンにより構成され、入力された音声に応じて電気的に変化する音声信号へ変換する。
音声分析部12はA/D変換器12aを有し、音声入力部11から供給された音声信号をディジタル信号に変換し音声パターンを生成する。
音声区間検出部13は、マイクロプロセッサ13aとメモリ13bを備えており、メモリ13bにはマイクロプロセッサ13aの動作に必要なプログラムが格納されている。マイクロプロセッサ13aは、音声分析部12から供給される音声パターンから音声区間を検出し、録音要求信号や録音中断信号を生成する。音声区間検出部13には、特徴パターン記憶部14と認識計算部15と録音再生制御部16とが接続されている。
【0010】
特徴パターン記憶部14は、音声区間検出部13において検出された音声区間に対応する音声パターンを記憶したものであり、例えばRAMにより構成されている。
認識計算部15は、音声区間検出部13から出力される音声パターンと特徴パターン記憶部14に記憶されている音声パターンとの類似度を計算するものである。
【0011】
録音再生制御部16の入力端は音声入力部11の出力端へ接続され、また録音再生制御部16の出力端は音声パターン記憶部17および音声再生部18と接続されている。録音再生制御部16は、A/D変換器16aと書込み回路16bと読出し回路16cを有している。A/D変換器16aは、音声入力部11から供給された音声信号をディジタル信号へ変換し音声パターンを生成する。書込み回路16bは、音声区間検出部13から供給される録音要求信号に応じて、A/D変換器16aから出力される音声パターンを音声パターン記憶部17へ書き込んだり、録音中断信号に応じて音声パターンの書込みを中断制御する。読出し回路16cは、音声再生判定部20から供給される読出し信号に応じて音声パターン記憶部17に記憶されている音声パターンを順次読み出して音声再生部18へ供給する。
【0012】
音声パターン記憶部17は、例えばRAMにより構成されており、録音再生制御部16から供給される音声パターンを記憶する。
音声再生部18は、D/A変換器18aを有し、録音再生制御部16の制御に応じて、音声パターン記憶部17から読み出された音声パターンをアナログ信号へ変換し音声出力する。
音声再生判定部20は、認識計算部15と録音再生制御部16との間に接続され、認識計算部15の出力結果をもとに音声再生の可否判定を行い、録音再生制御部16を制御する構成となっている。音声再生判定部20は、また、操作部22から出力された操作信号21を入力するようにも構成されており、操作信号21をトリガに録音再生制御部16を制御できる。この操作信号21は、操作パネルやリモートコントローラ送信器の操作部22の操作により発生する。
なお、音声再生判定部20は、音声区間検出部13に内蔵した、マイクロプロセッサ13aを利用する構成としてもよい。
【0013】
図2は、この実施の形態1の音声認識装置における特徴部分を構成する音声再生判定部20とその周辺部の詳細構成を示すブロック図である。図2において図1と同一または相当の部分については同一の符号を付し説明を省略するが、音声再生判定部20は音声再生可否判定部20aと認識可否判定部20bと操作キー判定部20cを備えている。
音声再生可否判定部20aは、カウンタ23aとキー識別テーブル23bを備えており、前記カウンタ23aは認識可否判定部20bの判定結果における認識不可の回数の計数に利用される。また、前記キー識別テーブル23bは、操作キー判定部20cによる操作キーの判定に用いられる。音声再生可否判定部20aは、認識可否判定部20bによる判定結果または操作キー判定部20cによる判定結果をもとに音声再生の可否判定を行い、その音声再生可否判定結果を録音再生制御部16へ出力する。
【0014】
認識可否判定部20bは、認識計算部15の出力結果をもとに認識可否、すなわち音声認識結果が成功したか失敗したかの判定を行うものである。操作キー判定部20cは、操作部22から出力された操作信号21をもとに前記キー識別テーブル23bを利用して操作されたキーを判定する。
【0015】
次に動作について説明する。
図3は、この音声認識装置の動作を示すフローチャートであり、以下、このフローチャートに従って動作を説明する。
先ず、音声入力部11へ音声を入力すると(ステップST11)、入力された音声に応じた電気信号へ変換され音声分析部12へ出力される。そして、この音声分析部12のA/D変換器12aによりディジタル信号へ変換され、音声パターンが生成され出力される。この音声パターンは音声区間検出部13へ出力され、音声区間検出部13のマイクロプロセッサ13aにより音声区間の検出が行われる。この音声区間の検出に伴い音声区間検出部13からは録音開始信号および録音中断信号が録音再生制御部16へ出力される。録音再生制御部16では、前記録音開始信号および録音中断信号をもとに前記検出された音声区間の音声を音声パターン記憶部17へ記憶する(ステップST12)。
【0016】
次に、特徴パターン記憶部14に記憶されている特長パターンと、前記音声区間の音声パターンとの一致度を認識計算部15において計算し、認識処理を行う(ステップST13)。そして、この認識計算部15における認識結果が成功であるか失敗であるかを、音声再生判定部20の認識可否判定部20bが、前記一致度の閾値を前記計算した一致度が越えているか否かをもとに判定し(ステップST14)、認識計算部15において計算した前記一致度がその閾値を越えており認識結果が成功であれば、その認識結果を提示し(ステップST15)、次に、操作キー判定部20cにおいて再生キーが押下されたか否かを判定し(ステップST16)、再生キーが押下されているのであれば、音声再生部18に記録されている前記音声区間の音声を録音再生制御部16の読出し回路16cが読み出し、音声再生部18へ出力する。音声再生部18では、D/A変換器18aが前記読み出された音声をアナログ信号へ変換し再生する(ステップST21)。
ステップST16において再生キーが押下されていない場合には、前記音声区間の音声を再生する必要はないので、音声の認識成功処理を行い(ステップST17)、認識結果を提示する(ステップST18)。
【0017】
また、ステップST14において認識結果が失敗である場合には、音声再生判定部20の認識可否判定部20bの判定結果が音声再生可否判定部20aへ供給され、音声再生可否判定部20aが備えている前記カウンタ23aが、前記認識可否判定部20bから供給された判定結果をもとに認識不可回数の計数値を「1」増加させる(ステップST19)。次に、前記カウンタ23aの認識不可回数の計数値が所定の回数(例えばn回)を越えているか否かを判定し(ステップST20)、前記カウンタ23aの認識不可回数の計数値が所定の回数に達していない場合にはステップST11へ戻り、ステップST11以降の処理を繰り返す。一方、ステップST20において前記カウンタ23aの認識不可回数の計数値が所定の回数に達していると、音声再生部18にディジタル信号として記録されている前記音声区間の音声データを録音再生制御部16の読出し回路16cが読み出し、音声再生部18へ出力する。音声再生部18では、D/A変換器18aが前記読み出された音声データをアナログ信号へ変換し再生する(ステップST21)。
なお、ステップST20においてカウンタ23aの認識不可回数の計数値が所定の回数を越えているか否かを判定するのに使用される前記所定の回数を「1回」とすれば、音声再生部18は、認識可否判定部20bが音声認識の失敗を判定すると、音声パターン記憶部17に記憶した入力された音声は、音声認識が失敗したタイミングで再生され出力されることになる。
【0018】
ステップST21において音声パターン記憶部17から読み出された音声データの再生処理が行われた後、音声の再入力があるか否かを判定する(ステップST22)。この結果、再入力がある場合、ステップST11へ戻り、ステップS11以降の処理を繰り返す。また、音声の再入力がない場合、前記ステップST14の判定結果が認識成功であるか失敗であるかに応じ、認識成功であれば成功処理を行い(ステップST17)、その認識結果を提示する(ステップST18)。また認識失敗であれば、その認識結果を提示する(ステップST18)。
【0019】
以上のように、この実施の形態によれば、音声認識に成功したときには、そのときに記録した音声の再生は行わず、直ちに次の音声認識操作に移行できるため、音声認識が成功した場合の操作レスポンスを損なうことがなく、また、音声認識に失敗したときには認識できなかった音声が再生されてユーザ自身が確認できるため、次回からの音声認識に際し成功する確率の高い音声入力についてユーザへフィードバックすることが可能になる効果がある。
【0020】
また、音声認識に成功したときであっても、ユーザが誤認識していると判断したときには、再生キーを押下することで音声パターン記憶部17に記録した音声データを再生し、発話内容を確認できる効果がある。
【0021】
また、ユーザは音声認識の失敗の回数が少ない場合、次の操作を続いて行いたい場合が多く、音声認識された音声を聞き直すようなことはないが、音声認識の失敗の回数が多くなると、時間を要することになっても音声認識に失敗した音声がどのように入力されているのかを自ら聞き直したくなるものであるが、この音声認識装置ではこのような場合にも自動的に音声認識に失敗した音声を再生してユーザ自身が聞き直すことが出来、また、この場合の再生のタイミングは図3のフローチャートに示すステップST20における所定の回数(例えばn回)を調整することで、ユーザにとって最適なタイミングで、音声認識に失敗した音声を自動的に再生してユーザ自身が聞き直すことが出来、ユーザは音声認識に失敗しない音声を入力するにはどのようにすればよいかを容易に確認できる音声認識装置が得られる。
【0022】
【発明の効果】
以上のように、この発明によれば、同一音声区間について、音声パターン記憶部に記憶した音声パターンと特徴パターン記憶部に記憶されている音声パターンとの類似度に基づいて、音声認識が成功したか失敗したかの判定を行う認識可否判定部と、前記認識可否判定部による音声認識の判定結果をもとに、前記音声パターン記憶部に記憶した音声を再生出力する音声再生部とを備えるように構成したので、音声認識に成功したときには、そのときに記録した音声の再生は行わず、直ちに次の音声認識操作に移行できるため、音声認識が成功した場合の操作レスポンスを損なうことがなく、また、音声認識に失敗したときには、音声認識を失敗したタイミングで、認識できなかった音声が再生されてユーザ自身が確認できるため、音声認識の対象となった入力された音声を最適なタイミングで再生でき、音声認識を行う際の操作レスポンスを損ねることがなく、次回からの音声認識に際し成功する確率の高い音声入力についてユーザへのフィードバックが可能になる効果がある。
【0023】
この発明によれば、同一音声区間について、音声パターン記憶部に記憶した音声パターンを再生し、特徴パターン記憶部に記憶されている音声パターンと比較するトリガを入力する操作部と、前記操作部により入力されたトリガをもとに、前記音声パターン記憶部に記憶した音声パターンを再生する音声再生部とを備えるように構成したので、音声認識に成功したときであって、例えばユーザが誤認識していると判断したときには、操作部を操作することでユーザにとって最適なタイミングで音声パターン記憶部に記録した音声データを再生でき、発話内容を確認できる効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1の音声認識装置の構成を示すブロック図である。
【図2】この発明の実施の形態1の音声認識装置における特徴部分を構成する音声再生判定部とその周辺部の詳細構成を示すブロック図である。
【図3】この発明の実施の形態1の音声認識装置の動作を示すフローチャートである。
【符号の説明】
14 特徴パターン記憶部、17 音声パターン記憶部、18 音声再生部、20a 音声再生可否判定部、20b 認識可否判定部、22 操作部、23a
カウンタ。

Claims (4)

  1. 入力された音声の音声パターンと、特徴パターン記憶部に記憶されている音声パターンとを比較し、前記入力された音声の音声認識を行う音声認識装置において、
    前記入力された音声の音声パターンを記憶する音声パターン記憶部と、同一音声区間について、前記音声パターン記憶部に記憶した音声パターンと前記特徴パターン記憶部に記憶されている音声パターンとの類似度に基づいて、音声認識が成功したか失敗したかの判定を行う認識可否判定部と、
    前記認識可否判定部による音声認識の判定結果をもとに、前記音声パターン記憶部に記憶した音声を再生出力する音声再生部と
    を備えたことを特徴とする音声認識装置。
  2. 音声再生部は、認識可否判定部が音声認識の失敗を判定すると、音声パターン記憶部に記憶した音声を再生出力することを特徴とする請求項1記載の音声認識装置。
  3. 認識可否判定部により音声認識失敗と判定された回数を計数するカウンタと、前記カウンタの計数値が所定の値に達しているかいないかに応じて音声再生を行うか否かを判定する音声再生可否判定部とを備え、音声再生部は、前記音声再生可否判定部が、前記カウンタの計数値が所定の値に達していることによる音声再生を判定すると、音声パターン記憶部に記憶した音声を再生し出力することを特徴とする請求項1記載の音声認識装置。
  4. 入力された音声の音声パターンと、特徴パターン記憶部に記憶されている音声パターンとを比較し、前記入力された音声の音声認識を行う音声認識装置において、
    前記入力された音声の音声パターンを記憶する音声バージョン記憶部と、同一音声区間について、前記音声パターン記憶部に記憶した音声パターンを再生し、前記特徴パターン記憶部に記憶されている音声パターンと比較するトリガを入力する操作部と、前記操作部により入力されたトリガをもとに、前記音声パターン記憶部に記憶した音声パターンを再生する音声再生部と
    を備えたことを特徴とする音声認識装置。
JP2003003499A 2003-01-09 2003-01-09 音声認識装置 Pending JP2004219471A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003003499A JP2004219471A (ja) 2003-01-09 2003-01-09 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003003499A JP2004219471A (ja) 2003-01-09 2003-01-09 音声認識装置

Publications (1)

Publication Number Publication Date
JP2004219471A true JP2004219471A (ja) 2004-08-05

Family

ID=32894749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003003499A Pending JP2004219471A (ja) 2003-01-09 2003-01-09 音声認識装置

Country Status (1)

Country Link
JP (1) JP2004219471A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013175523A1 (ja) * 2012-05-22 2013-11-28 三菱電機株式会社 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013175523A1 (ja) * 2012-05-22 2013-11-28 三菱電機株式会社 音声認識装置

Similar Documents

Publication Publication Date Title
EP0757342B1 (en) User selectable multiple threshold criteria for voice recognition
JP2003044069A (ja) 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法
US20030072463A1 (en) Sound-activated song selection broadcasting apparatus
JPS614392A (ja) 制御指令認識方法及び該方法を用いる音声入力装置
JP3838159B2 (ja) 音声認識対話装置およびプログラム
JP2004219471A (ja) 音声認識装置
JP2005338454A (ja) 音声対話装置
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP2754960B2 (ja) 音声認識装置
JP3442553B2 (ja) 話者認識システムおよび話者認識方法
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
US6711545B1 (en) Hand-held transmitter having speech storage actuated by transmission failure
JP3588929B2 (ja) 音声認識装置
JP4146949B2 (ja) 音声処理装置
JPH02272495A (ja) 音声認識装置
JP2004235979A (ja) 音入出力装置および音入出力方法
JP2003099094A (ja) 音声処理装置
JPH0331275B2 (ja)
JP4462658B2 (ja) 音声合成装置および記憶媒体
JP2000075896A (ja) 音声認識制御装置
JP2609874B2 (ja) 音声認識システム
JP2547611B2 (ja) 文章作成システム
JP2000200096A (ja) ディジタル情報再生装置
JP2547612B2 (ja) 文章作成システム
JP2975808B2 (ja) 音声認識装置