JP2010197727A

JP2010197727A - 音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体

Info

Publication number: JP2010197727A
Application number: JP2009042596A
Authority: JP
Inventors: Toru Iwazawa; 透岩沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-02-25
Filing date: 2009-02-25
Publication date: 2010-09-09

Abstract

【課題】音声認識の精度を向上させる音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体を提供する。
【解決手段】音声を入力する音声入力手段と、入力された音声の到来方向を検出し、音源方向検出結果を出力する音源方向検出手段と、入力された音声に発話区間を検出し、発話区間に対し認識処理を行い、音声認識結果を出力する音声認識手段と、音声認識手段が音声検出中であるか否かを出力する音声検出状態取得手段と、音声検出中でない場合は音源方向検出手段から出力された音源方向検出結果を出力し、音声検出中である場合は音声検出中でなくなるまで音源方向検出結果の出力を抑制する出力判定手段と、出力判定手段から出力された音源方向検出結果、若しくは音声認識手段から出力された音声認識結果の少なくともいずれかに従って動作を行う動作手段と、を備えることを特徴とする。
【選択図】図１

Description

本発明は、音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体に関し、特に音声認識の精度を向上させる音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体に関する。

音声認識に関する技術としては、音源方向検出機能と音声認識機能を搭載したロボットを利用した音声認識手法が提案されている（特許文献１、２参照）。これらは、ロボットがまず音の到来方向を検出し、到来方向を向いた、すなわちマイクを向けた上で、音声認識処理を開始する。

また、音源方向検出機能と音声認識機能を搭載したロボットに、さらに画像処理による顔検出機能を組み合わせた手法が提案されている（特許文献３参照）。これは、ロボットがまず音の到来方向を検出し、到来方向を向くまでは上述した技術と同様であるが、音の到来方向を向いた後で画像処理による顔検出を行い、利用者が前方にいることを確認した上で音声認識処理を開始する。

また、上記のような音声認識機能を搭載したロボットが、自立的に行動する機能を優先させた状態と、音声認識を優先させた状態とを適宜遷移するペットロボットが提案されている（特許文献４参照）。遷移手段は、音声認識手段によって所定の単語（「お話ししよう」等）が認識された場合、自立的に行動する機能を優先させた状態から音声認識を優先させた状態、若しくはその反対へ遷移させる。自立的行動機能と、音声認識とのいずれかを優先させているのは、自律行動中はアクチュエータの動作音などが雑音となったりすることに起因して音声の認識率が低下してしまい、ユーザの発声に対応して速やかに動作させることが出来ないためである（特許文献４、段落０００４）。騒音と音声認識に関しては、音声検出頻度過多と判定された場合に音声検出抑制制御を行い、音声検出をされ難くする音声認識システムが提案されている（特許文献５参照）。

特開２００７−２２１３００号公報特開２００３−０６２７７７号公報特開２００４−２８３９２７号公報特開２００３−３０５６７７号公報ＷＯ２００８／１０８２３９

佐藤他, "パーソナルロボットPaPeRoにおける近接話者方向推定と2マイク音声強調", 人工知能学会AIチャレンジ研究会, Vol.22, pp.41-46, (2005)

しかしながら、上記のような技術には、以下の問題点がある。一般に、音源方向検出機能における処理は、音声と推定される区間の継続時間を利用し、継続時間が閾値を超えたら検出結果を出力する。このため利用者が発話途中に音源方向検出結果が出力される場合がある。この場合、発話中に音の到来方向へ音声認識のマイクを向ける処理が発生するため、音声認識に使用する入力音声が、動作音混入やマイク移動による音質劣化による悪影響を受けてしまう問題があった。このため、音源方向検出により利用者の方角を向かせた後で再度音声認識処理を行う必要があり、音声認識処理を行うために２回の音声入力が必要であった。

上述した騒音と音声認識に関する技術についても以下の問題点がある。例えば特許文献４には、所定の音声が認識された場合だけでなく、所定のセンサが所定の信号を検知した場合においても遷移するようにしても良い（段落００６７）、と記載されている。これは例えばユーザからの接触等（段落００７１）である。ユーザの発声をトリガとして遷移する場合は、所定の発声であるか認識する必要があるが、所定の発声を認識している途中の判断については特に開示されていない。従って認識中に雑音がある場合の対処が考慮されておらず問題となる。特許文献５記載の音声認識システムは、音声検出頻度に基づく音声検出抑制、動作音制御を特徴とするが、いずれも抑制する制御だけである。音声認識を向上させるための積極的な動作（音源方向検出、音源方向への移動等）については考慮されていない点が問題であり、より音声認識の精度を向上させることが望まれる。

本発明はこのような状況に鑑みてなされたものであり、音源方向検出された音の到来方向への動作を抑制することで、音声認識処理への悪影響を低減し、音声認識の精度を向上させることを目的とする。

本発明に係る音声認識装置は、音声を入力する音声入力手段と、前記入力された音声の到来方向を検出し、音源方向検出結果を出力する音源方向検出手段と、前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を出力する音声認識手段と、前記音声認識手段が前記発話区間を検出している状態を示す音声検出中であるか否かを出力する音声検出状態取得手段と、前記音声検出状態取得手段から出力された音声検出状態が音声検出中でない場合は、前記音源方向検出手段から出力された音源方向検出結果を出力し、音声検出中である場合は、音声検出中でなくなるまで前記音源方向検出結果の出力を抑制する出力判定手段と、前記出力判定手段から出力された音源方向検出結果、若しくは前記音声認識手段から出力された音声認識結果の少なくともいずれかに従って動作を行う動作手段と、を備えることを特徴とする。

本発明に係るロボットは、対話型ロボットであって、請求項１から５のいずれか１項に記載の音声認識装置を備え、前記音声認識装置が備える動作手段は、音源方向検出手段が出力する音源方向検出結果の方角を振り向き、かつ音声認識手段が出力する音声認識結果に応じた言動を実行するよう動作させることを特徴とする。

本発明に係る音声認識方法は、音声を入力するステップと、前記入力された音声の到来方向を検出し、音源方向検出結果を出力するステップと、前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を動作部に出力する音声認識部が前記発話区間を検出している状態を示す音声検出中であるか否かを出力するステップと、前記音声認識部が音声検出中でない場合は前記出力された音源方向検出結果を前記動作部に出力し、音声検出中である場合は音声検出中でなくなってから前記音源方向検出結果を前記動作部に出力するステップと、前記動作部が、前記音源方向検出結果、若しくは前記音声認識結果の少なくともいずれかに従って動作を行うステップと、を備えることを特徴とする。

本発明に係る音声認識プログラムは、音声を入力する処理と、前記入力された音声の到来方向を検出し、音源方向検出結果を出力する処理と、前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を動作部に出力する音声認識部が前記発話区間を検出している状態を示す音声検出中であるか否かを出力する処理と、前記音声認識部が音声検出中でない場合は前記出力された音源方向検出結果を前記動作部に出力し、音声検出中である場合は音声検出中でなくなってから前記音源方向検出結果を前記動作部に出力する処理と、前記動作部が、前記音源方向検出結果、若しくは前記音声認識結果の少なくともいずれかに従って動作を行う処理と、をコンピュータに実行させることを特徴とする。

本発明に係る記録媒体は、上記本発明に係る音声認識プログラムの処理を記録するコンピュータ読取り可能な記録媒体である。

本発明によれば、音源方向検出された音の到来方向への動作を抑制することで、音声認識処理への悪影響を低減し、音声認識の精度を向上させることが出来る。

本発明の第１の実施形態に係る音声認識装置のブロック構成図である。本発明の第１の実施形態に係る出力判定処理を示すフローチャートである。本発明の第２の実施形態に係る音声認識装置のブロック構成図である。本発明の第２の実施形態に係る音声認識期待度判定部７で使用するマトリクスの一例を示す図である。本発明の第２の実施形態に係る音声認識期待度判定部７で使用するマトリクスの一例を示す図である。本発明の第２の実施形態に係る出力判定処理を示すフローチャートである。本発明の実施例として想定するロボットの概略図である。本発明の実施例として想定するロボットの動作の一例を示す図である。

以下に、本発明の実施形態について図面を用いて詳細に説明する。なお、以下に述べる実施形態は、本発明の好適な実施形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。

〔第１の実施形態〕
（構成）
図１は、本発明の第１の実施形態に係る音声認識装置のブロック構成図である。本実施形態に係る音声認識装置は、音声入力部１と、音源方向検出部２と、音声認識部３と、音声検出状態取得部４と、出力判定部５と、動作部６と、から構成される。

音声入力部１は、マイク等から入力される入力信号（音声データ）を出力する。

音源方向検出部２は、音声入力部１から入力された音声データから音の到来方向を検出し、到来方向を推定し正面からの相対角度を音源方向検出結果として出力する。音源方向検出の方法は様々な手法が提案されているが、例えば非特許文献１に記載の方向推定方法を利用することが可能である。非特許文献１に記載の方向推定方法は、方向推定の原理としては、複数のマイクロホンに入力された信号の時間差に基づいて行うが、音声発生源（例えば人間）と、マイクロホンが同一水平面上に位置せず、距離も十分に遠くない場合も考慮し、近接音場特有の方向推定についても開示されている。近接音場特有の方向推定では、２つのマイクロホンに入力された信号の時間差と、２つのマイクロホンの中心から音源までの水平距離と、音源の高さを用いて音の到来方向を求める。

音声認識部３は、音声入力部１から入力された音声データに対し、人間が発話していると推定される発話区間を検出し、得られた発話区間に対し認識処理を行い、音声認識結果を出力する。音声認識部３は、現在、発話区間を検出しているか否かを示す音声検出状態を保持しているものとする。

音声検出状態取得部４は、音声認識部３が保持する音声検出状態を取得し出力する。

出力判定部５は、音源方向検出部２が出力する音源方向検出結果を受け、音声検出状態が音声検出中でなければ音源方向検出結果を出力し、音声検出中であれば音声検出中でなくなるまで音源方向検出結果の出力を抑制し、音声検出中でなくなった段階で出力する。

動作部６は、音声認識部３もしくは出力判定部５から出力された結果に応じた動作を行う。

ここで、出力判定部５が、音声検出中であるため結果の出力抑制を行うと、音声入力部１からは音声が入力され続けるため、音源方向検出部２からの音源方向検出結果の出力が滞るといった問題が考え得る。この場合は、出力判定部５で出力抑制が開始された時点からの経過時間を示す出力抑制時間を計測し、出力抑制時間が所定の閾値を超えた場合は、音源方向検出結果を音声検出状態に関わらず動作部６に出力しても良い。

また、音源方向検出結果の出力抑制中に新たな音源方向検出結果が出力された場合のように、出力が重複することも考え得る。この場合は、例えば、古い音源方向検出結果を破棄し最新の音源方向検出結果を出力することが考え得る。

（動作処理）
次に、本実施形態に係る出力判定部５の動作処理の一例について詳細に説明する。図２は、本実施形態に係る出力判定処理の一例を示すフローチャートである。

本実施形態は、出力判定部５が、音源方向検出部２から音源方向検出結果が入力された場合に、音声認識部３が音声検出中の状態であれば、終了するまで出力抑制を行い、出力抑制中に音源報告検出部２から新たな音源方向検出結果が入力された場合は最新の結果を使用する例である。

まず、音源方向検出部２から音源方向検出結果が出力されている場合は（ステップＳ１／Ｙｅｓ)、音声認識部３で音声検出中かどうか判断する（ステップＳ２）。音声認識部３の状態は、音声検出状態取得部４から音声検出状態が出力される。

音声検出中でなければ（ステップＳ２／Ｎｏ）、音源方向結果を出力する（ステップＳ３）。

音声検出中である場合は（ステップＳ２／Ｎｏ）、既に出力待ちの音源方向検出結果を破棄し（ステップＳ４）、音源方向検出部２から新たに出力された音源方向検出結果を出力待ちに登録する（ステップＳ５）。

ステップＳ１において音源方向検出結果が出力されていない場合は（ステップＳ１／Ｎｏ）、出力待ちの音源方向検出結果があるか否か判断する（ステップＳ６）。

出力待ちの音源方向検出結果がある場合は（ステップＳ６／Ｙｅｓ）。さらに、音声検出状態取得部４からの出力に基づき音声認識部３が音声検出中か否か判断し、検出中でなかった場合（ステップＳ７／Ｎｏ）、出力待ちであった音源方向検出結果を動作部６に出力し（ステップＳ８）、出力待ちを解除する（ステップＳ９）。

上記実施形態により、音源方向検出と音声認識の機能を並行に動作させ、１回の音声入力に対して同時に処理することができ、利用者の方角を向く処理と音声認識結果に対応した反応を１回の音声入力で行える。

また、音源方向検出結果出力時に音声検出中であるか否かを参照し、音声検出中であれば音源方向検出結果の出力を抑制し、雑音を生じる動作を行わないことで、音声認識中に音源方向検出結果が出力された場合に生じる音声認識処理への悪影響を低減することができる。例えば、音源方向検出結果が出力されると、動作部６により音源方向へ向くよう動作するが、この際に発生するモータ音により音声認識に悪影響が出る場合がある。

以上のように、本実施形態によれば、音声検出中の場合は、動作部６への結果出力を抑制し、音の到来方向を向く動作を遅らせることができる。

〔第２の実施形態〕
（構成）
次に、本発明の第２の実施形態に係る音声認識装置について説明する。図３は、本実施形態に係る音声認識装置のブロック構成図である。

本実施形態に係る音声認識装置は、図１に示す第１の実施形態に係る音声認識装置の構成に加え、音声認識期待度判定部７を備え、出力判定部５における出力判定に音声検出状態と音声認識期待度を使用することを特徴とする。

ここでは、例えば集音マイクの指向性により音声の入力角度に応じ音声認識精度が変動するような状況を想定している。

音声認識期待度判定部７は、音源方向検出部２から入力された音源方向検出結果に応じ、音声認識期待度を判定する。音声認識期待度は、音声認識部３において正しい音声認識結果が得られる期待度を示す。本実施形態に係る音声認識期待度は、集音マイクへの音声入力角度に応じ音声認識の期待度を「低」「中」「高」の３段階で表現するものを一例として説明する。集音マイクへの音声入力角度に応じ、とは、例えば、集音マイクの方角を正面とみなし音声入力角度と集音マイクの方角のずれに基づき、音声認識の期待度を出力する。

音声認識期待度が「低」の場合は、出力判定部５は、音声検出の終了を待たずに音源方向検出結果を動作部６に出力する。これは、音声認識部３からの音声認識結果出力を待つよりも、利用者の方角へ集音マイクを向けるよう動作させた方が良いと判断するためである。音源方向検出結果が動作部６に出力されることで、動作部６は、音源方向（利用者の方角）にマイク等を向けるよう動作させることが出来る。

音声認識期待度が「高」の場合は、出力判定部５は、音源方向検出結果を破棄する。これは、音声認識期待度が高いので利用者の方角へ集音マイクを向ける必要がないと判断するためである。

なお、これら音声認識期待度に応じた音源方向検出結果の扱いはあくまで一例であり、本発明はこれに限定されるものではない。例えば、音声認識期待度が「低」の場合には、音源方向検出結果の出力に加え、音声認識部３で行われている認識処理を停止させることも考え得る。

また、音声認識期待度は、集音マイクの指向性によっても異なる。たとえば、集音マイクが無指向性である場合と、鋭角な指向性を持つ（例えば指向性マイクやマイクロホンアレイ）場合とでは音声検出結果に対する音声認識期待度は明らかに異なる。

図４及び図５に、音声認識期待度判定部７で使用するマトリクスの一例を示す。音源方向検出角度θは、集音マイクと音源方向検出方向との角度差を0度から360度の値で示したものである。無指向性のマイクを使用した場合は、マイクの特性上0度から360度で一様な音声認識期待度となる。

図４及び図５は、いずれも指向性の集音マイクを想定したものである。図４に記載のマイクでは集音マイクの正面からのずれがプラスマイナス方向に３０度以内であれば音声認識期待度は「高」で、それ以外は「中」としている。図５は図４に記載のマイクよりさらに鋭角な指向性を持つ集音マイクを想定したものであり、集音マイクの正面からプラスマイナス方向に１５度以内であれば音声認識期待度は「高」、１５度より大きく３０度以内であれば「中」、３０度より大きければ「低」としている。

（動作処理）
次に、本実施形態に係る出力判定部５の動作について詳細に説明する。図６は、本実施形態に係る出力判定処理の一例を示すフローチャートである。

本実施形態に係る出力判定部５は、音源方向検出部２から音源方向検出結果が出力された場合に（ステップＳ１／Ｙｅｓ）、音源方向検出結果の音源方向検出角度を利用して音声認識期待度判定部７から出力される音声認識期待度を取得する（ステップＳ１１）。

音声認識期待度が「低」である場合は（ステップＳ１２／Ｙｅｓ）、音源方向検出結果を動作部６に出力する（ステップＳ１３）。音声認識期待度が「高」である場合は（ステップＳ１４／Ｙｅｓ）、出力判定部５は音源方向検出結果を破棄する（ステップＳ１４）。

音声認識期待度が「低」でも「高」でもない場合は（ステップＳ１２／Ｎｏ、ステップＳ１４／Ｎｏ）、図２に示す第１の実施形態のフローチャートに記載のステップＳ２〜Ｓ５と同様の処理を行う（ステップＳ１６〜Ｓ１９）。

音源方向検出部２から音源方向検出結果が出力されない場合は（ステップＳ１０／Ｎｏ）、図２に示す第１の実施形態のフローチャートに記載のステップＳ６〜Ｓ９と同様の処理を行う（ステップＳ２０〜Ｓ２３）。

上記実施形態により、音源方向検出結果として得られた音源方向検出角度から音声認識の期待度を推定し、期待度が高い場合は音源方向検出結果を出力せず音源方向を向く動作をさせない、音声認識の期待度が低い場合は直ちに音源方向検出結果を出力し音声検出中か否かにかかわらず音源方向を向く動作をさせるといった処理を行わせることが可能となる。

〔実施例〕
次に、具体的な実施例を用いて本発明の動作を説明する。具体的な実施例として、図７に示すロボット１０を想定する。

ロボット１０は、可動部１００と、音源方向検出用マイク１０１と、音声認識用マイク１０２と、を備える。ロボット１０は、上記第１の実施形態若しくは第２の実施形態に示す構成を備え、音源方向検出処理と音声認識処理を並行に実行することができるものとする。

本実施例では、音源方向検出結果は、音の継続時間に応じ検出結果が出力されるが、ここでは利用者が発話中にその継続時間に達し、発話中に音源方向検出結果が出力された場合について説明する。

図８に、音声認識部３と出力判定部５から結果出力された場合の動作部６で行われるロボット１０の動作の対応表を示す。ロボット１０が備える音声認識部３は、前進、後退の２単語を認識し、動作部６は、各々の認識結果に対し１０cm前進、１０cm後退といった動作を行う。

また、音源方向検出部２から音源方向検出結果が出力された場合は、得られた音源方向検出結果の音源方向検出角度θの方角へ回転するものとする。回転する動作は、ロボット１０の可動部１００を動作させるため、モータ音の動作が発生し音声認識に悪影響を与える要因となりうる。従って、音声認識中は、音源方向検出結果の出力を抑制し、音の到来方向を向く動作を遅らせる。

ロボット１０が、上記第２実施形態に示す音声認識期待度判定部７を備える構成の場合は、図５に示す、指向性マイクを想定したマトリクスに従って、音声認識期待度を判定するものとする。

例えば、ロボット１０に対し、音声認識用マイク１０２より入力角度１０度の方角から「前進」と発話し、正しい音源方向と音声認識結果が出力されたと想定する。この場合ロボット１０は、音源方向検出結果が破棄されるため、回転動作を行わず、１０cm前進する動作のみを行う。

次に、入力角度２０度の方角から「前進」と発話し、正しい音源方向と音声認識結果が出力された場合を想定する。この場合ロボット１０は、音源方向検出結果が出力されると、音声認識部３が音声検出中である場合は出力抑制される。そして、音声検出が終了した段階で音源方向検出結果が動作部６へ出力される。従って、利用者から見ると、発話中にはロボットは動作せず、発話が終了した段階でロボットが利用者の方角へ音声入力マイク１０２を向けるよう回転する。そして、音声認識結果に対応した１０cm前進する動作を行う。

次に、入力角度１３５度の方角から「前進」と発話し、音源方向検出結果は正しく出力され、音声認識結果は出力されなかった場合を想定する。この場合ロボット１０は、音源方向検出結果が出力されると、音声認識部３が音声検出中であるか否かに関わらず直ちに１３５度の方角を向く動作をする。従って、音声発話中に音源方向検出結果が出力された場合は、利用者が発話中であってもロボット１０が利用者の方角へ音声入力マイク１０２を向ける回転動作を行う。

なお、上述した各実施形態は、本発明の好適な実施形態であり、上記各実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において当業者が上記各実施形態の修正や代用を行い、種々の変更を施した形態を構築することが可能である。

例えば、上述した実施形態における制御動作は、ハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。

なお、ソフトウェアによる処理を実行する場合には、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれているコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

例えば、プログラムは、記録媒体としてのハードディスクやＲＯＭ（Read Only Memory）に予め記録しておくことが可能である。あるいは、プログラムは、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory），ＭＯ（Magneto optical）ディスク，ＤＶＤ（Digital Versatile Disc）、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的、あるいは、永続的に格納（記録）しておくことが可能である。

このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することが可能である。

なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、ＬＡＮ（Local Area Network）、インターネットといったネットワークを介して、コンピュータに有線で転送したりし、コンピュータでは、転送されてきたプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることが可能である。

また、上記実施形態で説明した処理動作に従って時系列的に実行されるのみならず、処理を実行する装置の処理能力、あるいは、必要に応じて並列的にあるいは個別に実行するように構築することも可能である。

また、上記実施形態で説明したシステムは、複数の装置の論理的集合構成にしたり、各装置の機能を混在させたりするように構築することも可能である。

本発明によれば、音声認識を要するシステムにおいて、特に利用者がマイクの正面にいない場合に利用者の方角へマイクを向け音声認識を行うシステムといった用途に適用できる。また、音声対話によるコミュニケーションを必要とするキャラクタエージェントやロボットといった用途にも適用可能である。

１音声入力部
２音源方向検出部
３音声認識部
４音声検出状態取得部
５出力判定部
６動作部
７音声認識期待度判定部
１０ロボット
１００可動部
１０１音声認識用マイク
１０２音源方向検出用マイク

Claims

音声を入力する音声入力手段と、
前記入力された音声の到来方向を検出し、音源方向検出結果を出力する音源方向検出手段と、
前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を出力する音声認識手段と、
前記音声認識手段が前記発話区間を検出している状態を示す音声検出中であるか否かを出力する音声検出状態取得手段と、
前記音声検出状態取得手段から出力された音声検出状態が音声検出中でない場合は、前記音源方向検出手段から出力された音源方向検出結果を出力し、音声検出中である場合は、音声検出中でなくなるまで前記音源方向検出結果の出力を抑制する出力判定手段と、
前記出力判定手段から出力された音源方向検出結果、若しくは前記音声認識手段から出力された音声認識結果の少なくともいずれかに従って動作を行う動作手段と、
を備えることを特徴とする音声認識装置。
前記出力判定手段は、前記音源方向検出結果出力を抑制した場合は出力抑制時間を計測し、前記出力抑制時間が予め定めた閾値を超えた際には、前記抑制した音源方向検出結果を出力することを特徴とする請求項１記載の音声認識装置。
前記音源方向検出結果を入力とし、前記音源方向検出結果に対する音声認識期待度を出力する音声認識期待度判定手段を備え、
前記出力判定手段は、前記音声検出状態と前記音声認識期待度に基づいて、前記音源方向検出結果を出力するか否か判定することを特徴とする請求項１又は２記載の音声認識装置。
前記出力判定手段は、前記音源方向検出結果が出力された場合に、前記音声認識期待度判定手段から出力された音声認識期待度が高い場合は、前記音源方向検出結果を出力しないことを特徴とする請求項３記載の音声認識装置。
前記出力判定手段は、前記音源方向検出結果が出力された場合に、前記音声認識期待度判定手段から出力された音声認識期待度が低い場合は、前記音声検出状態を考慮せず、前記音源方向検出結果を出力することを特徴とする請求項３又は４記載の音声認識装置。
対話型ロボットであって、
請求項１から５のいずれか１項に記載の音声認識装置を備え、
前記音声認識装置が備える動作手段は、音源方向検出手段が出力する音源方向検出結果の方角を振り向き、かつ音声認識手段が出力する音声認識結果に応じた言動を実行するよう動作させることを特徴とするロボット。
音声を入力するステップと、
前記入力された音声の到来方向を検出し、音源方向検出結果を出力するステップと、
前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を動作部に出力する音声認識部が前記発話区間を検出している状態を示す音声検出中であるか否かを出力するステップと、
前記音声認識部が音声検出中でない場合は前記出力された音源方向検出結果を前記動作部に出力し、音声検出中である場合は音声検出中でなくなってから前記音源方向検出結果を前記動作部に出力するステップと、
前記動作部が、前記音源方向検出結果、若しくは前記音声認識結果の少なくともいずれかに従って動作を行うステップと、
を備えることを特徴とする音声認識方法。
音声を入力する処理と、
前記入力された音声の到来方向を検出し、音源方向検出結果を出力する処理と、
前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を動作部に出力する音声認識部が前記発話区間を検出している状態を示す音声検出中であるか否かを出力する処理と、
前記音声認識部が音声検出中でない場合は前記出力された音源方向検出結果を前記動作部に出力し、音声検出中である場合は音声検出中でなくなってから前記音源方向検出結果を前記動作部に出力する処理と、
前記動作部が、前記音源方向検出結果、若しくは前記音声認識結果の少なくともいずれかに従って動作を行う処理と、
をコンピュータに実行させることを特徴とする音声認識プログラム。
請求項８記載の音声認識プログラムの処理を記録するコンピュータ読取り可能な記録媒体。