JP2018087838A

JP2018087838A - 音声認識装置

Info

Publication number: JP2018087838A
Application number: JP2016229749A
Authority: JP
Inventors: 一貴吉田; Kazutaka Yoshida
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-11-28
Filing date: 2016-11-28
Publication date: 2018-06-07

Abstract

【課題】同時に複数の利用者が利用する環境でも、音声による指示を正確に認識できる機能を備えた音声認識装置を提供することを目的とする。【解決手段】音声認識装置は、環境音を収録するマイクと、マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えている。【選択図】図１

Description

本発明は、音声認識装置に関するものである。より詳細には、本発明は、同定率がよく、かつ誤動作の少ない音声認識装置に関するものである。

プラント監視制御システムなどでは、キー操作の代わりに、音声認識を用いる音声入力システム、話者同定装置などが用いられている。音声認識装置または話者同定装置は、音声認識の同時利用があった場合に、優先度の高い発話者の指示のみを認識する（例えば、特許文献１から４を参照）。この発明は、複数の音声認識利用者がいる環境下で、同定率がよく、かつ誤動作の少ない音声認識装置を提案するものである。

音声認識装置として、主に音声とカメラによる画像を組み合わせることで、話者同定を行う方法が提案されている。例えば、特開２０００−３３８９８７号公報に係わる発明は、音声と唇部画像の時系列データを組み合わせている。複数の発話者や環境音が存在する環境下において、音声認識装置の利用者の音声を抽出し、操作内容を認識する方法が開示されている。

また、特開２００１−６７０９８号公報に係わる発明では、カメラの画像から、話者の顔の向きを推定している。このことにより、音声認識装置の利用者かどうかを判定する方法を提案している。

特開2000-338987号公報特開2000-347692号公報特開2001-67098号公報特開2012-14394号公報

音声認識装置を同時に複数の利用者が利用する場合、その中からどの指示を実行するのか、あるいはしないのかを判定することは、困難である。そこで、この発明では、音声認識装置を同時に複数の利用者が利用する環境でも、音声による指示を正確に認識できる機能を備えた音声認識装置を提供することを目的とする。

本発明に係わる音声認識装置は、環境音を収録するマイクと、マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えている。

本発明に係わる音声認識装置は、環境音を収録するマイクと、マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、音声認識
フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えていることにより、同時に複数の利用者が利用する環境でも、音声による指示を正確に認識できる機能を提供することができる。

本発明の実施の形態１に係わる音声認識装置の構成を示すブロック図である。本発明の実施の形態２に係わる音声認識装置の構成を示すブロック図である。本発明の実施の形態３に係わる音声認識装置の構成を示すブロック図である。本発明の実施の形態４に係わる音声認識装置の構成を示すブロック図である。本発明の実施の形態５に係わる音声認識装置の構成を示すブロック図である。

本発明の実施の形態に係わる音声認識装置について、図を参照しながら以下に説明する。なお、各図において、同一または同様の構成部分については同じ符号を付しており、対応する各構成部のサイズや縮尺はそれぞれ独立している。例えば構成の一部を変更した断面図の間で、変更されていない同一構成部分を図示する際に、同一構成部分のサイズや縮尺が異なっている場合もある。また、音声認識装置のみを記載し、他の部分については省略している。

実施の形態１．
以下、実施の形態１に関わる音声認識装置を、図を参照しながら説明する。図１は、この発明の実施の形態１による音声認識装置１００を示すブロック図である。同図において、音声認識装置１００は、マイク(集音部)２、音声認識フィルタ３、声紋フィルタ４、優先度判定部５、指示内容認識部６などから構成されている。対象者１の音声は、マイク(集音部)２から収録する。音声認識フィルタ３は、マイク２によって収録された、音声を
含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。

本発明では、予め音声認識装置１００の利用者の音声と優先度を登録している。声紋フィルタ４は、音声認識フィルタ３で検出されたすべての音声を識別し、音声認識装置の登録利用者の音声（音声データ）のみを通過させる。優先度判定部５は、声紋フィルタ４で登録利用者として識別された各音声の優先度を判定する。指示内容認識部６は、優先度判定部５で最も優先度の高いと判定された登録利用者の音声を解析して、指示内容を認識する。優先度には、例えば、登録利用者の職制が使われる。

次に、本実施の形態に係わる音声認識装置の動作について説明する。マイク２は、環境音を収録し、収録した音データを音声認識フィルタ３に出力する。音声認識フィルタ３は、周波数の音声帯域フィルタであり、マイク２を通じて入力された収録音データから音声に対応した周波数を有する音声データのみを通過させ、声紋フィルタ４に出力する。声紋フィルタ４は、声紋認証により、音声認識フィルタ３で検出された音声データから対象者(発話者)を同定する。声紋フィルタ４で、発話者が特定できなかった音声は、非利用者(第三者)の音声と判断され、破棄する。さらに、声紋フィルタ４は、登録利用者と判断し
た対象者の音声データのみを、優先度判定部５に出力する。

優先度判定部５は、予め決められている登録利用者の優先度と、声紋フィルタ４から入力された登録利用者の音声データから各音声データの優先度を判定し、最も優先度が高いと判定された音声データのみを指示内容認識部６に出力する。指示内容認識部６は、優先度判定部５から入力された音声データを解析して、発話者（登録利用者）がどのような操作を促すものかを認識する。指示内容認識部６において、入力音声が操作入力と認識されなかった場合、優先度判定部５に優先度が次点となる音声の出力を促してもよい。

したがって、本実施の形態に係わる音声認識装置は、環境音を収録するマイクと、マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えている。

この発明では、予め利用者の音声と優先度を登録し、複数の利用者の音声を声紋認証により個人を識別している。優先度の高い利用者の指示を優先することで、音声認識装置を同時に複数の利用者が利用する環境でも、音声による指示を正確に認識できる。この実施の形態１に係わる音声認識装置によれば、音声認識装置の利用者の音声以外の音(環境音
や非利用者の音声)を、操作入力として誤認識することを防ぐことができる。且つ、実施
の形態１に係わる音声認識装置は、複数の利用者が同時に発話した場合でも、より重要な処理を優先させることができる効果が得られる。

実施の形態２．
本発明の実施の形態２に係わる音声認識装置について、図を参照しながら以下に説明する。図２は、この発明の実施の形態２による音声認識装置を示すブロック図である。図２において、音声認識装置１００は、マイク(集音部)２、音声認識フィルタ３、声紋フィルタ４、優先度判定部５、指示内容認識部６、カメラ７、顔検出部８、唇部検出部９、発話期間認識部１０などから構成されている。カメラ７は、対象者１の画像を収録する。対象者１の音声は、マイク(集音部)２から収録する。音声認識フィルタ３は、マイク２によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。

顔検出部８は、カメラ７で収録された対象者の画像から顔部分を検出し、対象者の顔部画像を切り出す。唇部検出部９は、顔検出部８で切り出された顔部画像から唇部分を検出し、対象者の唇部画像を出力する。発話期間認識部１０は、唇部検出部９で検出した対象者の唇部画像から唇の動きを検出し、対象者の発話の開始と終了を認識する。このことにより、発話期間認識部１０は、対象者の発話期間を検出する。声紋フィルタ４は、発話期間認識部１０と音声認識フィルタ３で特定されたすべての音声の利用者を識別し、利用者の音声のみを通過させる。

次に、本実施の形態に係わる音声認識装置の動作について説明する。カメラ７は、複数
の対象者１を撮影し、その撮影した対象者の動画像を顔検出部８に出力する。顔検出部８は、カメラ７から入力された対象者の動画像からすべての顔部画像を切り出し、唇部検出部９に出力する。唇部検出部９は、顔検出部８から入力された顔部画像から唇部分を切り出し、発話期間認識部１０に出力する。発話期間認識部１０は、対象者の発話期間を認識するために、唇の動きから対象者の発話の開始と終了を検出し、検出結果を声紋フィルタ４に出力する。

声紋フィルタ４は、音声認識フィルタ３から入力された音声データを、発話期間認識部１０から入力された発話期間と組み合わせて音声指示データとする。音声データの取得時刻と発話期間が一致しない場合は、非利用者(第三者)の音声と判断され、破棄する。さらに、声紋フィルタ４は、声紋認証により、音声指示データの話者を同定し、登録されている対象者の音声のみを優先度判定部５に出力する。

したがって、本実施の形態に係わる音声認識装置は、対象者の画像を収録するカメラと、カメラで収録された対象者の画像から対象者の顔部分を検出し、この検出された対象者の顔部分に対応する対象者の顔部画像を切り出す顔検出部と、顔検出部で切り出された対象者の顔部画像から対象者の唇部分を検出し、この検出された対象者の唇部分に対応する対象者の唇部画像を出力する唇部検出部と、唇部検出部から出力された対象者の唇部画像から、対象者の発話期間を認識する発話期間認識部と、をさらに備え、声紋フィルタは、発話期間認識部で認識された対象者の発話期間を取り入れて、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする。

以上のように、この実施の形態２に係わる音声認識装置によれば、実施の形態１に係わる音声認識装置に発話期間を認識する機能を追加している。このことにより音声認識装置内で扱われる音声データをシンプルにすることができる。さらに、実施の形態２に係わる音声認識装置は、実施の形態１に係わる音声認識装置の効果に加え、指示内容の認識精度を上げる効果が得られる。

実施の形態３．
次に、本発明の実施の形態３に係わる音声認識装置について、図を参照しながら以下に説明する。図３は、この発明の実施の形態３による音声認識装置を示すブロック図である。同図において、音声認識装置１００は、マイク(集音部)２、音声認識フィルタ３、声紋フィルタ４、優先度判定部５、指示内容認識部６、カメラ７、顔検出部８、唇部検出部９、発話期間認識部１０、目部検出部１１、視線推定部１２などから構成されている。カメラ７は、対象者１の画像を収録する。対象者１の音声は、マイク(集音部)２から収録する。音声認識フィルタ３は、マイク２によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。

顔検出部８は、カメラ７で収録された対象者の画像から顔部分を検出し、対象者の顔部画像を切り出す。唇部検出部９は、顔検出部８で切り出された顔部画像から唇部分を検出し、対象者の唇部画像を出力する。発話期間認識部１０は、対象者の発話期間を認識するために、唇部検出部９で検出した対象者の唇部画像から唇の動きを検出し、対象者の発話
の開始と終了を認識する。

目部検出部１１は、顔検出部８で切り出された顔部画像から目部分を検出する。視線推定部１２は、目部検出部１１で検出した目画像から対象者の視線を推定し、音声認識装置の利用者かどうかを判断する。声紋フィルタ４は、発話期間認識部１０と音声認識フィルタ３と視線推定部１２で特定されたすべての音声の利用者を識別し、登録利用者の音声のみを通過させる。

次に、本実施の形態に係わる音声認識装置の動作について説明する。顔検出部８は、カメラ７から入力された動画像からすべての顔部画像を切り出し、唇部検出部９と目部検出部１１に出力する。目部検出部１１は、顔検出部８から入力された顔部画像から目部分を切り出し、視線推定部１２に対象者の目部画像を出力する。視線推定部１２は、目部検出部１１から入力された対象者の目部画像からすべての対象者の視線を推定し、対象者が音声認識装置の利用者かどうかを判断し、判断結果を声紋フィルタ４に出力する。ただし、目部画像と唇部画像は、顔部画像により紐づいており、且つ声紋フィルタ４で音声データと唇部画像の動きも紐づくため、目部画像と音声データも紐づいている。

したがって、本実施の形態に係わる音声認識装置は、顔検出部で切り出された対象者の顔部画像から対象者の目部分を検出し、この検出された対象者の目部分に対応する対象者の目画像を出力する目部検出部と、目部検出部から出力された対象者の目画像から対象者の視線を推定し、この推定された視線から、対象者が音声認識装置の利用者かどうかを判断する視線推定部と、をさらに備え、声紋フィルタは、視線推定部で利用者と判断された対象者を対象にして、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする。

以上のように、この実施の形態３に係わる音声認識装置によれば、実施の形態２に係わる音声認識装置に対象者の視線を推定する機能を追加している。このことにより、実施の形態３に係わる音声認識装置は、複数の対象者から利用者の候補を予め絞ることができる。さらに、実施の形態３に係わる音声認識装置は、実施の形態２に係わる音声認識装置の効果に加え、話者同定をより正確にできる効果が得られる。

実施の形態４．
次に、本発明の実施の形態４に係わる音声認識装置について、図を参照しながら以下に説明する。図４は、この発明の実施の形態４による音声認識装置を示すブロック図である。同図において、音声認識装置１００は、マイク(集音部)２、音声認識フィルタ３、声紋フィルタ４、優先度判定部５、指示内容認識部６、カメラ７、動作検出部１３、発話開始認識部１４などから構成されている。カメラ７は、対象者１の画像を収録する。対象者１の音声は、マイク(集音部)２から収録する。音声認識フィルタ３は、マイク２によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。

動作検出部１３は、カメラ７で収録された対象者の動画像から、対象者の動作(ジェス
チャー)を検出し、この検出された動作に対応する動作データを出力する。発話開始認識
部１４は、動作データを解析し、動作検出部１３で検出された動作から、予め登録された発話開始動作(ジェスチャー)を抽出し、対象者の発話の開始を認識する。例えば、対象者が手を挙げる動作を行った場合、発話開始認識部１４は、対象者が発話開始動作を行ったと認識する。

次に、本実施の形態に係わる音声認識装置の動作について説明する。動作検出部１３は、カメラ７から入力された動画像から対象者の動作を検出し、発話開始認識部１４に出力する。発話開始認識部１４は、入力された動画像の動作が予め登録された発話開始動作であるかどうかを判断する。発話開始動作であった場合、発話開始認識部１４は、「発話開始」を声紋フィルタ４に出力する。

声紋フィルタ４は、音声認識フィルタ３から入力された音声データを、発話開始認識部１４から入力された発話開始時期と組み合わせて音声指示データとする。音声データの取得時刻と発話開始時期が一致しない場合は、非利用者(第三者)の音声と判断され、破棄する。さらに、声紋フィルタ４は、声紋認証により、音声指示データの話者を同定し、登録されている対象者の音声のみを優先度判定部５に出力する。

したがって、本実施の形態に係わる音声認識装置は、対象者の画像を収録するカメラと、カメラで収録された対象者の画像から、対象者の動作を検出し、この検出された対象者の動作に対応する動作データを出力する動作検出部と、動作検出部から出力された対象者の動作データから、予め登録されている発話開始動作を抽出し、この抽出された対象者の発話開始動作から対象者の発話開始時期を認識する発話開始認識部と、をさらに備え、声紋フィルタは、発話開始認識部で認識された対象者の発話開始時期を取り入れて、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする。

以上のように、この実施の形態４に係わる音声認識装置によれば、実施の形態１に係わる音声認識装置に、発話開始を認識する機能を追加している。このことにより、実施の形態４に係わる音声認識装置は、実施の形態１に係わる音声認識装置の効果に加え、指示内容の認識精度を上げる効果が得られる。

実施の形態５．
次に、本発明の実施の形態５に係わる音声認識装置について、図を参照しながら以下に説明する。実施の形態５に係わる音声認識装置は、実施の形態３に係わる音声認識装置における対象者の視線を推定する機能と、実施の形態４に係わる音声認識装置における発話期間を認識する機能とを併せ持つ音声認識装置である。

図５は、この発明の実施の形態５による音声認識装置を示すブロック図である。同図において、音声認識装置１００は、マイク(集音部)２、音声認識フィルタ３、声紋フィルタ４、優先度判定部５、指示内容認識部６、カメラ７、顔検出部８、目部検出部１１、視線推定部１２、動作検出部１３、発話開始認識部１４などから構成されている。カメラ７は、対象者１の画像を収録する。対象者１の音声は、マイク(集音部)２から収録する。音声認識フィルタ３は、マイク２によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。

顔検出部８は、カメラ７で収録された対象者の画像から顔部分を検出し、対象者の顔部画像を切り出す。目部検出部１１は、顔検出部８で切り出された顔部画像から目部分を検出する。視線推定部１２は、目部検出部１１で検出した目画像から対象者の視線を推定し、対象者が音声認識装置の利用者かどうかを判断する。

動作検出部１３は、カメラ７で収録された対象者の動画像から、対象者の動作(ジェス
チャー)を検出する。発話開始認識部１４は、動作検出部１３で検出された動作から、予
め登録された発話開始動作(ジェスチャー)を検出し、対象者の発話の開始を認識する。例えば、対象者が手を挙げた場合、発話開始動作であると認識する。声紋フィルタ４は、発話期間認識部１０と音声認識フィルタ３と発話開始認識部１４で特定されたすべての音声の利用者を識別し、利用者の音声のみを通過させる。

次に、本実施の形態に係わる音声認識装置の動作について説明する。カメラ７は、複数の対象者１を撮影し、その撮影した動画像を顔検出部８と動作検出部に１３出力する。顔検出部８は、カメラ７から入力された動画像からすべての顔部画像を切り出し、目部検出部１１に出力する。目部検出部１１は、顔検出部８から入力された顔部画像から目部分を切り出し、視線推定部１２に対象者の目部画像を出力する。視線推定部１２は、目部検出部１１から入力された対象者の目部画像からすべての対象者の視線を推定し、対象者が音声認識装置の利用者かどうかを判断し、判断結果を声紋フィルタ４に出力する。ただし、目部画像と動作データは、顔部画像により紐づいており、且つ声紋フィルタ４で音声データと目部画像の動きも紐づくため、動作データと音声データも紐づいている。

動作検出部１３は、カメラ７から入力された動画像から対象者の動作を検出し、発話開始認識部１４に出力する。発話開始認識部１４は、入力された動画像の動作が予め登録された発話開始動作であるかどうかを判断する。発話開始動作であった場合、発話開始認識部１４は、「発話開始」を声紋フィルタ４に出力する。声紋フィルタ４は、声紋認証により、音声指示データの話者を同定し、登録されている対象者の音声を優先度判定部５に出力する。

声紋フィルタ４は、音声認識フィルタ３から入力された音声データを、発話開始認識部１４から入力された発話開始時期と組み合わせて音声指示データとする。音声データの取得時刻と発話開始時期が一致しない場合は、非利用者(第三者)の音声と判断され、破棄する。さらに、声紋フィルタ４は、視線推定部１２から入力された利用者判定の判断結果に従い、音声認識装置の利用者と判断された音声データのみを優先度判定部５に出力する。

したがって、本実施の形態に係わる音声認識装置は、カメラで収録された対象者の画像から対象者の顔部分を検出し、この検出された対象者の顔部分に対応する対象者の顔部画像を切り出す顔検出部と、顔検出部で切り出された対象者の顔部画像から対象者の目部分を検出し、この検出された対象者の目部分に対応する対象者の目画像を出力する目部検出部と、目部検出部から出力された対象者の目画像から対象者の視線を推定し、この推定された視線から、対象者が音声認識装置の利用者かどうかを判断する視線推定部と、をさらに備え、声紋フィルタは、視線推定部で利用者と判断された対象者を対象にして、音声認
識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする。

以上のように、この実施の形態５に係わる音声認識装置によれば、実施の形態４に係わる音声認識装置に対象者の視線を推定する機能を追加している。このことにより、複数の対象者から利用者の候補を予め絞ることができる。さらに、実施の形態５に係わる音声認識装置は、実施の形態２の効果に加え、話者同定をより正確にでき、且つ対象者の動作から発話開始を認識する機能を追加することで、指示内容の認識精度を上げる効果が得られる。

本願に係わる音声認識装置は、環境音から発話を検出したい複数の対象者の音声を抽出する音声抽出手段と、上記音声抽出手段により抽出された音声の声紋認証手段と、上記声紋認証手段により認証された音声のうち優先度の高い対象者を判定する優先発話者判定手段と、上記優先発話者判定手段により選択された優先度の最も高い音声の指示内容を認識する手段を備えている。

また、本願に係わる音声認識装置は、発話を検出したい複数の対象者の画像を撮影するカメラと、上記カメラにより撮影された画像から複数の対象者の顔を検出する顔検出手段と、上記顔検出手段により切り出された顔部画像から、唇を検出する唇部検出手段と、上記唇部検出手段により検出された唇部画像から複数の対象者の発話開始から終了を認識する手段を備えている。

また、本願に係わる音声認識装置は、顔検出手段により切り出された顔部画像から、目を検出する目部検出手段と、上記目部検出手段により検出された目部画像から対象者の視線を推定することで、発話者が音声認識の利用者かどうかを判定することを特徴としている。

また、本願に係わる音声認識装置は、発話を検出したい複数の対象者の画像を撮影するカメラと、上記カメラにより撮影された画像から対象者の発話開始の動作(ジェスチャー)を検出する発話開始動作検出機能を備えている。

なお、本発明は、その発明の範囲内において、実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。

１００音声認識装置、１対象者、２マイク(集音部)、３音声認識フィルタ、４声紋フィルタ、５優先度判定部、６指示内容認識部、７カメラ、８顔検出部、９
唇部検出部、１０発話期間認識部、１１目部検出部、１２視線推定部、１３動作検出部、１４発話開始認識部

Claims

環境音を収録するマイクと、
前記マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、
前記音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、
前記声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、
前記優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えている音声認識装置。
対象者の画像を収録するカメラと、
前記カメラで収録された対象者の画像から対象者の顔部分を検出し、この検出された対象者の顔部分に対応する対象者の顔部画像を切り出す顔検出部と、
前記顔検出部で切り出された対象者の顔部画像から対象者の唇部分を検出し、この検出された対象者の唇部分に対応する対象者の唇部画像を出力する唇部検出部と、
前記唇部検出部から出力された対象者の唇部画像から、対象者の発話期間を認識する発話期間認識部と、をさらに備え、
前記声紋フィルタは、前記発話期間認識部で認識された対象者の発話期間を取り入れて、前記音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項１に記載の音声認識装置。
前記顔検出部で切り出された対象者の顔部画像から対象者の目部分を検出し、この検出された対象者の目部分に対応する対象者の目画像を出力する目部検出部と、
前記目部検出部から出力された対象者の目画像から対象者の視線を推定し、この推定された視線から、対象者が音声認識装置の利用者かどうかを判断する視線推定部と、をさらに備え、
前記声紋フィルタは、前記視線推定部で利用者と判断された対象者を対象にして、前記音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項２に記載の音声認識装置。
対象者の画像を収録するカメラと、
前記カメラで収録された対象者の画像から、対象者の動作を検出し、この検出された対象者の動作に対応する動作データを出力する動作検出部と、
前記動作検出部から出力された対象者の動作データから、予め登録されている発話開始動作を抽出し、この抽出された対象者の発話開始動作から対象者の発話開始時期を認識する発話開始認識部と、をさらに備え、
前記声紋フィルタは、前記発話開始認識部で認識された対象者の発話開始時期を取り入れて、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項１に記載の音声認識装置。
カメラで収録された対象者の画像から対象者の顔部分を検出し、この検出された対象者の顔部分に対応する対象者の顔部画像を切り出す顔検出部と、
前記顔検出部で切り出された対象者の顔部画像から対象者の目部分を検出し、この検出された対象者の目部分に対応する対象者の目画像を出力する目部検出部と、
前記目部検出部から出力された対象者の目画像から対象者の視線を推定し、この推定された視線から、対象者が音声認識装置の利用者かどうかを判断する視線推定部と、をさらに備え、
前記声紋フィルタは、前記視線推定部で利用者と判断された対象者を対象にして、音声認
識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項４に記載の音声認識装置。