JP2014153663A

JP2014153663A - 音声認識装置、および音声認識方法、並びにプログラム

Info

Publication number: JP2014153663A
Application number: JP2013025501A
Authority: JP
Inventors: Keiichi Yamada; 敬一山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-02-13
Filing date: 2013-02-13
Publication date: 2014-08-25
Also published as: WO2014125791A1; EP2956940A1; US20150331490A1; EP2956940B1

Abstract

【課題】音源方向と音声区間の解析に基づく精度の高い音声認識処理を実現する装置、方法を提供する。
【解決手段】画像情報、および音声情報を入力する情報入力部と、情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、音源方向・音声区間決定部は、音声区間の開始時間と音源方向情報の取得処理と、音声区間の終了時間と音源方向情報の取得処理を、異なる情報の解析処理によって実行する。さらに、異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する。
【選択図】図３

Description

本開示は、音声認識装置、および音声認識方法、並びにプログラムに関する。さらに詳細には音声情報と画像情報を利用して音声区間や音源方向を求めて音声認識を行なう音声認識装置、および音声認識方法、並びにプログラムに関する。

音声認識処理は、例えばマイクで取得した人の発話内容を解析する処理である。例えば、携帯端末やテレビなどの情報処理装置に音声認識処理部を設けると、これらの装置に対してユーザが発した言葉（ユーザ発話）を解析し、発話に基づく処理を実行させることが可能となる。

しかし、マイクの取得音には音声認識の対象となるユーザの音声のみならず、様々な雑音（ノイズや環境音、あるいは妨害音等とよばれる）が含まれる。マイクが取得した雑音の含まれる取得音の中から、特定ユーザが発した言葉のみを抽出して解析する処理は、ノイズが大きいほど困難となる。現状の音声認識装置は、ノイズの多い環境下では十分な音声認識精度を実現できないという問題がある。

マイクから取得した音情報のみを用いる一般的な音声認識装置は、周囲の環境音、すなわち雑音のレベルが大きい場合、目的とする音声を抽出して正しく認識することが困難になる。

このような問題を解決するため、特定方向の音のみを選択するビームフォーミング処理や、反響音を識別して反響音を削減するエコーキャンセル処理等を利用してノイズ低減を行なう方法についても提案されている。しかし、ノイズ低減処理にも限界があり、既存のノイズ低減を利用した構成では十分なレベルの音声認識精度を実現することはできない。

この問題を解決する手法の１つとして、マイクの取得音のみではなく画像情報を適用した処理が提案されている。
例えば特許文献１（特開２０１２−３３２６号公報）は、カメラで撮影した画像から、ユーザの口の動き、すなわち口唇動作を検出して、口唇動作に基づいて、ユーザの発話区間を判断し、この発話区間内のマイク取得音のみを選択して解析することで、音声認識における認識精度を向上させる構成を開示している。

しかし、例えば、ガムを噛んでいるように発話と無関係な動きを行なっている場合には、口唇動作に基づく正確な発話区間を判断することが困難となるという問題がある。

さらに、例えば携帯端末等のようにユーザが手に持って操作する装置の場合、携帯端末の入力部、例えば、タッチパネルのスイッチを操作して発話開始および発話終了のタイミングを入力する構成も提案されている。この処理を行なえば、必要な音声区間のみを確実に判断することが可能となる。

しかし、ユーザ操作に基づく音声区間判定処理は、ユーザが操作可能な端末を手に持ち、端末のスイッチを直接操作可能な場合には利用可能であるが、装置とユーザが離れている場合などには利用できないという問題がある。

特開２０１２−３３２６号公報特開２００６−７２１６３号公報

本件は、例えば上記問題点に鑑みてなされたものであり、ノイズ音の多い環境下においても、目的とするユーザの発話区間等を正確に判断して精度の高い音声認識を実現する音声認識装置、および音声認識方法、並びにプログラムを提供することを目的とする。

本開示の第１の側面は、
画像情報、および音声情報を入力する情報入力部と、
前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部は、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識装置にある。

さらに、本開示の音声認識装置の一実施態様において、前記異なる情報の少なくとも一方は画像情報であり、前記音源方向・音声区間決定部は、画像に基づいて、音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する。

さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、前記情報入力部の入力画像から取得される口唇領域画像を利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する。

さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、前記情報入力部の入力画像から取得される発話者の手の動きを示すジェスチャ、または手の形状変化であるポスチャを利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する。

さらに、本開示の音声認識装置の一実施態様において、前記異なる情報の少なくとも一方は画像情報、他方は音声情報であり、前記音源方向・音声区間決定部は、画像情報に基づいて得られた音源方向と、音声情報に基づいて得られた音源情報との一致度を判定する。

さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有していないと判定した場合、さらに、画像から得られる発話者の顔方向または視線方向が、予め規定した許容範囲内にあるか否かを判定し、許容範囲内である場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する。

さらに、本開示の音声認識装置の一実施態様において、前記異なる情報の少なくとも一方には、画像解析によって得られる発話者の明示的な合図が含まれる。

さらに、本開示の音声認識装置の一実施態様において、前記異なる情報の少なくとも一方には、入力部を介した発話者の明示的な入力情報が含まれる。

さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、さらに、音声区間内に入力部を介するユーザ操作情報の入力が検出された場合に、該音声区間の音声を音声認識対象として選択する処理を行なう。

さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、さらに、発話者が予め定めた特定領域を見ているか否かを判定し、見ていると判定した場合に、検出した音声区間の音声を音声認識対象として選択する処理を行なう。

さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、画像解析によって得られる顔識別情報を適用して、顔識別結果に基づいて、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象とするか否かの判定を行なう。

さらに、本開示の第２の側面は、
音声情報および画像情報を取得する情報入力部を備えた情報処理装置と、
前記情報処理装置とネットワーク接続されたサーバを有し、
前記サーバは、
前記情報処理装置から、前記情報入力部の取得した音声情報および画像情報を入力し、入力情報に基づく音声認識処理を実行して音声認識結果を前記情報処理装置に出力する構成であり、
前記サーバは、
音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部は、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識処理システムにある。

さらに、本開示の第３の側面は、
音声認識装置において実行する音声認識方法であり、
前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部において、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識方法にある。

さらに、本開示の第４の側面は、
音声認識装置において音声認識処理を実行させるプログラムであり、
前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記プログラムは、前記音源方向・音声区間決定部に、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行させ、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行させるプログラムにある。

なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

本開示のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本開示の一実施例の構成によれば、音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
具体的には、本開示の音声認識装置は、画像情報、および音声情報を入力する情報入力部と、情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有する。
音源方向・音声区間決定部は、音声区間の開始時間と音源方向情報の取得処理と、音声区間の終了時間と音源方向情報の取得処理を、異なる情報の解析処理によって実行する。さらに、異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する。
これらの構成により、音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。

音声認識処理を行う場合の具体的環境の一例について説明する図である。複数のマイクロフォンと、カメラを有する情報入力部の構成例について説明する図である。本開示の一実施例に係る音声認識装置の構成例を説明する図である。マイクロフォン・アレイを利用した音源方向の解析処理例について説明する図である。音源方向と音声区間の検出処理について説明する図である。音声を利用した音声認識処理の一般的シーケンスについて説明するフローチャートを示す図である。顔方向推定部１１４の実行する顔方向判定処理と、視線方向推定部１１５の実行する視線方向判定処理の一例について説明する図である。ポスチャ認識部１１９の検出するポスチャ情報１２３と、ジェスチャ認識部１２０の検出するジェスチャ情報１２４を利用した発話区間の判定例について説明する図である。ポスチャ認識部１１９の検出するポスチャ情報１２３と、ジェスチャ認識部１２０の検出するジェスチャ情報１２４を利用した発話区間の判定例について説明する図である。ポスチャ認識部１１９の検出するポスチャ情報１２３と、ジェスチャ認識部１２０の検出するジェスチャ情報１２４を利用した発話区間の判定例について説明する図である。本開示の音声認識装置の実行する音声区間（発話区間）の判定処理態様について説明する図である。本開示の音声認識装置の実行する音源方向と音声区間の決定処理シーケンスについて説明するフローチャートを示す図である。画像を適用した音源方向判定処理例について説明する図である。図１３のフローにおけるステップＳ２０６で実行する音源方向と音声区間の決定処理の詳細について説明するフローチャートを示す図である。音源と推定されるユーザの顔方向または視線方向が予め規定した範囲内にあるか否かを判定する処理について説明する図である。音源と推定されるユーザの顔方向または視線方向が予め規定した範囲内にあるか否かを判定する処理について説明する図である。図１３のフローにおけるステップＳ２０６で実行する音源方向と音声区間の決定処理の詳細について説明するフローチャートを示す図である。ユーザが、予め規定した特定位置を見ているか否かを識別して発話区間等の判定を行なう実施例について説明する図である。ユーザが、予め規定した特定位置を見ているか否かを識別して発話区間等の判定を行なう実施例について説明する図である。ユーザが、予め規定した特定位置を見ているか否かを識別して発話区間等の判定を行なう実施例について説明するフローチャートを示す図である。図２０のフローにおけるステップＳ５０９で実行する音源方向および音声区間の決定処理の詳細について説明するフローチャートを示す図である。顔識別処理を行なう音声認識装置の構成例について説明する図である。クラウド型の処理を行なう実施例について説明する図である。様々な方式に従った音源方向、音声区間決定処理を適用した場合の音声認識の正解率を示すデータについて説明する図である。

以下、図面を参照しながら音声認識装置、および音声認識方法、並びにプログラムの詳細について説明する。
以下、以下に示す項目に従って処理の詳細について説明する。
１．本開示の音声認識装置の構成と処理の概要について
２．本開示の音声認識装置の一実施例の構成と処理について
３．音源方向と音声区間の決定処理例について
３−１．音源方向と音声区間の決定処理例１
３−２．音源方向と音声区間の決定処理例２
４．ユーザが特定位置を見ていることを識別して処理を行なう実施例
５．顔識別処理を行なう構成について
６．その他の実施例について
６−１．クラウド型の処理を行なう実施例について
６−２．操作部の操作に基づく音声区間検出処理を行なう実施例について
７．画像データを利用した音声認識率の向上について
８．本開示の構成のまとめ
以下、上記項目に従って説明する。

［１．本開示の音声認識装置の構成と処理の概要について］
まず、本開示の音声認識装置の構成と処理の概要について説明する。
図１は、本開示の音声認識装置の一つの利用例を示す図である。本開示の音声認識装置は、様々な機器に組み込んで利用可能である。具体的には、例えばテレビ、携帯端末、ＤＶＤプレーヤ、その他の様々な機器として実現可能である。
図１に示す例において、音声認識装置１０はテレビであり、テレビの中に音声認識を実行する音声認識処理部が内蔵されている。

図１に示すように音声認識装置１０は、情報入力部２０を備えている。情報入力部２０は、音声入力部として複数のマイクロフォンからなるマイクロフォン・アレイを有し、さらに、画像入力部として動画像を撮影するカメラ（撮像部）を有している。

図１に示すように音声認識装置１０であるテレビの前には、テレビ鑑賞者であるユーザ３１〜３４がいる。これらのユーザは発話によって、テレビに対する様々な処理要求を行なう。
例えばユーザ３１がテレビに対して、
「チャンネルを４チャンネルに変更して」
上記の発話を行なうと、テレビである音声認識装置１０がユーザ３１の発話を解析し、解析情報をテレビの制御を行なう制御部に出力し、制御部の制御の下でテレビのチャンネル変更処理を実行する。

音声認識装置１０は、マイクとカメラから構成される情報入力部２０の入力した情報を利用して目的音を選択して音声解析を実行する。
なお、情報入力部２０のマイクが取得する音には、音声認識対象となる目的音の他、様々なノイズ（環境音）が含まれる。
音声認識装置１０は、マイクの取得したノイズを含む音から、目的音を選択して、目的音の解析、すなわち音声認識を実行し発話内容を取得する。

様々な雑音の含まれる観測された音声信号から、音声認識対象となる目的音を抽出するために、目的音の音源方向や音声区間を判定する処理が重要となる。この処理に、情報入力部２０の入力した画像情報や音声情報が利用される。

情報入力部２０の一構成例を図２に示す。図２に示すように、情報入力部２０は、画像情報を取得する撮像部であるカメラ２１と、水平方向に並んだ複数のマイクロフォンから構成されるマイクロフォン・アレイ２２を有する。

マイクロフォン・アレイ２２を構成するマイクの各々は、取得音の音源方向に応じた位相差を持つ音を取得する。音声認識装置１０の音声処理部は、各マイクの取得音の位相差を解析して、各音の音源方向を解析する。

カメラ２１は、例えばビデオカメラでありテレビの前方の画像を取得する。音声認識装置１０の画像処理部は、取得画像の解析を行い、画像に含まれる人領域や顔領域を識別し、さらに人の手の動きや形状変化、さらに口領域の動きである口唇画像の解析等を行い、音声認識に利用する情報を取得する。

［２．本開示の音声認識装置の一実施例の構成と処理について］
次に、図３以下を参照して、本開示の音声認識装置の一実施例の構成と処理について説明する。
図３は、本開示の音声認識装置１０の一構成例を示すブロック図である。
図３に示すように、音声認識装置１０は、画像処理部１１０、音声処理部１３０を有する。

図３に示す画像処理部１１０の画像入力部１１１は、図２に示す情報入力部１０のカメラ２１、あるいはカメラ２１の撮影画像を入力する入力部である。なお、入力画像は動画像である。
また、図３に示す音声処理部１３０の音声入力部１３１は、図２に示す情報入力部１０のマイクロフォン・アレイ２２、あるいは、マイクロフォン・アレイ２２を構成する各マイクからマイクの取得音を入力する入力部である。

音声処理部１３０の音声入力部１３１の取得音は、複数の異なる位置に配置された複数のマイクの取得音である。音源方向推定部１３２は、この複数マイクの取得音に基づいて音源方向を推定する。

先に図２を参照して説明したように、マイクロフォン・アレイ２２を構成するマイクの各々は、取得音の音源方向に応じた位相差を持つ音を取得する。音源方向推定部１３２は、複数のマイクが取得した位相差を持つ複数の音信号に基づいて音源方向を推定する。

例えば図４に示すように、異なる位置に配置した複数のマイクロフォン１〜４からなるマイクロフォン・アレイ２０１が、特定方向にある音源２０２からの音を取得する。マイクロフォン・アレイ２０１の各マイクに対する音源２０２からの音の到達時間は少しずつ、ずれることになる。図に示す例では、マイクロフォン１に時間ｔ６で到達した音は、マイクロフォン４には時間ｔ７で到達する。

このように、各マイクロフォンは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなり、各マイクロフォンの取得した音声信号の位相差を解析することで、音源方向を求めることができる。
なお、このような音源方向解析処理については、例えば特許文献２（特開２００６−７２１６３号公報）に記載されている。

なお、本実施例において、音源方向は、図４に示すようにマイクロフォン・アレイのマイクロフォン配列方向に対する垂直ライン２０３となす角度θによって示すものとする。すなわち、図４に示す垂直方向ライン２０３に対する角度θを音源方向θ２０４とする。

音声処理部１３０の音源方向推定部１３２は、このように、マイクロフォン・アレイからの音を入力する音声入力部１３１を介して入力する複数の異なる位置に配置された複数のマイクの取得音に基づいて、音源方向を推定する。

図３に示す音声処理部１３０の音声区間検出部１３３は、音源方向推定部１３２によって推定された特定の音源方向からの音声開始時間と音声終了時間を判定する。
この処理に際しては、マイクロフォン・アレイを構成する複数のマイクロフォンによって取得された位相差を持つ特定音源方向からの入力音の各々に対して、位相差に応じた遅延を付与して、各マイクロフォンの取得音の位相を揃えて各観測信号を総和する処理を行なう。

この処理によって目的音の強調処理が実行される。すなわち、この観測信号総和処理によって特定音源方向の音のみが強調され、その他の周囲の環境音の音レベルを低減させることが可能となる。

音声区間検出部１３３は、このように複数のマイクロフォンの観測信号の加算信号を用いて、音声レベルの立ち上がり位置を音声区間開始時間と判定し、音声レベルの立下り位置を音声区間終了時間とする音声区間判定処理を行なう。

これら、音声処理部１３０の音源方向推定部１３２と音声区間検出部１３３の処理によって、例えば、図５に示すような解析データを取得することができる。
図５に示す解析データは以下の通りである。
音源方向＝０．４０ｒａｄｉａｎ
音声区間（開始時刻）＝５．３４ｓｅｃ
音声区間（終了時刻）＝６．８０ｓｅｃ

音源方向（θ）は、図５を参照して説明したように、マイクロフォン・アレイのマイク配列方向に対する垂直ラインとなす角度（θ）である。
音声区間は、音源方向からの音声の発話区間の開始時刻と終了時刻を示す情報である。
図５に示す例では、
発話開始を示す音声開始時刻が５．３４ｓｅｃ、
発話終了を示す音声終了時刻が、６．８０ｓｅｃ、
である。なお、測定開始時刻を０とした設定である。

音声信号のみを利用した音声認識処理は従来から利用されている。すなわち、図３に示す画像処理部１１０を利用せず、音声処理部１３０のみを利用した音声認識処理を実行するシステムは従来から存在する。
本開示の構成における特徴の１つである画像処理部１１０を利用した音声認識処理の説明の前に、まず、この音声処理部１３０のみを利用した一般的な音声認識処理シーケンスについて、図６に示すフローチャートを参照して説明する。

まず、ステップＳ１０１において、音源方向を推定する。
この処理は、図３に示す音源方向推定部１３２において実行される処理であり、例えば、先に図４を参照して説明した処理に従って実行する処理である。

次に、ステップＳ１０２において、音声区間を検出する。この処理は、図３に示す音声区間検出部１３３の実行する処理である。
前述したように、音声区間検出部１３３は、マイクロフォン・アレイを構成する複数のマイクロフォンによって取得された位相差を持つ特定音源方向からの入力音の各々に対して、位相差に応じた遅延を付与して、各マイクロフォンの取得音の位相を揃えて各観測信号を総和する処理を行なう。この処理によって目的音の強調信号を取得し、強調信号の音声レベルの立ち上がり位置を音声区間開始時間と判定し、音声レベルの立下り位置を音声区間終了時間とする音声区間判定処理を行なう。

次に、ステップＳ１０３において、音源波形を抽出する。この処理は、図３に示す音源抽出部１３５の処理となる。
なお、図６に示すフローは、音声のみを利用した音声認識処理例であり、図３に示す画像処理部１１０からの入力信号を利用した音源方向・音声区間決定部１３４の処理は省略した例である。

音声信号のみを利用した処理の場合、図３に示す音声処理部１３０の音源抽出部１３５は、図３に示す音声処理部１３０の音源方向推定部１３２の推定した音源方向と、音声区間検出部１３３の検出した音声区間情報のみを利用して、音源抽出処理を実行する。

音源抽出部１３５は、図６に示すステップＳ１０３の音源波形抽出処理を実行する。この音源波形は、音源方向推定部１３２の推定した音源方向と、音声区間検出部１３３の検出した音声区間情報に基づいて選択された音声信号を解析対象として周波数レベルの変化等を解析する処理であり、音声認識処理において従来から行われている処理である。

次に、ステップＳ１０４において、音声認識処理を実行する。この処理は、図３に示す音声認識部１３５において実行する処理である。
音声認識部１３５は、予め登録された様々な発話における周波数変化パターンを登録した辞書データを有する。音声認識部１３５はこの辞書データを利用し、音源抽出部１３５が取得音に基づいて解析した取得音の周波数変化パターン等を辞書データと照合し、一致度の高い辞書登録データを選択する。音声認識部１３６は、選択した辞書データに登録された言葉を発話内容として判定する。

マイクロフォンを利用して取得した音声のみを利用した音声認識を行なう場合のシーケンスは、ほぼこの図６に示すフローに従った処理となる。
しかし、音声のみを利用した処理においては、音源方向の判定や音声区間の解析精度に限界がある。特に目的とする音以外のノイズ（環境音）のレベルが高い場合、音源方向や音声区間の判定精度が低下してしまい、結果として十分な音声認識処理が行えなくなるという問題がある。

本開示の構成は、このような問題を解決するため、図３に示すように画像処理部１１０を設け、画像処理部１１０において取得した情報を音声処理部１３０内の音源方向・音声区間決定部１３４に出力する構成としている。

音源方向・音声区間決定部１３４は、音声処理部１３０の音源方向推定部１３２の推定した音源方向情報と、音声区間検出部１３３の検出した音声区間情報に加え、画像処理部１１０の解析情報を利用して、音源方向と音声区間を決定する処理を行なう。
このように、本開示の音声認識装置では、音声のみならず、画像解析結果を利用して音源方向と音声区間を決定することで、精度の高い音源方向と音声区間を判定することを可能とし、結果として、高精度な音声認識を実現する。

以下、図３に示す音声認識装置の画像処理部１１０を利用した音声認識処理について説明する。

本開示の音声認識装置における画像処理部１１０は、図２を参照して説明した情報入力部２０の撮像部であるカメラ２１の取得した画像を図３に示す画像入力部１１１が入力し、入力画像を顔領域検出部１１２と、人領域検出部１１３に出力する。
なお、カメラ２１は動画像を撮影し、連続した撮影された画像フレームを順次出力する。

図３に示す顔領域検出部１１２は、入力画像の各画像フレームから人の顔領域を検出する。また、人領域検出部１１３は、入力画像の各画像フレームから人の領域を検出する。これらの領域検出処理は、既存の技術を利用して実行可能な処理である。

例えば、顔領域検出部１１２は、予め登録された顔の特徴を示す形状データや輝度データからなる顔パターン情報を保持する。顔領域検出部１１２は、この顔パターン情報を参照情報として、画像フレーム中の画像領域から登録パターンに類似した領域を検出する処理を実行して、画像中の顔領域を検出する。
同様に、人域検出部１１３も、予め登録された人の特徴を示す形状データや輝度データからなる人パターンを参照情報として、画像フレーム中の画像領域から登録パターンに類似した領域を検出する処理を実行して、画像中の人領域を検出する。
なお、人領域検出部１１３の実行する人領域検出処理は、人の上半身領域のみの検出処理としてもよい。

顔領域検出部１１２の顔領域検出情報は、各画像フレームの画像情報とともに、顔方向推定部１１４と、口唇領域検出部１１６に入力される。
顔方向推定部１１４は、顔領域検出部１１２の検出した画像フレーム中の顔領域に含まれる顔が、図２に示す情報入力部２０のカメラ２１に対してどの方向を向いているかを判定する。

顔方向推定部１１４は、顔領域検出部１１２の検出した顔領域から、目の位置や口の位置など、顔の各パーツの位置を判定し、これらの顔パーツの位置関係に基づいて、顔の向いている方向を推定する。
さらに、顔方向推定部１１４の推定した顔方向推定情報が視線方向推定部１１５に出力される。
視線方向推定部１１５は、顔方向推定部１１４の推定した顔方向推定情報に基づいて、顔領域に含まれる顔の視線方向を推定する。

顔方向推定部１１４の推定した顔方向情報、または視線方向推定部１１５の推定した視線方向情報の少なくともいずれか、あるいは両者の情報からなる顔／視線方向情報１２１は、音源方向・音声区間決定部１３４に出力される。

なお、視線方向推定部１１５を省略し、顔方向情報のみを生成して音源方向・音声区間決定部１３４に出力する構成としてもよい。また、視線方向推定部１１５の生成した視線方向情報のみを音源方向・音声区間決定部１３４に出力する構成としてもよい。

顔方向推定部１１４の実行する顔方向判定処理と、視線方向推定部１１５の実行する視線方向判定処理の一例について、図７を参照して説明する。
図７には、
（ａ）顔方向、視線方向がカメラに対して正面方向であると判定する例
（ｂ）顔方向、視線方向がカメラに対して横方向であると判定する例
これらの２つの例を示している。

顔方向推定部１１４と視線方向推定部１１５は、図７に示すように、顔領域に含まれる顔パーツの位置関係に基づいて顔の向きを判定し、顔の向きの方向を視線方向と判定する。
これらの判定処理によって生成された顔方向または視線方向の少なくともいずれかの情報を含む顔／視線方向情報１２１が、音源方向・音声区間決定部１３４に出力される。

口唇領域検出部１１６は、顔領域検出部１１２の検出した各画像フレーム中の顔領域に含まれる顔の中の口の領域、すなわち口唇領域を検出する。例えば予めメモリに登録された口唇形状パターンを参照情報として、顔領域検出部１１２の検出した画像フレーム中の顔領域から、登録パターンに類似した領域を口唇領域として検出する。

口唇領域検出部１１６の検出した口唇領域情報は、口唇動作ベース検出部１１７に出力される。
口唇動作ベース検出部１１７は、口唇領域の動きに基づいて、発話区間を推定する。すなわち、口の動きに基づいて、発話を開始した時間（音声区間開始時間）と、発話を終了した時間（音声区間終了時間）を判定する。この判定情報を、口唇動作ベース検出情報１２２として、音源方向・音声区間決定部１３４に出力する。

なお、口唇動作に基づく発話区間の解析処理については、例えば特開２０１２−３３２６号公報に記載されており、口唇動作ベース検出部１１７は、例えばこの特開２０１２−３３２６号公報に記載された処理を行なって発話区間を判定する。

手領域検出部１１８は、人領域検出部１１３の検出した画像フレーム中の人領域に含まれる手の領域を検出する。
発話者には、予め発話開始や発話終了時に実行すべき手のアクションを通知しておく。例えば発話開始時点でグーチョキパーの「パー」を提示する。発話終了時点で「グー」を提示するといった設定である。
手領域検出部１１８は、この設定情報に従い、発話開始や発話終了を示す手の形状が検出されたか否かを判定する。

手領域検出部１１８は、例えば予めメモリに登録された手の形状パターンを参照情報として、人領域検出部１１３の検出した画像フレーム中の人領域から、登録パターンに類似した領域を手領域として検出する。

手領域検出部１１８の検出した手領域情報は、ポスチャ認識部１１９と、ジェスチャ認識部１２０に出力される。
ポスチャ認識部１１９は、手領域検出部１１８の検出した連続する画像フレームにおける手領域の姿勢（ポスチャ）を解析し、予め登録された手の姿勢（ポスチャ）が検出されたか否かの判定を行なう。

具体的には、例えば登録姿勢情報としてグーチョキパーの「パー」の登録姿勢（ポスチャ）情報を設定した場合、ポスチャ認識部１１９は、手領域に含まれる手による「パー」の姿勢を検出する処理を行なう。この検出情報をポスチャ情報１２３として、音源方向・音声区間決定部１３４に出力する。
登録情報は、予めユーザに通知された登録情報であり、ユーザは、発話を行なう場合に、この登録された姿勢（ポスチャ）をとる。

なお、具体的な登録姿勢情報の設定例としては、例えば以下のような設定がある。
（１）発話区間の開始時点で「パー」を示す。
（２）発話区間の開始時点で「パー」を示し、終了時点で「パー」を閉じ、「グー」を示す。
（３）発話区間のいずれかの時点で、「パー」を示す。

例えば、上記（１）〜（３）のいずれかの姿勢（ポスチャ）情報を登録情報として設定し、ユーザに通知するものとする。ユーザは登録情報に従って発話タイミングに併せて所定のアクションを行う。音声認識装置は、このアクションに応じて発話区間を検出することが可能となる。

一方、ジェスチャ認識部１２０は、手領域検出部１１８の検出した連続する画像フレームにおける手領域の動さ（ジェスチャ）を解析し、予め登録された手の動き（ジェスチャ）が検出されたか否かの判定を行なう。

なお、ここで、ポスチャは手の姿勢、ジェスチャは、手の動作である。
具体的には、例えば登録ジェスチャ情報として、手を挙げるという動作（ジェスチャ）情報を設定した場合、ジェスチャ認識部１２０は、連続画像フレームの手領域を解析して手を挙げる動作（ジェスチャ）を検出する処理を行なう。この検出情報をジェスチャ情報１２４として、音源方向・音声区間決定部１３４に出力する。
登録情報は、予めユーザに通知された登録情報であり、ユーザは、発話を行なう場合に、この登録された動作（ジェスチャ）を行なう。

具体的な登録姿勢情報の設定例としては、例えば以下のような設定がある。
（１）発話区間の開始時点で手を挙げる。
（２）発話区間の開始時点で手を挙げて、終了時点で手を降ろす。
（３）発話区間のいずれかの時点で、手を挙げる。

例えば、上記（１）〜（３）のいずれかの動作（ジェスチャ）情報を登録情報として設定し、ユーザに通知するものとする。ユーザは登録情報に従って発話タイミングに併せて所定のアクションを行う。音声認識装置は、このアクションに応じて発話区間を検出することが可能となる。

ポスチャ認識部１１９の検出するポスチャ情報１２３と、ジェスチャ認識部１２０の検出するジェスチャ情報１２４を利用した発話区間の判定例について、図８〜図１０を参照して説明する。

図８には、情報入力部２０のカメラ２１の撮影した時間（ｔ１）〜（ｔ４）の連続撮影画像を示している。各画像のユーザは、以下の状態にある。
（ｔ１）手を降ろして閉じている（グー）状態。
（ｔ２）手を挙げて開いている（パー）状態。
（ｔ３）手を挙げて開いている（パー）状態。
（ｔ４）手を降ろして閉じている（グー）状態。

すなわち、ユーザは、手を降ろして閉じた（グー）状態から、手を挙げて開き（パー）、その後、再度、降ろして閉じる（グー）という動作を行なっている。
この動作期間に発話を行なっている。
図８に示す例では、
発話開始時間＝ｔ２、
発話終了時間＝ｔ４、
であり、
発話区間は、ｔ２〜ｔ４である。

図８に示す例は、
音声認識装置のメモリに登録された登録姿勢（ポスチャ）情報の設定が、
（１）発話区間の開始時点で「パー」を示す。
上記の設定とした例である。ポスチャ認識部１１９は、ユーザの手によって「パー」が検出された時間（ｔ２）をポスチャ情報１２３として、音源方向・音声区間決定部１３４に出力する。

また、音声認識装置のメモリに登録された登録動作（ジェスチャ）情報の設定が、
（１）発話区間の開始時点で手を挙げる。
上記の設定とした例である。ジェスチャ認識部１２０は、ユーザの手が挙げられたことを検出された時間（ｔ２）をジェスチャ情報１２４として、音源方向・音声区間決定部１３４に出力する。

音源方向・音声区間決定部１３４は、これらのポスチャ情報１２３、またはジェスチャ情報に従って、時間（ｔ２）を発話開始時間として識別することが可能となる。

図９は、図８と同様、時間（ｔ１）〜（ｔ４）の連続撮影画像を示している。各画像のユーザは、以下の状態にある。
（ｔ１）手を降ろして閉じている（グー）状態。
（ｔ２）手を挙げて開いている（パー）状態。
（ｔ３）手を挙げて開いている（パー）状態。
（ｔ４）手を降ろして閉じている（グー）状態。
すなわち、ユーザは、手を降ろして閉じた（グー）状態から、手を挙げて開き（パー）、その後、再度、降ろして閉じる（グー）という動作を行なっている。
この動作期間に発話を行なっている。

図９に示す例も、図８に示す例と同様、
発話開始時間＝ｔ２、
発話終了時間＝ｔ４、
であり、
発話区間は、ｔ２〜ｔ４である。

図９に示す例は、
音声認識装置のメモリに登録された登録姿勢（ポスチャ）情報の設定が、
（２）発話区間の開始時点で「パー」を示し、終了時点で「パー」を閉じる。
上記の設定とした例である。ポスチャ認識部１１９は、ユーザの手によって「パー」が検出された時間（ｔ２）と、「パー」が閉じられた時間（ｔ４）をポスチャ情報１２３として、音源方向・音声区間決定部１３４に出力する。

また、音声認識装置のメモリに登録された登録動作（ジェスチャ）情報の設定が、
（２）発話区間の開始時点で手を挙げて、終了時点で手を降ろす。
上記の設定とした例である。ジェスチャ認識部１２０は、ユーザの手が挙げられた時間（ｔ２）と降ろした時間（ｔ４）をジェスチャ情報１２４として、音源方向・音声区間決定部１３４に出力する。

音源方向・音声区間決定部１３４は、これらのポスチャ情報１２３、またはジェスチャ情報に従って、時間（ｔ２）を発話開始時間と識別し、さらに時間（ｔ４）を発話終了時間として識別することが可能となる。

図１０も、図８、図９と同様、時間（ｔ１）〜（ｔ４）の連続撮影画像を示している。各画像のユーザは、以下の状態にある。
（ｔ１）手を降ろして閉じている（グー）状態。
（ｔ２）手を挙げて閉じている（グー）状態。
（ｔ３）手を挙げて開いている（パー）状態。
（ｔ４）手を降ろして閉じている（グー）状態。
すなわち、ユーザは、手を降ろして閉じた状態（グー）から、手を挙げて開き（パー）、その後、再度、降ろして閉じる（グー）という動作を行なっている。
この動作期間に発話を行なっている。

図１０に示す例も、図８、図９に示す例と同様、
発話開始時間＝ｔ２、
発話終了時間＝ｔ４、
であり、
発話区間は、ｔ２〜ｔ４である。

図１０に示す例は、
音声認識装置のメモリに登録された登録姿勢（ポスチャ）情報の設定が、
（２）発話区間のいずれかの時点で「パー」を示す。
上記の設定とした例である。ポスチャ認識部１１９は、ユーザの手によって「パー」が検出された時間（ｔ３）をポスチャ情報１２３として、音源方向・音声区間決定部１３４に出力する。

また、音声認識装置のメモリに登録された登録動作（ジェスチャ）情報の設定が、
（２）発話区間のいずれかの時点で手を挙げる。
上記の設定とした例である。ジェスチャ認識部１２０は、ユーザの手が挙げられた時間（ｔ２）をジェスチャ情報１２４として、音源方向・音声区間決定部１３４に出力する。

音源方向・音声区間決定部１３４は、これらのポスチャ情報１２３、またはジェスチャ情報に従って、時間（ｔ２）を発話区間内の時間として識別することが可能となる。

本開示の音声認識装置の実行する処理の特徴の１つは、音声区間（発話区間）の判定処理に複数の異なる情報を適用可能としたことであり、さらに、音声区間の開始位置（時間）と音声区間の終了位置（時間）を異なる情報に基づいて判定する点にある。

本開示の音声認識装置の実行する音声区間（発話区間）の判定処理態様について、図１１を参照して説明する。
図１１は、本開示の音声認識装置が音声区間検出処理のために取得する情報の種類と、各情報の利用例を示している。すなわち、
（１）音声区間検出に適用する情報の種類
（２）音声区間検出における利用情報の組み合わせ例
これらの一覧を示している。
なお、音声区間検出処理は、図３に示す音源方向・音声区間決定部１３４において実行する処理である。

図１１の（１）音声区間検出に適用する情報の種類に示すように、
本開示の音声認識装置は、音声区間の検出に適用する情報として、以下の情報を利用可能な構成を持つ。
（Ａ）ポスチャまたはジェスチャ情報
（Ｂ）口唇動作情報
（Ｃ）音声情報
図３に示す音声処理部１３０内の音源方向・音声区間決定部１３４は、これらの各情報を選択的に利用して、音声区間を決定する。

（Ａ）ポスチャまたはジェスチャ情報は、図３に示す装置構成において示す画像処理部１１０内のポスチャ認識部１１９の生成するポスチャ情報１２３と、ジェスチャ認識部１２０の生成するジェスチャ情報１２４に対応する情報である。
（Ｂ）口唇動作情報は、図３に示す画像処理部１１０内の口唇動作ベース検出部１１７の生成する口唇動作ベース検出情報１２２に対応する情報である。
（Ｃ）音声情報は、図３に示す音声処理部１３０内の音声区間検出部１３３の生成する音声区間情報に対応する情報である。

図３に示す音声処理部１３０内の音源方向・音声区間決定部１３４は、これらの各情報を選択的に利用して、音声区間を決定する。
具体的な情報利用例を示したのが、図１１（２）音声区間検出における利用情報の組み合わせ例である。具体的には、例えば、以下のような情報の組み合わせで、音声区間検出を実行する。

（セット１）
音声区間の開始位置（時間）判定に（Ａ）ポスチャまたはジェスチャ情報を適用し、
音声区間の終了位置（時間）判定に（Ｂ）口唇動作情報を適用する。
（セット２）
音声区間の開始位置（時間）判定に（Ａ）ポスチャまたはジェスチャ情報を適用し、
音声区間の終了位置（時間）判定に（Ｃ）音声情報を適用する。
（セット３）
音声区間の開始位置（時間）判定に（Ｂ）口唇動作情報を適用し、
音声区間の終了位置（時間）判定に（Ｃ）音声情報を適用する。

このように、本開示の音声認識装置は、音声区間開始位置の判定と音声区間終了位置の判定に適用する情報を異なる情報としている。
なお、図１１（２）に示す例は、一部の例であり、この他の組み合わせも可能であり、さらに、例えば音声区間の開始位置や終了位置の判定に複数の情報を併せて適用する構成としてもよい。
例えば、音声区間開始位置の判定に（Ａ）ポスチャまたはジェスチャ情報と（Ｃ）音声情報の２つの情報を適用し、音声区間終了位置の判定に（Ｂ）口唇動作情報と（Ｃ）音声情報の２つの情報を適用する設定等、様々な情報の組み合わせとした設定としてもよい。

次に、図１２に示すフローチャートを参照して本開示の音声認識装置の実行する音源方向と音声区間の決定処理シーケンスについて説明する。
この図１２に示す処理は、図３に示す画像処理部１１０と音声処理部１３０を有する音声認識装置が実行する処理である。
なお、この処理は、例えばプログラム実行機能を持つＣＰＵ等を有するデータ処理部の制御の下で図１２に示すフローに従った処理シーケンスを記録したプログラムをメモリから読み出して実行することが可能である。

図１２に示す処理フローに示す各ステップの処理について、順次説明する。
（ステップＳ２０１）
まず、ステップＳ２０１において、音声情報に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図３に示す音声処理部１３０の音源方向推定部１３２と、音声区間検出部１３３の実行する処理である。
この処理は、先に図４〜図６を参照して説明した音声のみに基づく音源方向と音声区間の検出処理に相当する。

（ステップＳ２０２）
ステップＳ２０２において、ポスチャ認識結果またはジェスチャ認識結果に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図３に示す画像処理部１１０のポスチャ認識部１１９の生成するポスチャ情報１２３、またはジェスチャ認識部１２０の生成するジェスチャ情報１２４に基づいて音源方向・音声区間決定部１３４が音源方向と音声区間を検出する処理である。
この処理は、先に図８〜図１０を参照して説明したポスチャ情報またはジェスチャ情報を適用した音源方向と音声区間の検出処理に相当する。

なお、音源方向については、ポスチャまたはジェスチャを検出したユーザの画像位置に基づいて決定する。
この画像を適用した音源方向判定処理例について、図１３を参照して説明する。
図１３は、音声認識装置を備えたテレビに対して、３つの異なる位置（ａ）〜（ｃ）にユーザが位置する場合に、情報入力部のカメラの撮影した画像、すなわち撮影画像ａ〜ｃの例を示している。
各撮影画像ａ〜ｃに示すユーザは、ポスチャまたはジェスチャの検出されたユーザである。

ユーザが図１３に示す（ａ）の位置、すなわち、テレビから見て左側の位置にいるときは、撮影画像ａに示すように、ユーザは撮影画像ａの左側に出力される。
この撮影画像ａのように、画像中の左側にユーザが検出された場合は、音源方向は、テレビ（音声認識装置）の左前方であると判定することができる。
このように、音源方向・音声区間決定部１３４は、撮影画像を取得し、撮影画像内のユーザ表示位置に基づいて音源方向を判定する。なお、ユーザは、ポスチャまたはジェスチャの検出されたユーザである。

ユーザが図１３に示す（ｂ）の位置、すなわち、テレビから見て中央の位置にいるときは、撮影画像ｂに示すように、ユーザは撮影画像ｂの中央に出力される。
この撮影画像ｂのように、画像中の中央にユーザが検出された場合は、音源方向は、テレビ（音声認識装置）の正面前方向であると判定することができる。
このように、音源方向・音声区間決定部１３４は、撮影画像を取得し、撮影画像内のユーザ表示位置に基づいて音源方向を判定する。なお、ユーザは、ポスチャまたはジェスチャの検出されたユーザである。

さらに、ユーザが図１３に示す（ｃ）の位置、すなわち、テレビから見て右側の位置にいるときは、撮影画像ｃに示すように、ユーザは撮影画像ｃの右側に出力される。
この撮影画像ｃのように、画像中の右側にユーザが検出された場合は、音源方向は、テレビ（音声認識装置）の右前方であると判定することができる。
このように、音源方向・音声区間決定部１３４は、撮影画像を取得し、撮影画像内のユーザ表示位置に基づいて音源方向を判定する。なお、ユーザは、ポスチャまたはジェスチャの検出されたユーザである。

このようにして、音源方向・音声区間決定部１３４は、撮影画像に基づいて、ポスチャまたはジェスチャを検出したユーザの位置を判断し、画像に基づいて音源方向を決定することができる。

（ステップＳ２０３）
ステップＳ２０３において、口唇動作に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図３に示す画像処理部１１０の口唇動作ベース検出部１１７の生成する口唇動作ベース検出情報１２２の生成処理に相当する。

先に説明したように、口唇動作ベース検出部１１７は、口唇領域の動きに基づいて、発話区間を推定する。すなわち、口の動きに基づいて、発話を開始した時間（音声区間開始時間）と、発話を終了した時間（音声区間終了時間）を判定する。この判定情報を、口唇動作ベース検出情報１２２として、音源方向・音声区間決定部１３４に出力する。なお、前述したように、口唇動作に基づく発話区間の解析処理については、例えば特開２０１２−３３２６号公報に記載されており、口唇動作ベース検出部１１７は、例えばこの特開２０１２−３３２６号公報に記載された処理を適用する。

また、音源方向については、口唇動作検出したユーザの画像位置に基づいて決定する。この画像を適用した音源方向判定処理は、図１３を参照して説明した処理と同様の処理である。
ただし、このステップＳ２０３の処理を適用する場合、図１３に示す各撮影画像ａ〜ｃに示すユーザは、口唇動作の検出されたユーザである。

なお、基本的に、図１２に示すフローのステップＳ２０１〜Ｓ２０３の処理の各々は、いずれも、
（ａ）音声区間開始位置情報と音源方向情報、
（ｂ）音声区間終了位置情報と音源方向情報、
これらの情報の組み合わせのいずれかの情報セットを生成して、音源方向・音声区間決定部１３４に出力する処理として実行される。

なお、ステップＳ２０１〜Ｓ２０３の処理は、いずれも図３に示す音源方向・音声区間決定部１３４を利用して実行される。音源方向・音声区間決定部１３４は、音声区間出力部１３３や、画像処理部１１０の各処理部からの出力される情報を入力した順に、順次、処理を実行する。

（ステップＳ２０４）
ステップＳ２０４において、顔方向または視線方向を推定する。この処理は、図３に示す画像処理部１１０の顔方向推定部１１４と視線方向推定部１１５の実行する処理であり、図３に示す顔／視線方向情報１２１の生成処理に相当する。

先に図７を参照して説明した通り、顔方向推定部１１４と視線方向推定部１１５は、図７に示すように、顔領域に含まれる顔パーツの位置関係に基づいて顔の向きを判定し、顔の向きの方向を視線方向と判定する。
これらの判定処理によって生成された顔方向または視線方向の少なくともいずれかの情報を含む顔／視線方向情報１２１が、音源方向・音声区間決定部１３４に出力される。

（ステップＳ２０５）
次のステップＳ２０５の処理は、図３に示す音声処理部１３０内の音源方向・音声区間決定部１３４において実行する処理である。

図３に示すように、音源方向・音声区間決定部１３４は、以下の情報を入力する。
（１）音声処理部１３０内の音源方向推定部１３２と音声区間検出部１３３の生成した音声に基づく音源方向と音声区間情報（＝ステップＳ２０１における検出情報）、
（２）画像処理部１１０内のポスチヤ認識部１１９の生成するポスチャ情報１２３と、ジェスチャ認識部１２０の生成するジェスチャ情報１２４（＝ステップＳ２０２における検出情報）、
（３）画像処理部１１０内の口唇動作ベース検出部１１７の生成する口唇動作ベース検出情報１２２（＝ステップＳ２０３における検出情報）、
（４）画像処理部１１０内の顔方向推定部１１４と視線方向推定部１１５の生成する顔／視線方向情報１２１（＝ステップＳ２０４における検出情報）、

音源方向・音声区間決定部１３４は、上記（１）〜（４）の情報を入力する。
ただし、これらの情報は、各処理部において検出処理に成功した場合にのみ、その検出タイミングで各処理部から音源方向・音声区間決定部１３４に出力される。
すなわち、上記（１）〜（４）の各検出情報は、同一のタイミングで一斉に音源方向・音声区間決定部１３４に対して出力されるものではなく、各処理部の検出処理に成功した時点で、個別に出力される。

具体的には、例えば、いずれかの処理部において音声区間開始位置の検出に成功した場合に、その音声区間開始位置情報がその処理部から音源方向・音声区間決定部１３４に出力される。
また、いずれかの処理部において、音声区間終了位置の検出に成功した場合に、その音声区間終了位置情報がその処理部から音源方向・音声区間決定部１３４に出力される。

なお、前述したように、基本的に図１２に示すフローのステップＳ２０１〜Ｓ２０３の処理に際しては、
（ａ）音声区間開始位置情報と音源方向情報、
（ｂ）音声区間終了位置情報と音源方向情報、
これらの情報の組み合わせのいずれかを生成して、音源方向・音声区間決定部１３４に出力する処理を行なう。
ステップＳ２０４の処理においては、顔方向または視線方向の少なくともいずれかの検出に成功した場合に、顔方向情報または視線方向情報の少なくともいずれかの情報が、音源方向・音声区間決定部１３４に出される。

ステップＳ２０５において、音源方向・音声区間決定部１３４は、まず、各処理部からの入力情報が、
（ａ）音声区間開始位置情報と音源方向情報、
（ｂ）音声区間終了位置情報と音源方向情報、
これら（ａ），（ｂ）のいずれかの情報を含むか否かを判定する。
入力情報中に上記（ａ），（ｂ）のいずれかの情報を含むと判定した場合は、ステップＳ２０６に進み、（ａ），（ｂ）いずれの情報も含まない場合は、ステップＳ２０１〜Ｓ２０４の検出処理に戻り、情報入力を待機する。

（ステップＳ２０６）
ステップＳ２０５において、音源方向・音声区間決定部１３４は、各処理部からの入力情報に、
（ａ）音声区間開始位置情報と音源方向情報、
（ｂ）音声区間終了位置情報と音源方向情報、
これら（ａ），（ｂ）のいずれかの情報を含むと判定すると、ステップＳ２０６において、入力情報の種類に応じて音声認識対象とする音源方向と音声区間を決定する処理を行なう。

すなわち、音源方向・音声区間決定部１３４は、まず、入力した情報が、
（ａ）音声区間開始位置情報と音源方向情報、または、
（ｂ）音声区間終了位置情報と音源方向情報、
これら（ａ），（ｂ）いずれかの情報を含むことを確認する。
次に、入力情報である上記（ａ）、または（ｂ）の情報が、
（１）音声情報
（２）ポスチャ情報またはジェスチャ情報
（３）口唇動作
これらのいずれの情報に基づいて取得されたかを確認する。
さらに、この確認結果に基づいて、音声認識対象とする音源方向と音声区間を決定する処理を行なう。
このステップＳ２０６の処理の詳細については、図１４以下を参照して後段で詳細に説明する。

（ステップＳ２０７）
ステップＳ２０７の処理は、音源方向・音声区間決定部１３４において、音源方向と音声区間が決定されたか否かを判定する処理である。
この場合の音源方向と音声区間とは、音声認識処理対象とする音源方向と、音声区間であり、音声区間には、「音声区間開始位置」と、「音声区間終了位置」の双方を含む。

なお、ステップＳ２０７において、音源方向と音声区間が決定された場合、決定されたことをユーザに対して通知する処理を行なってもよい、
例えば決定されたことを示す音を、スピーカを介して出力する、あるいは決定されたことを示すアイコン等の画像を表示部に出力するといった処理を行なってもよい。

また、本開示の処理では、ステップＳ２０１〜Ｓ２０３の各処理において、それぞれ異なる検出手段によって、音源方向、音声区間の検出を実行する。これらの各種の検出処理が実行されて検出結果が得られた場合にユーザに通知する構成としてもよい。すなわち、どの検出方法によって、音源方向、音声区間の検出がなされたかを区別可能な音やアイコンを出力する構成として、ユーザに音源方向、音声区間が、どの方法によって検出されたかを示す通知を行なう構成としてもよい。

［３．音源方向と音声区間の決定処理例について］
次に、図１２に示すフローチャートにおけるステップＳ２０６の処理の詳細シーケンスについて説明する。
この処理の詳細シーケンスの２つの例について、図１４に示すフローチャートと、図１７に示すフローチャートを参照して説明する。

図１２に示すフローのステップＳ２０６の処理は、図３に示す音源方向・音声区間決定部１３４の実行する処理である。
このステップＳ２０６の処理は、音源方向と音声区間の検出に適用した情報が、
（１）音声情報
（２）ポスチャ情報またはジェスチャ情報
（３）口唇動作
上記（１）〜（３）のいずれの情報に基づいて取得されたかを考慮して音声認識対象とする音源方向と音声区間を決定する処理である。

図１４に示すフローは、音声区間の開始位置情報が、「ポスチャ情報またはジェスチャ情報」に基づいて取得された場合の詳細処理シーケンスを説明するフローである。
また、図１７に示すフローは、音声区間の開始位置情報が、「口唇動作情報」に基づいて取得された場合の詳細処理シーケンスを説明するフローである。

［３−１．音源方向と音声区間の決定処理例１］
まず、図１４に示すフローチャートに従って、音声区間の開始位置情報が、「ポスチャ情報またはジェスチャ情報」に基づいて取得された場合の詳細処理シーケンスについて説明する。

（ステップＳ３０１）
まず、ステップＳ３０１において、図３に示す音源方向・音声区間決定部１３４は、入力した検出情報が、図３に示す音声認識装置のポスチャ認識部１１９の生成したポスチャ情報１２３かジェスチャ認識部１２０の生成したジェスチャ情報１２４であるか、あるいはその他の情報であるかを判定する。

入力検出情報が、「ポスチャ情報またはジェスチャ情報」である場合は、ステップＳ３０２に進む。
一方、入力検出情報が、「ポスチャ情報またはジェスチャ情報」でない場合は、ステップＳ３０４に進む。

（ステップＳ３０２）
音源方向・音声区間決定部１３４に入力した情報が「ポスチャ情報またはジェスチャ情報」である場合は、音源方向・音声区間決定部１３４は、さらに、ステップＳ３０２において、入力検出情報に音声区間開始位置（時間）情報が含まれるか否かを判定する。

入力検出情報に音声区間開始位置（時間）情報が含まれる場合は、ステップＳ３０３に進む。
一方、入力検出情報に音声区間開始位置（時間）情報が含まれない場合は、ステップＳ３０１に戻る。

（ステップＳ３０３）
入力検出情報に音声区間開始位置（時間）情報が含まれる場合は、音源方向・音声区間決定部１３４は、ステップＳ３０３において、入力情報である「ポスチャ情報またはジェスチャ情報」に基づいて取得される「音声区間の開始位置（時間）情報」と、「音源方向情報」をメモリに格納する。

なお、この「ポスチャ情報またはジェスチャ情報」に基づいて取得される「音声区間開始位置（時間）情報」と、「音源方向情報」を［検出情報Ａ］とする。
すなわち、［検出情報Ａ］は、以下の情報である。
［検出情報Ａ＝ポスチャ情報またはジェスチャ情報ベースの音声区間開始位置（時間）情報と音源方向情報］

（ステップＳ３０４）
ステップＳ３０１において、音源方向・音声区間決定部１３４に入力した情報が「ポスチャ情報またはジェスチャ情報」でないと判定した場合は、音源方向・音声区間決定部１３４は、ステップＳ３０４において、入力した検出情報が、図３に示す音声認識装置の口唇動作ベース検出部１１７の生成した口唇動作ベース検出情報１２２であるか、あるいはその他の情報であるかを判定する。

入力検出情報が、「口唇動作ベース検出情報」である場合は、ステップＳ３０６に進む。
一方、入力検出情報が、「口唇動作ベース検出情報」でない場合は、ステップＳ３０５に進む。

（ステップＳ３０５）
ステップＳ３０４において、音源方向・音声区間決定部１３４に入力した検出情報が、「口唇動作ベース検出情報」でないと判定した場合は、音源方向・音声区間決定部１３４は、ステップＳ３０５において、入力した検出情報が、図３に示す音声認識装置の音声処理部１３０の音声区間検出部１３３の生成した「音声ベースの検出情報」であるか、あるいはその他の情報であるかを判定する。

入力検出情報が、音声区間検出部１３３の生成した「音声ベースの検出情報」である場合は、ステップＳ３０６に進む。
一方、入力検出情報が、音声区間検出部１３３の生成した「音声ベースの検出情報」でない場合は、ステップＳ３０１に戻る。

（ステップＳ３０６）
次に、音源方向・音声区間決定部１３４は、ステップＳ３０６において、音源方向・音声区間決定部１３４に入力した検出情報から得られた検出音声区間情報に音声区間終了位置（時間）が含まれ、かつ、メモリに、［検出情報Ａ］、すなわち、
［検出情報Ａ＝ポスチャ情報またはジェスチャ情報ベースの音声区間開始位置（時間）情報と音源方向情報］
この［検出情報Ａ］が格納済みであるか否かを判定する。

なお、ステップＳ３０６に進む条件は、
（ａ）ステップＳ３０１の判定がＮｏ、
（ｂ）ステップＳ３０４またはステップＳ３０５の判定がＹｅｓ、
上記（ａ），（ｂ）の条件が満足された場合のみである。
すなわち、
（ａ）ステップＳ３０１の判定がＮｏ＝検出された音声区間情報が「ポスチャまたはジェスチャ情報」に基づくものでない。
（ｂ）ステップＳ３０４またはステップＳ３０５の判定がＹｅｓ＝検出された音声区間情報が「口唇動作情報」、または「音声情報」に基づくものである。
これらの２つの条件を満たす場合である。

ステップＳ３０６では、以下の２つの条件を満たすか否かを判定することになる。
（条件１）ステップＳ３０４またはステップＳ３０５においてＹｅｓと判定された「口唇動作情報」、または「音声情報」によって検出された音声区間情報が音声区間終了位置（時間）を示すものであること。
（条件２）すでに、メモリに、以下の［検出情報Ａ］が格納されていること、
［検出情報Ａ＝ポスチャ情報またはジェスチャ情報ベースの音声区間開始位置（時間）情報と音源方向情報］

すなわち、
音声区間開始位置情報として、「ポスチャまたはジェスチャ情報」に基づく情報が取得されてメモリに格納済みであり、
音声区間終了位置情報として、「口唇動作情報」、または「音声情報」に基づく情報が得られたこと、
これらが確認された場合に、ステップＳ３０６の判定がＹｅｓとなる。

これらの条件の確認処理は、音声区間開始位置と終了位置の適用情報の組み合わせ（セット）が、先に図１１（２）を参照して説明した、（セット１）、または（セット２）、これらのいずれかに対応することの確認処理に相当する。

すなわち、
（セット１）
音声区間の開始位置（時間）判定に（Ａ）ポスチャまたはジェスチャ情報を適用し、
音声区間の終了位置（時間）判定に（Ｂ）口唇動作情報を適用したセット。
（セット２）
音声区間の開始位置（時間）判定に（Ａ）ポスチャまたはジェスチャ情報を適用し、
音声区間の終了位置（時間）判定に（Ｃ）音声情報を適用したセット。
これらのいずれかに対応することの確認処理に相当する。

ステップＳ３０６において、上記条件を満足すると判定した場合は、ステップＳ３０７に進み、満足しないと判定した場合は、ステップＳ３０１に戻る。

（ステップＳ３０７）
ステップＳ３０７において、音源方向・音声区間決定部１３４は、以下の判定処理を実行する。
（ａ）音声区間終了位置情報とともに取得した音源方向情報
（ｂ）音声区間開始位置情報とともに取得した音源方向情報、
これら２つの音源方向情報が一致するか否かを判定する。
一致した場合は、ステップＳ３０９に進み、不一致の場合はステップＳ３０８に進む。
なお、一致判定は、完全一致のみならず、予め設定した誤差、例えば、先に図４、図５を参照して説明した音源方向を示す角度（θ）に対して１０％程度の誤差範囲であれば一致であると判定する処理を行なう。

このステップＳ３０７の判定処理は、
「ポスチャまたはジェスチャ情報」に基づく音声開始位置情報に併せて取得した音源方向情報と、
「口唇動作情報」、または「音声情報」に基づく音声終了位置情報に併せて取得した音源方向情報が一致するか否かを判定する処理である。

すなわち、全く異なる情報を適用して得られた音声区間開始位置（時間）と、音声区間終了位置（時間）の２つの異なるタイミングで得られた音源方向が一致するか否かを確認するものである。
一致した場合は、その音声区間は、特定の１人のユーザによって発せられた発話である可能性が高く、音声認識対象として選択すべき音声区間であると判定し、ステップＳ３０９に進む。

一方、ステップＳ３０７において、これら２つの音源方向が不一致であると判定した場合は、ステップＳ３０８に進む。これは、異なる情報を適用して得られた音声区間開始位置（時間）と、音声区間終了位置（時間）の２つの異なるタイミングで得られた音源方向が不一致の場合である。このような音声区間は、同一発話者による発話に対応する正しい音声区間でない可能性があり、さらに、以下のステップＳ３０８の処理を行なって、音声認識対象とするか否かの最終判断を行なう、

（ステップＳ３０８）
ステップＳ３０８は、ステップＳ３０７において、音声区間開始位置の検出処理に際して検出された音源方向と、音声区間終了位置の検出に際して検出された音源方向が一致していないと判定された場合に実行される処理である。

ステップＳ３０８では、顔方向または視線方向が予め規定した範囲内にあるか否かを判定する。
この処理は、図３に示す画像処理部１１０内の顔方向判定部１１４、視線方向判定部１１５の生成する顔／視線方向情報１２１に基づいて実行する処理である。
音源方向・音声区間決定部１３４は、解析対象としている音声区間内、あるいはその音声区間に最も近い時間に取得された顔／視線方向情報１２１を用いて、解析対象とする音声の音源と推定されるユーザの顔方向または視線方向が予め規定した範囲内にあるか否かを判定する。

この判定処理例について、図１５、図１６を参照して説明する。
図１５は、判定対象とするユーザの顔方向または視線方向が水平方向に変化した場合の例を示した図である。
また、図１６は、判定対象とするユーザの顔方向または視線方向が垂直方向に変化した場合の例を示した図である。

まず、図１５を参照して、判定対象とするユーザの顔方向または視線方向が水平方向に変化した場合の例について説明する。
図１５には、以下の２つの例を示している。
（ａ）顔方向（または視線方向）が予め規定した規定範囲内の場合
（ｂ）顔方向（または視線方向）が予め規定した規定範囲外の場合

規定範囲は、例えば、図に示すように音声認識装置を持つテレビに対するユーザの顔（視線）の向いている角度によって規定される。
ユーザの顔方向または視線方向が、テレビに対して垂直方向（正面向き）から所定の範囲にある場合に顔方向または視線方向が規定範囲内であると判定する。

図には、テレビに設置された情報入力部のカメラによって撮影された画像の例を示している。
（ａ）に示す例は、顔方向（または視線方向）が規定範囲内の場合であり、カメラの撮影画像には、正面向きのユーザが撮影されている。
一方、（ｂ）に示す例は、顔方向（または視線方向）が規定範囲外の場合であり、カメラの撮影画像には、横向きのユーザが撮影されている。

規定範囲情報は、予め設定されメモリに格納された情報であり、音源方向・音声区間決定部１３４は、顔方向推定部１１４、視線方向推定部１１５の生成した顔／視線方向情報１２１を入力して、規定範囲情報と比較し、ユーザの顔方向または視線方向が規定範囲内であるか規定範囲外であるかを判定する。

図１６は、判定対象とするユーザの顔方向または視線方向が垂直方向に変化した場合の例を示している。。
図１６にも、図１５と同様、以下の２つの例を示している。
（ａ）顔方向（または視線方向）が規定範囲内の場合
（ｂ）顔方向（または視線方向）が規定範囲外の場合

規定範囲は、図に示すように、音声認識装置を持つテレビに対するユーザの顔（視線）の向いている角度によって規定される。
ユーザの顔方向または視線方向が、テレビに対して垂直方向（正面向き）から所定の範囲にある場合に顔方向または視線方向が規定範囲内であると判定する。

図１６にも、図１５と同様、テレビに設置された情報入力部のカメラによって撮影された画像の例を示している。
（ａ）に示す例は、顔方向（または視線方向）が規定範囲内の場合であり、カメラの撮影画像には、正面向きのユーザが撮影されている。
一方、（ｂ）に示す例は、顔方向（または視線方向）が規定範囲外の場合であり、カメラの撮影画像には、下向きのユーザが撮影されている。

図１５、図１６に示すように、規定範囲情報は、水平方向のみならず、垂直方向についても考慮した三次元的な情報である。
この三次元的規定範囲情報は、予め設定されメモリに格納された情報である。
音源方向・音声区間決定部１３４は、顔方向推定部１１４、視線方向推定部１１５の生成した顔／視線方向情報１２１を入力して、規定範囲情報との比較を三次元的に実行し、ユーザの顔方向または視線方向が水平方向、垂直方向ともに規定範囲内であるか規定範囲外であるかを判定する。

音源方向・音声区間決定部１３４は、ステップＳ３０８において、ユーザの顔方向または視線方向が水平方向、垂直方向ともに規定範囲内であると判定した場合は、ステップＳ３０９に進む。
この場合、音声区間が検出された音声情報が音声認識対象として選択されることになる。

一方、規定範囲外であると判定した場合は、ステップＳ３０８における判定はＮｏとなり、ステップＳ３０１に戻る。
この場合、音声区間が検出された音声情報は音声認識対象として選択されず破棄されることになる。

（ステップＳ３０９）
このステップＳ３０９は、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する処理である。
この音声認識対象としての決定は、以下のいずれかの条件を満足する場合に実行される。
（条件１）ステップＳ３０７の判定がＹｅｓ、すなわち音声区間開始位置検出時の音源方向と音声区間終了位置検出時の音源方向が一致した場合。
（条件２）上記の音源方向が不一致と判定されたが、顔方向または視線方向が規定範囲内であると判定された場合。

音源方向・音声区間決定部１３４は、上記条件１または２のいずれかを満足する場合、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する。
この決定処理において決定した音声情報が、図３に示す音声処理部１３０内の音源抽出部１３５に出力され、音源抽出処理が実行される。さらに、音源抽出結果が音声認識部１３６に出力され音声認識処理が実行されることになる。

［３−２．音源方向と音声区間の決定処理例２］
次に、図１２に示すフローのステップＳ２０６の処理のもう１つの処理例について図１７に示すフローチャートを参照して説明する。

前述したように、図１２に示すフローのステップＳ２０６の処理は、音源方向と音声区間の検出に適用した情報が、
（１）音声情報
（２）ポスチャ情報またはジェスチャ情報
（３）口唇動作
上記（１）〜（３）のいずれの情報に基づいて取得されたかを考慮して音声認識対象とする音源方向と音声区間を決定する処理である。

図１７に示すフローチャートは、音声区間の開始位置情報が、「口唇動作情報」に基づいて取得された場合の詳細処理を示すフローチャートである。
以下、このフローの各ステップの処理について、順次、説明する。

（ステップＳ４０１）
まず、ステップＳ４０１において、図３に示す音源方向・音声区間決定部１３４は、入力した検出情報が、図３に示す音声認識装置の口唇動作ベース検出部１１７の生成した口唇動作ベース検出情報１２２であるか、あるいはその他の情報であるかを判定する。

入力検出情報が、「口唇動作情報」である場合は、ステップＳ４０２に進む。
一方、入力検出情報が、「口唇動作情報」でない場合は、ステップＳ４０４に進む。

（ステップＳ４０２）
音源方向・音声区間決定部１３４に入力した情報が「口唇動作情報」である場合は、音源方向・音声区間決定部１３４は、さらに、ステップＳ４０２において、入力検出情報に音声区間開始位置（時間）情報が含まれるか否かを判定する。

入力検出情報に音声区間開始位置（時間）情報が含まれる場合は、ステップＳ４０３に進む。
一方、入力検出情報に音声区間開始位置（時間）情報が含まれない場合は、ステップＳ４０１に戻る。

（ステップＳ４０３）
入力検出情報に音声区間開始位置（時間）情報が含まれる場合は、音源方向・音声区間決定部１３４は、ステップＳ４０３において、入力情報である「口唇動作情報」に基づいて取得される「音声区間の開始位置（時間）情報」と、「音源方向情報」をメモリに格納する。

なお、この「口唇動作情報」に基づいて取得される「音声区間開始位置（時間）情報」と、「音源方向情報」を［検出情報Ｂ］とする。
すなわち、［検出情報Ｂ］は、以下の情報である。
［検出情報Ｂ＝口唇動作情報ベースの音声区間開始位置（時間）情報と音源方向情報］

（ステップＳ４０４）
ステップＳ４０１において、音源方向・音声区間決定部１３４に入力した情報が「口唇動作情報」でないと判定した場合は、音源方向・音声区間決定部１３４は、ステップＳ４０４において、入力した検出情報が、図３に示す音声認識装置の音声処理部１３０の音声区間検出部１３３の生成した「音声ベースの検出情報」であるか、あるいはその他の情報であるかを判定する。

入力検出情報が、音声区間検出部１３３の生成した「音声ベースの検出情報」である場合は、ステップＳ４０５に進む。
一方、入力検出情報が、音声区間検出部１３３の生成した「音声ベースの検出情報」でない場合は、ステップＳ４０１に戻る。

（ステップＳ４０５）
次に、音源方向・音声区間決定部１３４は、ステップＳ４０５において、音源方向・音声区間決定部１３４に入力した検出情報から得られた検出音声区間情報に音声区間終了位置（時間）が含まれ、かつ、メモリに、［検出情報Ｂ］、すなわち、
［検出情報Ｂ＝口唇動作情報ベースの音声区間開始位置（時間）情報と音源方向情報］
この［検出情報Ｂ］が格納済みであるか否かを判定する。

なお、ステップＳ４０５に進む条件は、
（ａ）ステップＳ４０１の判定がＮｏ、
（ｂ）ステップＳ４０４の判定がＹｅｓ、
上記（ａ），（ｂ）の条件が満足された場合のみである。
すなわち、
（ａ）ステップＳ４０１の判定がＮｏ＝検出された音声区間情報が「口唇動作情報」に基づくものでない。
（ｂ）ステップＳ４０４の判定がＹｅｓ＝検出された音声区間情報が「音声情報」に基づくものである。
これらの２つの条件を満たす場合である。

ステップＳ４０５では、以下の２つの条件を満たすか否かを判定することになる。
（条件１）ステップＳ４０４においてＹｅｓと判定された「音声情報」によって検出された音声区間情報が音声区間終了位置（時間）を示すものであること。
（条件２）すでに、メモリに、以下の［検出情報Ｂ］が格納されていること、
［検出情報Ｂ＝口唇動作情報ベースの音声区間開始位置（時間）情報と音源方向情報］

すなわち、
音声区間開始位置情報として、「口唇動作情報」に基づく情報が取得されてメモリに格納済みであり、
音声区間終了位置情報として、「音声情報」に基づく情報が得られたこと、
これらが確認された場合に、ステップＳ４０５の判定がＹｅｓとなる。

これらの条件の確認処理は、音声区間開始位置と終了位置の適用情報の組み合わせ（セット）が、先に図１１（２）を参照して説明した（セット３）に対応することの確認処理に相当する。すなわち、
（セット３）
音声区間の開始位置（時間）判定に（Ｂ）口唇動作情報を適用し、
音声区間の終了位置（時間）判定に（Ｃ）音声情報を適用したセットに対応することの確認処理に相当する。

ステップＳ４０５において、上記条件を満足すると判定した場合は、ステップＳ４０６に進み、満足しないと判定した場合は、ステップＳ４０１に戻る。

（ステップＳ４０６）
ステップＳ４０６において、音源方向・音声区間決定部１３４は、以下の判定処理を実行する。
（ａ）音声区間終了位置情報とともに取得した音源方向情報
（ｂ）音声区間開始位置情報とともに取得した音源方向情報、
これら２つの音源方向情報が一致するか否かを判定する。
一致した場合は、ステップＳ４０８に進み、不一致の場合はステップＳ４０７に進む。
なお、一致判定は、完全一致のみならず、予め設定した誤差、例えば、先に図４、図５を参照して説明した音源方向を示す角度（θ）に対して１０％程度の誤差範囲であれば一致であると判定する処理を行なう。

このステップＳ４０６の判定処理は、
「口唇動作情報」に基づく音声開始位置情報に併せて取得した音源方向情報と、
「音声情報」に基づく音声終了位置情報に併せて取得した音源方向情報が一致するか否かを判定する処理である。

すなわち、全く異なる情報を適用して得られた音声区間開始位置（時間）と、音声区間終了位置（時間）の２つの異なるタイミングで得られた音源方向が一致するか否かを確認するものである。
一致した場合は、その音声区間は、特定の１人のユーザによって発せられた発話である可能性が高く、音声認識対象として選択すべき音声区間であると判定し、ステップＳ４０８に進む。

一方、ステップＳ４０６において、これら２つの音源方向が不一致であると判定した場合は、ステップＳ４０７に進む。これは、異なる情報を適用して得られた音声区間開始位置（時間）と、音声区間終了位置（時間）の２つの異なるタイミングで得られた音源方向が不一致の場合である。このような音声区間は、同一発話者による発話に対応する正しい音声区間でない可能性があり、さらに、以下のステップＳ４０７の処理を行なって、音声認識対象とするか否かの最終判断を行なう、

（ステップＳ４０７）
ステップＳ４０７は、ステップＳ４０６において、音声区間開始位置の検出処理に際して検出された音源方向と、音声区間終了位置の検出に際して検出された音源方向が一致していないと判定された場合に実行される処理である。

ステップＳ４０７では、顔方向または視線方向が予め規定した範囲内にあるか否かを判定する。
この処理は、図３に示す画像処理部１１０内の顔方向判定部１１４、視線方向判定部１１５の生成する顔／視線方向情報１２１に基づいて実行する処理である。
音源方向・音声区間決定部１３４は、解析対象としている音声区間内、あるいはその音声区間に最も近い時間に取得された顔／視線方向情報１２１を用いて、解析対象とする音声の音源と推定されるユーザの顔方向または視線方向が予め規定した範囲内にあるか否かを判定する。

この判定処理は、図１４に示すフローのステップＳ３０８の処理と同様の処理であり、先に図１５、図１６を参照して説明した処理と同じである。

音源方向・音声区間決定部１３４は、ステップＳ４０７において、ユーザの顔方向または視線方向が水平方向、垂直方向ともに規定範囲内であると判定した場合は、ステップＳ４０８に進む。
この場合、音声区間が検出された音声情報が音声認識対象として選択されることになる。

一方、規定範囲外であると判定した場合は、ステップＳ４０７の判定はＮｏとなり、ステップＳ４０１に戻る。
この場合、音声区間が検出された音声情報は音声認識対象として選択されず破棄されることになる。

（ステップＳ４０８）
このステップＳ４０８は、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する処理である。
この音声認識対象としての決定は、以下のいずれかの条件を満足する場合に実行される。
（条件１）ステップＳ４０６の判定がＹｅｓ、すなわち音声区間開始位置検出時の音源方向と音声区間終了位置検出時の音源方向が一致した場合。
（条件２）上記の音源方向が不一致と判定されたが、顔方向または視線方向が規定範囲内であると判定された場合。

［４．ユーザが特定位置を見ていることを識別して処理を行なう実施例］
次に、ユーザが、予め規定した特定位置を見ているか否かを識別して処理を行なう実施例について説明する。

この処理は、例えば上述の実施例で説明したユーザの手の形状や動きであるポスチャやジェスチャを実行することなく、ユーザが、予め規定した特定位置を見ているか否かを識別して発話区間等の判定を行なう実施例である。

具体的には、例えば、図１８に示すように、音声認識装置１０がテレビである場合、テレビの画面の一部領域を特定位置３０１として設定する。ユーザ（発話者）がこの特定位置３０１を見ているか否かを判断する。特定位置３０１を見ている状態で発話を行なっていると判定した場合は、その発話を音声認識対象とする。
一方、発話が検出されても、その発話期間において、ユーザ（発話者）が、特定位置３０１を見ていないと判定した場合は、その発話を音声認識対象とせず、棄却する。

このような処理を行なうことで、ユーザは手を挙げる動作や、手の形状をパーとするといった特別なアクションを行なうことなく、音声認識装置に対して、音声認識対象とする発話を正しく判定させることが可能となる。

なお、ユーザが特定の位置を見ているかどうかの判定は、図２に示す情報入力部２０のカメラ２１の撮影画像に基づいて実行する。具体的には、図３に示す画像処理部１１０内の顔方向推定部１１４、あるいは視線方向推定部１１５の生成する顔または視線方向推定情報に基づいて実行することができる。

すなわち、画像情報から得られるユーザ位置と顔方向の推定結果から、ユーザがどこを見ているかを推定する。例えば、図１８を参照して説明したように、テレビ画面の右端下側といった特定位置３０１を見ているか否かを判定する。
なお、図１８に示す例では、特定位置３０１をテレビ画面の一部としているが、テレビ画面の全てを特定位置として設定し、テレビの画面をみているか否かを判定し、判定結果に応じて音声認識処理を実行するか否かを判定する設定としてもよい。

ユーザ（発話者）が特定位置を見ているか否かの判定は、カメラの撮影画像に基づいて実行される。この具体例について、図１９を参照して説明する。
図１９は、図１８を参照して説明したように、テレビの右下領域に特定位置を設定した場合の例であり、以下の各図を示している。
（ａ１）テレビとユーザを横から見た図、
（ａ２）テレビとユーザを上から身だ図、
（ａ３）カメラ撮影画像の例

ユーザが特定位置を見ている場合、カメラの撮影画像は、図１９（ａ３）のような画像となる。
ユーザが特定位置を見ているか否かは、例えば、図に示すように、音声認識装置を持つテレビに対するユーザの位置や顔（視線）の向いている角度によって判定可能である。これらは、撮影画像の解析によって取得可能となる。

図１９に示すように、ユーザが特定位置を見ているか否かは、水平方向のみならず、垂直方向についても考慮した三次元的な情報の解析が必用となる。この三次元的規定範囲情報は、予め設定されメモリに格納された情報である。

音源方向・音声区間決定部１３４は、顔方向推定部１１４、視線方向推定部１１５の生成した顔／視線方向情報１２１を入力して、規定範囲情報との比較を三次元的に実行し、ユーザの顔方向または視線方向が水平方向、垂直方向ともに、特定位置を見ていると判定できる範囲内であるか否かを判定する。

なお、音声認識対象とするか否かの判定態様としては様々な態様がある。例えば、以下のような設定である。
（１）発話期間としての音声区間、すなわち発話開始時点から発話終了時点までの全ての時間、特定位置を見ている場合にのみ、音声認識対象とする。
（２）発話期間としての音声区間、すなわち発話開始時点から発話終了時点までの時間中、一瞬でも特定位置を見ていると判断された場合、音声認識対象とする。
（３）発話期間としての音声区間、すなわち発話開始時点から発話終了時点までの時間中、予め規定した時間、例えば２秒以上継続して特定位置を見ていると判断された場合、音声認識対象とする。
例えば、このような様々な設定が可能である。

なお、このように、ユーザが特定の位置を見ていることを利用する実施例では、ポスチャやジェスチャといった特定の所作や動作を行う必要がないため、ユーザ負担を軽減することが可能となる。

本実施例の処理シーケンスについて、図２０、図２１に示すフローチャートを参照て説明する。

図２０は、本実施例の音声認識装置の実行する音源方向と音声区間の決定処理シーケンスを説明するフローチャートである。先に説明した実施例における図１２のフローチャートに対応する。

この図２０に示す処理は、図３に示す画像処理部１１０と音声処理部１３０を有する音声認識装置が実行する処理である。
なお、この処理は、例えばプログラム実行機能を持つＣＰＵ等を有するデータ処理部の制御の下で図２０に示すフローに従った処理シーケンスを記録したプログラムをメモリから読み出して実行することが可能である。

図２０に示す処理フローに示す各ステップの処理について、順次説明する。
（ステップＳ５０１）
まず、ステップＳ５０１において、音声情報に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図３に示す音声処理部１３０の音源方向推定部１３２と、音声区間検出部１３３の実行する処理である。
この処理は、先に図４〜図６を参照して説明した音声のみに基づく音源方向と音声区間の検出処理に相当する。

（ステップＳ５０２）
ステップＳ５０２において、ポスチャ認識結果またはジェスチャ認識結果に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図３に示す画像処理部１１０のポスチャ認識部１１９の生成するポスチャ情報１２３、またはジェスチャ認識部１２０の生成するジェスチャ情報１２４に基づいて音源方向・音声区間決定部１３４が音源方向と音声区間を検出する処理である。
この処理は、先に図８〜図１０を参照して説明したポスチャ情報またはジェスチャ情報を適用した音源方向と音声区間の検出処理に相当する。
具体例は、例えば、先に図１３を参照して説明した処理となる。

なお、本実施例では、このステップＳ５０２の処理は省略することが可能である。
省略した場合、図３の手領域検出部１１８も削除可能である。

（ステップＳ５０３）
ステップＳ５０３において、口唇動作に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図３に示す画像処理部１１０の口唇動作ベース検出部１１７の生成する口唇動作ベース検出情報１２２の生成処理に相当する。
先に説明したように、口唇動作ベース検出部１１７は、口唇領域の動きに基づいて、発話区間を推定する。すなわち、口の動きに基づいて、発話を開始した時間（音声区間開始時間）と、発話を終了した時間（音声区間終了時間）を判定する。この判定情報を、口唇動作ベース検出情報１２２として、音源方向・音声区間決定部１３４に出力する。

なお、基本的に、図２０に示すフローのステップＳ５０１〜Ｓ５０３の処理の各々は、いずれも、
（ａ）音声区間開始位置情報と音源方向情報、
（ｂ）音声区間終了位置情報と音源方向情報、
これらの情報の組み合わせのいずれかの情報セットを生成して、音源方向・音声区間決定部１３４に出力する処理として実行される。

なお、ステップＳ５０１〜Ｓ５０３の処理は、いずれも図３に示す音源方向・音声区間決定部１３４を利用して実行される。音源方向・音声区間決定部１３４は、音声区間出力部１３３や、画像処理部１１０の各処理部からの出力される情報を入力した順に、順次、処理を実行する。

（ステップＳ５０４）
ステップＳ５０４において、顔方向または視線方向を推定する。この処理は、図３に示す画像処理部１１０の顔方向推定部１１４と視線方向推定部１１５の実行する処理であり、図３に示す顔／視線方向情報１２１の生成処理に相当する。

（ステップＳ５０５）
ステップＳ５０５は、本実施例特有の処理である。ユーザ（発話者）が、予め規定した特定位置を見ているか否かを判定する処理である。すなわち、例えば、図１８、図１９を参照して説明したようにテレビの一部領域に設定した特定位置３０１を見ているか否かを判定する。

なお、判定基準は、前述したように様々な設定が可能である。例えば所定時間継続して特定位置を見ていたと判定されれば、ステップＳ５０５の判定はＹｅｓとなり、ステップＳ５０６に進む。一方、所定時間継続して特定位置を見ていないと判定されれば、ステップＳ５０５の判定はＮｏとなり、ステップＳ５０７に進む。
なお、特定位置を見ているか否かの判定は、顔方向や視線方向の解析情報に基づいて実行する。

（ステップＳ５０６）
ステップＳ５０５において、ユーザ（発話者）が、予め規定した特定位置を見ていると判定した場合、ステップＳ５０６において、音声認識が可能であることをユーザに通知する。
例えばテレビの表示部の一部にメッセージを表示する。あるいはチャイム等の音声出力を行なって通知する。

（ステップＳ５０７）
一方、ステップＳ５０５において、ユーザ（発話者）が、予め規定した特定位置を見ていないと判定した場合、ステップＳ５０７において、音声認識が行われないことをユーザに通知する。
この処理も、例えばテレビの表示部の一部にメッセージを表示する。あるいはチャイム等の音声出力を行なって通知する。

（ステップＳ５０８）
次のステップＳ５０８の処理は、図３に示す音声処理部１３０内の音源方向・音声区間決定部１３４において実行する処理である。
図３に示すように、音源方向・音声区間決定部１３４は、以下の情報を入力する。
（１）音声処理部１３０内の音源方向推定部１３２と音声区間検出部１３３の生成した音声に基づく音源方向と音声区間情報（＝ステップＳ５０１における検出情報）、
（２）画像処理部１１０内のポスチヤ認識部１１９の生成するポスチャ情報１２３と、ジェスチャ認識部１２０の生成するジェスチャ情報１２４（＝ステップＳ５０２における検出情報）、
（３）画像処理部１１０内の口唇動作ベース検出部１１７の生成する口唇動作ベース検出情報１２２（＝ステップＳ５０３における検出情報）、
（４）画像処理部１１０内の顔方向推定部１１４と視線方向推定部１１５の生成する顔／視線方向情報１２１（＝ステップＳ５０４における検出情報）、

音源方向・音声区間決定部１３４は、上記（１）〜（４）の情報を入力する。
なお、本実施例では、前述したように、上記（２）の情報は省略可能である。
上記各情報は、各処理部において検出処理に成功した場合にのみ、その検出タイミングで各処理部から音源方向・音声区間決定部１３４に出力される。

なお、先に図１２のフローを参照して説明したと同様、基本的に図２０に示すフローのステップＳ５０１〜Ｓ５０３の処理に際しては、
（ａ）音声区間開始位置情報と音源方向情報、
（ｂ）音声区間終了位置情報と音源方向情報、
これらの情報の組み合わせのいずれかを生成して、音源方向・音声区間決定部１３４に出力する処理を行なう。
ステップＳ５０４の処理においては、顔方向または視線方向の少なくともいずれかの検出に成功した場合に、顔方向情報または視線方向情報の少なくともいずれかの情報が、音源方向・音声区間決定部１３４に出される。

ステップＳ５０８では、以下の２つの条件が満足するか否かを判定する。
（条件１）ユーザ（発話者）が特定位置を見ていたと判定された。
（条件２）音声区間開始位置情報と音源方向情報、または音声区間終了位置情報と音源方向情報のいずれかの情報セットが取得された。

ステップＳ５０８において、上記（条件１）、（条件２）のいずれも満足すると判定した場合は、ステップＳ５０９に進む。
一方、上記（条件１）、（条件２）の少なくともいずれかの条件を満足しないと判定した場合は、ステップＳ５０１〜Ｓ５０４の検出処理に戻り、情報入力を待機する。

（ステップＳ５０９）
ステップＳ５０８において、上記（条件１）、（条件２）のいずれも満足すると判定した場合は、ステップＳ５０９において、音声認識対象とする音源方向と音声区間を決定する処理を行なう。
このステップＳ５０９の処理の詳細については、図２１を参照して後段で詳細に説明する。

（ステップＳ５１０）
ステップＳ５１０の処理は、音源方向・音声区間決定部１３４において、音源方向と音声区間が決定されたか否かを判定する処理である。
この場合の音源方向と音声区間とは、音声認識処理対象とする音源方向と、音声区間であり、音声区間には、「音声区間開始位置」と、「音声区間終了位置」の双方を含む。

次に、図２０のフローのステップＳ５０９の処理の詳細処理例について図２１に示すフローチャートを参照して説明する。
図２１に示すフローのステップＳ５０９の処理は、ステップＳ５０８において、以下の２つの条件を満足する場合に行われる処理である。
（条件１）ユーザ（発話者）が特定位置を見ていたと判定された。
（条件２）音声区間開始位置情報と音源方向情報、または音声区間終了位置情報と音源方向情報のいずれかの情報セットが取得された。
ステップＳ５０９の処理は、これらの（条件１）、（条件２）のいずれも満足すると判定した場合に行われる処理であり、音声認識対象とする音源方向と音声区間を決定する処理である。

以下、図２１を参照して、このステップＳ５０９の詳細シーケンスについて説明する。
（ステップＳ６０１）
まず、ステップＳ６０１において、図３に示す音源方向・音声区間決定部１３４は、入力した検出情報が、図３に示す音声認識装置の口唇動作ベース検出部１１７の生成した口唇動作ベース検出情報１２２であるか、あるいはその他の情報であるかを判定する。

入力検出情報が、「口唇動作情報」である場合は、ステップＳ６０２に進む。
一方、入力検出情報が、「口唇動作情報」でない場合は、ステップＳ６０５に進む。

（ステップＳ６０２）
音源方向・音声区間決定部１３４に入力した情報が「口唇動作情報」である場合は、音源方向・音声区間決定部１３４は、さらに、ステップＳ６０２において、入力検出情報に、
音声区間開始位置（時間）情報と、
音声区間終了位置（時間）情報、
これらの２つの情報が含まれるか否かを判定する。

入力検出情報に音声区間開始位置（時間）情報と、音声区間終了位置（時間）情報の両情報が含まれる場合は、ステップＳ６０８に進み、取得された音声区間情報を音声認識対象に設定する。

一方、入力検出情報に音声区間開始位置（時間）情報と、音声区間終了位置（時間）情報の少なくとも一方の情報が含まれない場合は、ステップＳ６０３に進む。

（ステップＳ６０３）
音源方向・音声区間決定部１３４に入力した情報が「口唇動作情報」であり、入力検出情報に音声区間開始位置（時間）情報と、音声区間終了位置（時間）情報の少なくとも一方の情報が含まれない場合は、ステップＳ６０３において、入力検出情報に音声区間開始位置（時間）情報が含まれるか否かを判定する。

入力検出情報に音声区間開始位置（時間）情報が含まれる場合は、ステップＳ６０４に進む。
一方、入力検出情報に音声区間開始位置（時間）情報が含まれない場合は、ステップＳ６０１に戻る。

（ステップＳ６０４）
入力検出情報に音声区間開始位置（時間）情報が含まれる場合は、音源方向・音声区間決定部１３４は、ステップＳ６０４において、入力情報である「口唇動作情報」に基づいて取得される「音声区間の開始位置（時間）情報」と、「音源方向情報」をメモリに格納する。

なお、この「口唇動作情報」に基づいて取得される「音声区間開始位置（時間）情報」と、「音源方向情報」を［検出情報Ｃ］とする。
すなわち、［検出情報Ｃ］は、以下の情報である。
［検出情報Ｃ＝口唇動作情報ベースの音声区間開始位置（時間）情報と音源方向情報］

（ステップＳ６０５）
ステップＳ６０１において、音源方向・音声区間決定部１３４に入力した情報が「口唇動作情報」でないと判定した場合は、音源方向・音声区間決定部１３４は、ステップＳ６０５において、入力した検出情報が、図３に示す音声認識装置の音声処理部１３０の音声区間検出部１３３の生成した「音声ベースの検出情報」であるか、あるいはその他の情報であるかを判定する。

入力検出情報が、音声区間検出部１３３の生成した「音声ベースの検出情報」である場合は、ステップＳ６０６に進む。
一方、入力検出情報が、音声区間検出部１３３の生成した「音声ベースの検出情報」でない場合は、ステップＳ６０１に戻る。

（ステップＳ６０６）
次に、音源方向・音声区間決定部１３４は、ステップＳ６０６において、音源方向・音声区間決定部１３４に入力した検出情報から得られた検出音声区間情報に音声区間終了位置（時間）が含まれ、かつ、メモリに、［検出情報Ｃ］、すなわち、
［検出情報Ｃ＝口唇動作情報ベースの音声区間開始位置（時間）情報と音源方向情報］
この［検出情報Ｃ］が格納済みであるか否かを判定する。

なお、ステップＳ６０６に進む条件は、
（ａ）ステップＳ６０１の判定がＮｏ、
（ｂ）ステップＳ６０５の判定がＹｅｓ、
上記（ａ），（ｂ）の条件が満足された場合のみである。
すなわち、
（ａ）ステップＳ６０１の判定がＮｏ＝検出された音声区間情報が「口唇動作情報」に基づくものでない。
（ｂ）ステップＳ６０５の判定がＹｅｓ＝検出された音声区間情報が「音声情報」に基づくものである。
これらの２つの条件を満たす場合である。

ステップＳ６０６では、以下の２つの条件を満たすか否かを判定することになる。
（条件１）ステップＳ６０５においてＹｅｓと判定された「音声情報」によって検出された音声区間情報が音声区間終了位置（時間）を示すものであること。
（条件２）すでに、メモリに、以下の［検出情報Ｃ］が格納されていること、
［検出情報Ｃ＝口唇動作情報ベースの音声区間開始位置（時間）情報と音源方向情報］

すなわち、
音声区間開始位置情報として、「口唇動作情報」に基づく情報が取得されてメモリに格納済みであり、
音声区間終了位置情報として、「音声情報」に基づく情報が得られたこと、
これらが確認された場合に、ステップＳ６０６の判定がＹｅｓとなる。

これらの条件の確認処理は、音声区間開始位置と終了位置の適用情報の組み合わせ（セット）が、先に図１１（２）を参照して説明した（セット３）、すなわち、
（セット３）
音声区間の開始位置（時間）判定に（Ｂ）口唇動作情報を適用し、
音声区間の終了位置（時間）判定に（Ｃ）音声情報を適用。
このセットに対応することの確認処理に相当する。
なお、本実施例では、この条件の他に、ユーザ（発話者）が特定位置を見ていたことが確認済みであることが、処理を行なう条件として追加されている。
ステップＳ６０６において、上記条件を満足すると判定した場合は、ステップＳ６０７に進み、満足しないと判定した場合は、ステップＳ６０１に戻る。

（ステップＳ６０７）
ステップＳ６０７において、音源方向・音声区間決定部１３４は、以下の判定処理を実行する。
（ａ）音声区間終了位置情報とともに取得した音源方向情報
（ｂ）音声区間開始位置情報とともに取得した音源方向情報、
これら２つの音源方向情報が一致するか否かを判定する。
一致した場合は、ステップＳ６０８に進み、不一致の場合はステップＳ６０１に戻る。
なお、一致判定は、完全一致のみならず、予め設定した誤差、例えば、先に図４、図５を参照して説明した音源方向を示す角度（θ）に対して１０％程度の誤差範囲であれば一致であると判定する処理を行なう。

このステップＳ６０７の判定処理は、
「口唇動作情報」に基づく音声開始位置情報に併せて取得した音源方向情報と、
「音声情報」に基づく音声終了位置情報に併せて取得した音源方向情報が一致するか否かを判定する処理である。

すなわち、全く異なる情報を適用して得られた音声区間開始位置（時間）と、音声区間終了位置（時間）の２つの異なるタイミングで得られた音源方向が一致するか否かを確認するものである。
一致した場合は、その音声区間は、特定の１人のユーザによって発せられた発話である可能性が高く、音声認識対象として選択すべき音声区間であると判定し、ステップＳ６０８に進む。

一方、ステップＳ６０７において、これら２つの音源方向が不一致であると判定した場合は、異なる情報を適用して得られた音声区間開始位置（時間）と、音声区間終了位置（時間）の２つの異なるタイミングで得られた音源方向が不一致の場合である。このような音声区間は、同一発話者による発話に対応する正しい音声区間でない可能性があり、音声認識対象に設定せず、ステップＳ６０１に戻る。

（ステップＳ６０８）
このステップＳ６０８は、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する処理である。
この音声認識対象としての決定は、以下の条件を満足する場合に実行される。
（条件１）ステップＳ４０６の判定がＹｅｓ、すなわち音声区間開始位置検出時の音源方向と音声区間終了位置検出時の音源方向が一致した場合。

音源方向・音声区間決定部１３４は、上記条件１を満足する場合、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する。
この決定処理において決定した音声情報が、図３に示す音声処理部１３０内の音源抽出部１３５に出力され、音源抽出処理が実行される。さらに、音源抽出結果が音声認識部１３６に出力され音声認識処理が実行されることになる。

本実施例では、音声認識対象とするか否かについて、ユーザが特定の位置を見ているか否かの判定情報を利用する構成としている。ユーザは、音声認識の必要性を判定させるために、ポスチャやジェスチャといった特定の所作や動作を行う必要がなくなり、ユーザ負担を軽減することが可能となる。

［５．顔識別処理を行なう構成について］
上述した実施例では、発話者が誰であるかについては考慮することなく処理を行なっていた。
すなわち発話者の特定処理として、例えば、
（１）Ａさんの発話、
（２）Ｂさんの発話、
（３）Ｃさんの発話、
このように発話者が誰であるかを識別して、識別結果に応じて処理を行なう構成とはしていなかった。

上述の各実施例に対して、顔識別処理を追加し、顔識別情報を用いて、その後の処理を変更する構成も可能である。
このように顔識別処理を行なう音声認識装置の構成例を図２２に示す。

図２２に示す音声認識装置５００は、画像処理部５１０と、音声処理部５３０を有する。本実施例の音声認識装置５００は、先に図３を参照して説明した音声認識装置１０とほぼ同様の構成を有するが、画像処理部５１０内に顔識別部５０１を有する点が異なる。その他の構成は、図３に示す音声認識装置１０と同様の構成である。

ビデオカメラ等によって構成される画像入力部１１１から入力する画像が顔領域検出部１１２に出力され、顔領域検出部１１２が、入力画像から顔領域を検出する。
顔領域検出部の検出した顔領域情報が、撮影画像とともに顔識別部５０１に入力される。
顔識別部５０１は、顔領域検出部１１２の検出した顔領域にある顔がだれの顔であるかを判定する。

顔識別部５０１のアクセス可能なメモリには、予め登録された顔パターン情報が格納されている。この登録情報は、ユーザ各々の識別子と、顔パターンなどの顔特徴情報とを対応付けて登録したデータである。すなわち、
Ａさんの顔特徴情報、
Ｂさんの顔特徴情報、
Ｃさんの顔特徴情報、
：
このように各ユーザの顔特徴情報がメモリに格納されている。

顔識別部５０１は、顔領域検出部１１２の検出した顔領域にある顔の特徴と、メモリに格納された各ユーザの登録済み特徴情報を対比し、顔領域検出部１１２の検出した顔領域にある顔の特徴と最も類似度の高い登録済み特徴情報を選択する。
選択した登録済み特徴情報に対応付けられたユーザを、撮影画像の顔領域の顔を持つユーザであると判定し、このユーザ情報を顔識別情報５０２として、音源方向・音声区間決定部１３４に出力する。

音源方向・音声区間決定部１３４は、音源方向と音声区間の特定を行うとともに、顔識別情報５０２を適用して、発話を行なったユーザを特定する。
その後、予め設定した期間は、その特定ユーザの発話であるか否かを判定し、特定ユーザの発話であることが確認された場合にのみ、音声認識対象として選択する。
このような処理を実行することが可能となる。

あるいは、予め音声認識装置５００に対して、音声認識対象とするユーザを登録しておく。例えばユーザＡの発話のみを音声認識対象とし、その他のユーザの発話については、音声情報が取得されても音声認識対象としない設定として事前登録する。すなわち、予め「発話受理許容ユーザ」をメモリに登録する。

音源方向・音声区間決定部１３４は、音源方向、音声区間の決定された各発話について、顔識別部５０１の生成する顔識別情報５０２を適用して、メモリに登録された「発話受理許容ユーザ」の発話であるか否かを判定する。「発話受理許容ユーザ」の発話である場合にのみ、後段処理、すなわち音声認識処理を実行する。「発話受理許容ユーザ」以外の発話である場合には、音声認識を実行しない設定とする。
このような設定とすれば、数多くの人が会話するような環境でも、特定のユーザの発をのみを確実に選択して、音声認識対象データを絞り込んで処理を行なうことが可能となる。

また、複数のユーザに対応する処理優先度を予め設定して、優先度に従った処理を行なう構成としてもよい。例えば、ユーザＡ〜Ｃについて、
ユーザＡ：処理優先度＝高
ユーザＢ：処理優先度＝中
ユーザＣ：処理優先度＝低
このような処理優先度を予め、メモリに登録する。

このような設定の下、音声認識対象となる複数の発話が検出された場合、上記の優先度に応じて、処理順を決定して、優先度の高いユーザの発話を先に処理する設定とする。

［６．その他の実施例について］
次に、上述した実施例の複数の変形例について説明する。

［６−１．クラウド型の処理を行なう実施例について］
上述した実施例では、例えば図１を参照して説明したように、音声認識装置１０がテレビに付属し、テレビ内の音声認識部が処理を行なう実施例として説明した。

しかし、例えば音声認識を必要とするテレビ等の装置をネットワーク接続して、ネットワークによって接続されたサーバにおいて音声認識処理を実行し、実行した結果をテレビ等の装置に送信する構成としてもよい。

すなわち、図２３に示すように、テレビ等の情報処理装置６００とサーバ７００とを、インターネット等のネットワークを介して接続した構成とする。
テレビ等の情報処理装置６００には、先に図２を参照して説明したカメラとマイクを有する情報入力部６０１が設けられている。

情報入力部６０１が取得した画像および音声情報がネットワークを介してサーバ７００に送信される。
サーバ７００は、ネットワークを介して受信した情報を適用した音声認識を実行し、音声認識結果を情報処理装置６００に送信する。
情報処理装置６００は受信した音声認識結果に応じた処理、例えばチャンネル変更等の処理を行なう。
このように、データ処理をサーバにおいて実行するクラウド型の処理構成としてもよい。
なお、この場合、サーバ７００は、図２や図２３を参照して説明した構成を有する設定となる。

このような構成とすることで、ユーザ側のテレビ等の装置は、音声認識処理を実行するハードやソフトを実装する必要がなく、装置の大型化やコストアップを避けることが可能となる。

［６−２．操作部の操作に基づく音声区間検出処理を行なう実施例について］
上述した実施例では、音声認識装置に対する入力部に対するユーザの入力によって音声区間の開始位置や終了位置を明示する構成を含まないものとして説明した。
しかし、例えばテレビのリモコンに音声区間の開始や終了を入力する入力部を設け、ユーザ（発話者）が、この入力部を操作する構成を利用してもよい。

例えば発話開始タイミングに併せてリモコンの入力部を操作して、発話開始位置情報を音声認識装置としてのテレビに入力する。
あるいは、発話終了タイミングに併せてリモコンの入力部を操作して、発話終了位置情報を音声認識装置としてのテレビに入力する。
このような処理を上述の実施例に組み合わせて利用することで、さらに精度を高めた音声認識処理が実現される。

また、音声区間の開始位置や終了位置は、上述図の実施例に従った処理によって判定し、さらに、音声区間の開始位置から終了位置までの期間内に、発話者からのリモコン等の入力部からの操作情報が入力された場合に、音声認識対象として選択するといった処理としてもよい。
このような処理を行なえば、ユーザの明示的な要求があった場合にのみ、音声認識を実行する構成とすることが可能となる。

［７．画像データを利用した音声認識率の向上について］
上述したように、本開示の音声認識装置は、音声情報のみならず、画像データを利用して音源方向や音声区間の判別処理を行なう構成としている。
画像データを利用することで、精度の高い音声認識を行なうものである。

図２４に画像データを利用することによる音声認識率の向上が実現されることの実験データを示す。
図２４は、横軸に音声認識正解率、縦軸に周囲雑音の音量（Ｖｏｌｕｍｅレベル）を示したグラフである。
音声認識正解率は、０．０〜１．０の範囲であり、０．０は０％、１．０は１００％の正解率であることを示している。
周囲雑音のレベルは、ボリューム１６〜３２の範囲に設定している。ボリューム１６が、雑音レベルが低く、ボリューム３２が、雑音レベルが高いことを意味している。

図には、
（ａ）音声のみを利用した音源方向と音声区間検出に基づく音声認識処理、
（ｂ）口唇動作のみを利用した音源方向と音声区間検出に基づく音声認識処理、
（ｃ）ポスチャまたはジェスチャのみを利用した音源方向と音声区間検出に基づく音声認識処理、
これらの３種類の音源方向と音声区間の検出処理を実行した場合の音声認識正解率を対比して示している。

ボリュームレベルが１６〜３２いずれの場合も、音声認識正解率は、
（ｃ）ポスチャまたはジェスチャを利用した処理が最も高く、次が、（ｂ）口唇動作を利用した処理、最下位が（ａ）音声のみを利用した処理となっている。

また、周囲雑音レベルが高い場合、（ｃ）音声のみを利用した音声認識正解率は極端に低下するが、（ｂ）口唇動作、または（ｃ）ポスチャまたはジェスチャを利用した構成では、音声認識正解率が極端に低下することなく、いずれの場合も、０．５以上の音声認識正解率が維持されている。

このように、（ｂ）口唇動作や、（ｃ）ポスチャまたはジェスチャを利用した音源方向、音声区間の検出を実行することで、雑音の高い環境下での音声認識処理の精度を高めることができる。

［８．本開示の構成のまとめ］
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

なお、本明細書において開示した技術は、以下のような構成をとることができる。
（１）画像情報、および音声情報を入力する情報入力部と、
前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部は、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識装置。

（２）前記異なる情報の少なくとも一方は画像情報であり、前記音源方向・音声区間決定部は、画像に基づいて、音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する前記（１）に記載の音声認識装置。

（３）前記音源方向・音声区間決定部は、前記情報入力部の入力画像から取得される口唇領域画像を利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する前記（１）または（２）に記載の音声認識装置。

（４）前記音源方向・音声区間決定部は、前記情報入力部の入力画像から取得される発話者の手の動きを示すジェスチャ、または手の形状変化であるポスチャを利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する前記（１）〜（３）いずれかに記載の音声認識装置。

（５）前記異なる情報の少なくとも一方は画像情報、他方は音声情報であり、前記音源方向・音声区間決定部は、画像情報に基づいて得られた音源方向と、音声情報に基づいて得られた音源情報との一致度を判定する前記（１）〜（４）いずれかに記載の音声認識装置。

（６）前記音源方向・音声区間決定部は、前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有していないと判定した場合、さらに、画像から得られる発話者の顔方向または視線方向が、予め規定した許容範囲内にあるか否かを判定し、許容範囲内である場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する前記（１）〜（５）いずれかに記載の音声認識装置。

（７）前記異なる情報の少なくとも一方には、画像解析によって得られる発話者の明示的な合図が含まれる前記（１）〜（６）いずれかに記載の音声認識装置。

（８）前記異なる情報の少なくとも一方には、入力部を介した発話者の明示的な入力情報が含まれる前記（１）〜（７）いずれかに記載の音声認識装置。

（９）前記音源方向・音声区間決定部は、さらに、音声区間内に入力部を介するユーザ操作情報の入力が検出された場合に、該音声区間の音声を音声認識対象として選択する処理を行なう前記（１）〜（８）いずれかに記載の音声認識装置。

（１０）前記音源方向・音声区間決定部は、さらに、発話者が予め定めた特定領域を見ているか否かを判定し、見ていると判定した場合に、検出した音声区間の音声を音声認識対象として選択する処理を行なう前記（１）〜（９）いずれかに記載の音声認識装置。

（１１）前記音源方向・音声区間決定部は、画像解析によって得られる顔識別情報を適用して、顔識別結果に基づいて、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象とするか否かの判定を行なう前記（１）〜（１０）いずれかに記載の音声認識装置。

（１２）音声情報および画像情報を取得する情報入力部を備えた情報処理装置と、
前記情報処理装置とネットワーク接続されたサーバを有し、
前記サーバは、
前記情報処理装置から、前記情報入力部の取得した音声情報および画像情報を入力し、入力情報に基づく音声認識処理を実行して音声認識結果を前記情報処理装置に出力する構成であり、
前記サーバは、
音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部は、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識処理システム。

（１３）音声認識装置において実行する音声認識方法であり、
前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部において、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識方法。

（１４）音声認識装置において音声認識処理を実行させるプログラムであり、
前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記プログラムは、前記音源方向・音声区間決定部に、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行させ、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行させるプログラム。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本開示の一実施例の構成によれば、音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
具体的には、本開示の音声認識装置は、画像情報、および音声情報を入力する情報入力部と、情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有する。
音源方向・音声区間決定部は、音声区間の開始時間と音源方向情報の取得処理と、音声区間の終了時間と音源方向情報の取得処理を、異なる情報の解析処理によって実行する。さらに、異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する。
これらの構成により、音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。

１０音声認識装置
２０情報入力部
２１カメラ
２２マイクロフォン・アレイ
１１０画像処理部
１１１画像入力部
１１２顔領域検出部
１１３人領域検出部
１１４顔方向推定部
１１５視線方向推定部
１１６口唇領域検出部
１１７口唇動作ベース検出部
１１８手領域検出部
１１９ポスチャ認識部
１２０ジェスチャ認識部
１２１顔／視線方向情報
１２２口唇動作ベース検出情報
１２３ポスチャ情報
１２４ジェスチャ情報
１３０音声処理部
１３１音声入力部
１３２音源方向推定部
１３３音声区間検出部
１３４音源方向・音声区間決定部
１３５音源抽出部
１３６音声認識部
５００音声認識装置
５０１顔識別部
５０２顔識別情報
５１０画像処理部
５３０音声処理部
６００情報処理装置
７００サーバ

Claims

画像情報、および音声情報を入力する情報入力部と、
前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部は、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識装置。
前記異なる情報の少なくとも一方は画像情報であり、
前記音源方向・音声区間決定部は、
画像に基づいて、音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する請求項１に記載の音声認識装置。
前記音源方向・音声区間決定部は、
前記情報入力部の入力画像から取得される口唇領域画像を利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する請求項１に記載の音声認識装置。
前記音源方向・音声区間決定部は、
前記情報入力部の入力画像から取得される発話者の手の動きを示すジェスチャ、または手の形状変化であるポスチャを利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する請求項１に記載の音声認識装置。
前記異なる情報の少なくとも一方は画像情報、他方は音声情報であり、
前記音源方向・音声区間決定部は、
画像情報に基づいて得られた音源方向と、音声情報に基づいて得られた音源情報との一致度を判定する請求項１に記載の音声認識装置。
前記音源方向・音声区間決定部は、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有していないと判定した場合、さらに、
画像から得られる発話者の顔方向または視線方向が、予め規定した許容範囲内にあるか否かを判定し、許容範囲内である場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する請求項１に記載の音声認識装置。
前記異なる情報の少なくとも一方には、画像解析によって得られる発話者の明示的な合図が含まれる請求項１に記載の音声認識装置。
前記異なる情報の少なくとも一方には、入力部を介した発話者の明示的な入力情報が含まれる請求項１に記載の音声認識装置。
前記音源方向・音声区間決定部は、
さらに、音声区間内に入力部を介するユーザ操作情報の入力が検出された場合に、該音声区間の音声を音声認識対象として選択する処理を行なう請求項１に記載の音声認識装置。
前記音源方向・音声区間決定部は、
さらに、発話者が予め定めた特定領域を見ているか否かを判定し、見ていると判定した場合に、検出した音声区間の音声を音声認識対象として選択する処理を行なう請求項１に記載の音声認識装置。
前記音源方向・音声区間決定部は、
画像解析によって得られる顔識別情報を適用して、顔識別結果に基づいて、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象とするか否かの判定を行なう請求項１に記載の音声認識装置。
音声情報および画像情報を取得する情報入力部を備えた情報処理装置と、
前記情報処理装置とネットワーク接続されたサーバを有し、
前記サーバは、
前記情報処理装置から、前記情報入力部の取得した音声情報および画像情報を入力し、入力情報に基づく音声認識処理を実行して音声認識結果を前記情報処理装置に出力する構成であり、
前記サーバは、
音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部は、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識処理システム。
音声認識装置において実行する音声認識方法であり、
前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部において、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識方法。
音声認識装置において音声認識処理を実行させるプログラムであり、
前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記プログラムは、前記音源方向・音声区間決定部に、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行させ、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行させるプログラム。