JP2011049625A

JP2011049625A - 受付装置

Info

Publication number: JP2011049625A
Application number: JP2009193983A
Authority: JP
Inventors: Shoji Onofuji; 祥司尾野藤
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2009-08-25
Filing date: 2009-08-25
Publication date: 2011-03-10

Abstract

【課題】受付処理中にユーザの位置が変化した場合でも、その変化に追従して音情報を適切に加工し、受付処理の効率化や正確性の向上を図る。
【解決手段】受付端末２０は、カメラ２０９と、複数のマイク２０７Ａ〜２０７Ｄとを有し、カメラ２０９による撮像９０を画像認識し、画角に含まれる来訪者３０の口３０Ｍの位置を検出し、マイク２０７Ａ〜２０７Ｄを介しそれぞれ入力された複数の音により、対応する複数の音情報をそれぞれ取得し、マイク２０７Ａ〜２０７Ｄのうち、検出された画角における口３０Ｍの位置に最も近いマイク２０７により入力された音に対応した第１音情報を、そのマイク２０７以外のマイク２０７により入力された音に対応した第２音情報よりも強調するように、遅延量を用いて第１音情報又は第２音情報を加工し、その加工された後の、第１音情報及び第２音情報を用いて音声認識を行う。
【選択図】図１９

Description

本発明は、ユーザの発する発話音声を音声認識して受付処理を行う受付装置に関する。

例えば建造物への来訪者に対する受付業務を行う受付装置が、従来より既に知られている。このような受付装置では、ユーザの発話音声がマイクロホン等の音声入力手段により入力され、その発話内容が音声認識されることによって、氏名や会社名等のユーザ情報が取得される。この際、受付装置の周囲環境で雑音や騒音が発生していると、音声入力手段にはそれらの音も併せて入力され混入する。この結果、音声認識時に上記ユーザ情報の誤認識が生じるおそれがある。

上記のようなマイクロホンにおける音声認識の適正化に関する従来技術として、例えば特許文献１に記載の音声強調装置が知られている。この音声強調装置は、ビデオカメラと、複数のマイクロホン素子とを有している。ビデオカメラが音源を含む画像を撮影し、表示部がその撮影された画像を表示する。操作者が表示部に表示された画像上でマウスカーソルを操作する。制御部は、操作者がマウスカーソルを操作して指示した位置に対応する目的音声の強調をする。これにより、雑音に取り囲まれた環境内でも、目的とする音声を強調することができる。

特開２００８−２７１１５７号公報

しかしながら、受付装置に対し、上記従来技術の手法を適用しようとする場合、以下のような問題があった。すなわち、受付装置では、受付処理の途中で、ユーザが姿勢を変えたり、首を別方向に向けたり、立つ位置を移動する場合がある。このような場合、撮影された画角における、音源すなわちユーザの口の位置が変わってしまう。上記従来技術の手法では、このような音源の位置の変化に追従してユーザの発話音声の強調を行うことは困難である。この結果、受付処理における音声認識精度が低下し、受付処理の効率化や正確性の向上を図ることができなかった。

本発明の目的は、受付処理中にユーザの位置が変化した場合でも、その変化に追従して音情報を適切に加工し、受付処理の効率化や正確性の向上を図ることができる受付装置を提供することにある。

上記目的を達成するために、第１の発明は、ユーザに対し、予め定められた複数の処理手順に沿った受付処理を行う受付装置であって、所定の画角における画像を撮影する撮像手段と、前記撮像手段による撮像結果を画像認識し、前記画角に含まれる特定の１人の前記ユーザの顔面の発話位置を検出する口位置検出手段と、前記ユーザの発話音声を入力可能な複数の音声入力手段と、前記複数の音声入力手段を介しそれぞれ入力された複数の音により、対応する振幅あるいは周波数を含む複数の音情報をそれぞれ取得する音取得手段と、前記複数の音声入力手段のうち、前記口位置検出手段により検出された前記発話位置に近い第１音声入力手段により入力された音に対応した第１音情報を、前記第１音声入力手段以外の第２音声入力手段により入力された音に対応した第２音情報よりも強調するように、所定の加工用係数を用いて少なくとも前記第１音情報又は前記第２音情報を加工する音加工手段と、前記音加工手段により加工された後の、前記第１音情報又は前記第２音情報を用いて、前記受付処理のための音声認識を行う音声認識手段とを有することを特徴とする。

本願第１発明においては、複数の音声入力手段からそれぞれ入力された複数の音に基づき、音取得手段が複数の音情報をそれぞれ取得する。そしてその音情報に基づいた音声認識が音声認識手段により実行され、これによってユーザの発話内容が検出され、所定の受付処理が行われる。

この際、複数の音声入力手段には、受付処理の対象であるユーザの発話位置からの発話音声以外にも、周囲音等が混入する形で入力される。本願第１発明では、撮像手段が特定の１人のユーザを含むような画角にて撮像を行うことにより、口位置検出手段が、その撮像結果を画像認識して、ユーザの発話位置が受付装置側から見てどこにあるかを検出する。これにより、複数の音声入力手段のうち発話位置に近い第１音声入力手段が判別されるので、音加工手段が、その第１音声入力手段に対応した第１音情報を、それ以外の第２音声入力手段に対応した第２音情報よりも強調するような加工を行う。そして、その加工後の第１音情報及び第２音情報を用いて音声認識手段は音声認識を行う。

上記のように、発話位置に近い第１音声入力手段での入力に対応した第１音情報を強調した後に音声認識を行うことにより、ユーザの発話音声をそれ以外の音声から明確に区別した形で適切な音声認識を行うことができる。また、ユーザの発話位置が撮像手段の画角内で移動した場合でも、その移動に追従した形で音情報を強調する音声入力手段を切り替えつつ、音情報の加工を行うことができる。以上の結果、受付処理における音声認識精度を向上することができ、受付処理の効率化や正確性の向上を図ることができる。

第２発明は、上記第１発明において、前記画角に含まれる前記特定の１人の前記ユーザの像の大きさと前記画角での前記発話位置とに対応した、前記特定の１人の前記ユーザの前記発話位置から発話された発話音声が前記複数の音声入力手段にそれぞれ入力される角度と、前記複数の音声入力手段それぞれの間の距離とに基づく、前記音加工手段が前記加工に用いる前記加工用係数としての遅延量を決定する遅延量決定手段をさらに備え、前記音加工手段は、前記遅延量決定手段により決定された前記遅延量を用いて少なくとも前記第１音情報又は前記第２音情報を加工することを特徴とする。

画角内でのユーザの像の大きさは、ユーザと音声入力手段との距離に対応している。画角での発話位置は、画角中心線から上記ユーザまでの偏差に対応している。発話音声が音声入力手段へと入力する角度は、上記距離と上記偏差との両方に対応している。本願第２発明では、遅延量決定手段が、上記発話音声の入力する角度と、複数の音声入力手段どうしの距離とに基づく、遅延量を決定する。これにより、音加工手段が、上記決定された遅延量を加味して少なくとも第１音情報又は第２音情報の加工を行い、それら第１音情報及び第２音情報の位相差を低減し同相化する。この結果、第１音情報を、第２音情報よりも強調することができる。

第３発明は、上記第１発明において、前記画角での前記発話位置と、対応する前記遅延量との相関を記憶した遅延量記憶手段をさらに備え、前記遅延量決定手段は、前記口位置検出手段により検出された前記画角での前記発話位置に対応した前記遅延量を前記遅延量記憶手段より取得し、当該取得した遅延量を前記音加工手段が前記加工に用いる前記遅延量として決定し、前記音加工手段は、前記遅延量決定手段により決定された前記遅延量を用いて少なくとも前記第１音情報又は前記第２音情報を加工することを特徴とする。

本願第３発明においては、画角でのユーザの発話位置と、これらに対応する遅延量とを予め遅延量記憶手段に相関として記憶させておく。そして、実際に検出したユーザの発話位置に基づき、記憶された相関を参照し、対応する遅延量を取得して用いる。これにより、複数の音声入力手段それぞれに係わる音情報に対し相関演算を行って遅延量を算出する場合に比べ、演算処理を簡素化し、処理時間を短縮することができる。

第４発明は、上記第１乃至第３発明のいずれかにおいて、前記撮像手段による前記撮像結果を画像認識し、前記画角に含まれる前記特定の１人の前記ユーザの像の大きさが所定のしきい値よりも大きくなった場合に前記第１音情報又は前記第２音情報の加工を開始するように、前記音加工手段を制御する開始制御手段を有することを特徴とする。

これにより、受付処理を行うべきユーザがある程度受付装置に接近してから、加工を開始することができるので、無人状態での無駄な音加工手段の動作を防止することができる。

第５発明は、上記第４発明において、前記第１音情報又は前記第２音情報の加工が開始された後、前記画角に含まれる前記特定の１人の前記ユーザの前記発話位置が前記口位置検出手段により検出されなくなった場合でも、その非検出状態が所定時間継続するまでは、前記第１音情報又は前記第２音情報の加工を続行するように、前記音加工手段を制御する継続制御手段を有することを特徴とする。

これにより、画角内にて顔を認識されているユーザが、一時的に床に視線を落としたり横を向いたりした場合でも、そのユーザがすぐに元の撮像手段への正対状態に復帰した場合には、加工を中断せず引き続き継続することができる。この結果、このような場合における音加工手段の動作中断及び動作再開の繰り返しを防止し、円滑な加工動作を確保することができる。

第６発明は、上記第１乃至第５発明のいずれかにおいて、前記撮像手段による前記撮像結果を画像認識し、前記画角に含まれる前記特定の１人の前記ユーザの性別及び年齢の少なくとも一方を判定する人物判定手段をさらに備え、前記音加工手段は、前記人物判定手段により判定された前記性別又は前記年齢に対応した音状態量の加工態様となるようにしつつ、少なくとも前記第１音情報又は前記第２音情報を加工することを特徴とする。

これにより、ユーザが男性であれば低音域を強調するような加工を行い、ユーザが女性や子供であれば高音域を強調するような加工を行う等、性別や年齢固有の声質に対応し、さらにきめ細かい音声認識処理を行うことができる。

本発明によれば、受付処理中にユーザの位置が変化した場合でも、その変化に追従して音情報を適切に加工し、受付処理の効率化や正確性の向上を図ることができる。

本発明の一実施の形態の来訪者受付システムの全体構成の概略構成を表すシステム構成図である。受付端末の外観構造の一例を表す斜視図である。タッチパネルにおける表示画面の例を表す図である。受付端末の機能的構成を示す機能ブロック図である。ＤＢサーバの機能的構成を表す機能ブロック図である。各マイクに入力される各音を説明する説明図である。遅延量について説明する説明図である。音声到来角度を推測する方法の原理を説明する説明図である。来訪者がタッチパネルに表示された受付開始ボタンを押下した状態における、受付端末と来訪者との位置関係を模式的に表した図である。カメラによる撮像結果を表す概念的説明図である。カメラによる撮像結果を表す概念的説明図である。カメラによる撮像結果を表す概念的説明図である。カメラによる撮像結果の撮像エリアへの分割を説明するための説明図である。遅延量テーブルの例を表す図である。遅延量テーブルの例を表す図である。遅延量テーブルの例を表す図である。遅延量テーブルの例を表す図である。カメラにより撮像された撮像結果の別の例を表す概念的説明図である。画像認識履歴テーブルの一例を表す図である。受付端末のＣＰＵが実行する、受付処理及び音情報の加工の制御手順を表すフローチャートである。受付端末のＣＰＵが実行する、カメラの撮像の画像認識及び遅延量の決定に関する処理の制御手順を表すフローチャートである。センサ検出に基づき撮像を開始する変形例において、受付端末のＣＰＵが実行する、受付処理及び音情報の加工の制御手順を表すフローチャートである。来訪者の性別・年齢を加味した音情報の加工を行う変形例において、受付端末のＣＰＵが実行する、カメラの撮像の画像認識及び遅延量の決定に関する処理の制御手順を表すフローチャートである。

以下、本発明の一実施の形態を図面を参照しつつ説明する。

（Ａ）システムの基本構成
図１は、本実施形態の来訪者受付システムの全体構成の概略構成を表すシステム構成図である。図１において、来訪者受付システム１は、例えば、ビルや会社その他の建造物への来訪者３０（後述の図６参照）、すなわちユーザに対する、受付業務を行うシステムである。この例では、会社へ設置されている場合を例にとって説明する。

来訪者受付システム１は、受付装置である受付端末２０と、ＤＢサーバ１０と、複数のＩＰ電話機６０と、ＩｎｔｅｎｅｔＰｒｏｔｏｃｏｌＰｒｉｖａｔｅＢｒａｎｃｈｅＸｃｈａｎｇｅ（ＩＰ−ＰＢＸ）５０とを有している。受付端末２０は、例えば会社の入口付近に設置されている。ＤＢサーバ１０は、周知のコンピュータにより構成されている。ＩＰ電話機６０は、会社の社員それぞれに対応して設けられている。ＩＰ−ＰＢＸ５０は、複数のＩＰ電話機６０の回線交換を行う周知の交換装置である。これら受付端末２０と、ＩＰ電話機６０と、ＩＰ−ＰＢＸ５０とは、すべてルータ４０を介して接続されている。

受付端末２０は、端末本体２０Ａと、タッチパネル２１０と、複数のマイク２０７Ａ，２０７Ｂ，２０７Ｃ，２０７Ｄと、カメラ２０９と、スピーカ２０８とを有している。タッチパネル２１０、複数のマイク２０７Ａ，２０７Ｂ，２０７Ｃ，２０７Ｄ、カメラ２０９、及びスピーカ２０８は、端末本体２０Ａに接続されている。なお、以下適宜、マイク２０７Ａ〜２０７Ｄを総称して単に「マイク２０７」と称する。

各マイク２０７Ａ，２０７Ｂ，２０７Ｃ，２０７Ｄは、それぞれ来訪者３０の発話音声を入力可能に構成されており、それぞれ音声入力手段として機能する。これらマイク２０７は、それぞれ入力された音を音情報に変換し、端末本体２０Ａへ出力する。

カメラ２０９は、撮像手段として機能する。このカメラ２０９は、所定の画角（図示せず）における画像を撮影し、その撮像結果を端末本体２０Ａへ出力する。

スピーカ２０８は、端末本体２０Ａから入力された音声信号を、所定の案内音声に変換して出力する。

図２は、受付端末２０の外観構造の一例を表す斜視図である。

図２において、タッチパネル２１０は、水平に設置されるベース２１２に対してアーム２１１を介し支持されている。そして、このタッチパネル２１０は、表示面のなす方向がユーザすなわち来訪者３０の視線の方向に対して直角となるように、当該表示面が斜め上方を向いている。

各マイク２０７Ａ〜２０７Ｄは、上記カメラ２０９に対する予め定められた位置関係となるように、それぞれ配置されている。この例では、受付端末２０の正面側（図中手前側）の上記タッチパネル２１０の、図中向かって左上側にマイク２０７Ａ、右上側にマイク２０７Ｂ、左下側にマイク２０７Ｃ、右下側にマイク２０７Ｄが、それぞれ配置されている。

スピーカ２０８は、受付端末２０の正面側に配置されている。すなわち、スピーカ２０８は、上記タッチパネル２１０の下部に位置している。

図３は、タッチパネル２１０における表示画面の例を表す図である。図３に示す画面においては、少なくとも１つの操作ボタンＢが背景Ｇとともに表示される。この操作ボタンＢは、来訪者３０が指でタッチすることで操作入力可能である。また、操作ボタンＢは、後述の描画プログラムによって生成される。なお、各ボタンＢにはその内容が記載（図中では「＊＊＊」で略記している）されている。

タッチパネル２１０は、複数の画面を所定の順序で順次切り替えて表示することができる。

以上の構成において、例えば受付端末２０の電源がＯＮされた後、この状態で会社への来訪者３０が上記タッチパネル２１０を操作する。これにより、受付端末２０は来訪者３０が検出されたと認識し、受付端末２０が受付処理を開始する。すなわち、受付端末２０は、端末本体２０Ａからの音声信号に基づき、来訪者３０に関する所定の質問（詳細は後述）をスピーカ２０８より出力する。この質問は、予め定められた複数の処理手順（以下、シナリオという）に沿って行われる。このとき、タッチパネル２１０が、上記スピーカ２０８からの出力に対応した所定の表示を行うようにしてもよい。

上記スピーカ２０８による出力やタッチパネル２１０における表示に応じて、来訪者３０は、自己の氏名等を発声する。すると、受付端末２０は、対応する音情報を各マイク２０７から入力し、その音情報に対して音声認識処理を行う。上記スピーカ２０８の出力やタッチパネル２１０の表示に応じて、来訪者３０は、タッチパネル２１０の適宜の画面における各種ボタンを手動操作する。これにより、来訪者３０は、対応する操作情報を受付端末２０へと入力する。

受付端末２０は、上記音情報に対する音声認識結果及び上記操作情報の入力結果に応じて、来訪者３０に対して対応すべき来訪対応者（以下適宜、単に担当者という）への通知処理を行う。具体的には、受付端末２０は、自らを、担当者が使用するＩＰ電話機６０へＩＰ−ＰＢＸ５０を介して接続する。担当者は、通知された来訪者３０の身元に関する情報に応じて、受付端末２０に対して応対を指示する。この指示に応じて、受付端末２０は、来訪者３０と担当者とが会話できるようにＩＰ電話機６０を接続したり、担当者の代理で来訪者３０に応対したりする。このようにして、本実施形態の来訪者受付システム１は、会社における受付業務を自動的に行うことができる。

（Ｂ）受付端末の詳細機能
図４は、受付端末２０の機能的構成を示す機能ブロック図である。

図４において、受付端末２０の端末本体２０Ａは、制御回路部２００と、入出力（Ｉ／Ｏ）インタフェイス２０４と、ハードディスク装置（ＨＤＤ）２０５とを有している。

制御回路部２００は、ＣＰＵ２０１と、ＲＯＭ２０２と、ＲＡＭ２０３とを備えている。ＲＯＭ２０２は、受付端末２０の基本的な動作に必要なプログラムやそのための設定値を記憶する。ＲＡＭ２０３は、各種データを一時的に記憶する。ＣＰＵ２０１は、ＲＯＭ２０２や、ＨＤＤ２０５に記憶されたプログラムに従って、受付端末２０全体の動作を制御する。またＣＰＵ２０１は、所定の加工用係数としての遅延量（後述）を用いて、各マイク２０７により入力された音に対応した音情報を加工する（詳細は後述する）。

Ｉ／Ｏインタフェイス２０４には、上記ＣＰＵ２０１と、上記ＨＤＤ２０５と、上記タッチパネル２１０と、上記マイク２０７Ａ〜２０７Ｄと、上記カメラ２０９と、上記スピーカ２０８と、ネットワーク（ＮＷ）カード２０６とが接続されている。

ＨＤＤ２０５には、言語モデル記憶エリア２５２、辞書記憶エリア２５３、及びプログラム記憶エリア２５６を含む複数の記憶エリアを備えている。辞書記憶エリア２５３は、上記言語モデルとともに音声認識に使用される辞書が記憶される。

言語モデル記憶エリア２５２は、来訪者３０による発話の音声認識に使用される言語モデルが記憶される。言語モデル記憶エリア２５２には、来訪者３０による発話の認識に使用するための受理可能な文のパターンが、言語モデルとして記憶されている。この言語モデルは、受付端末２０と来訪者３０との対話で想定される様々な場面に応じて予め作成されている。

プログラム記憶エリア２５６には、例えば、受付端末２０の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、システムプログラム、通信プログラム、描画プログラム、音声認識プログラム、ＤＢ照合プログラム、音声合成プログラム、対話制御プログラム、電話接続プログラム等が含まれる。システムプログラムは、受付端末２０の基本的な動作を制御するプログラムである。通信プログラムは、ＤＢサーバ１０との通信を制御するプログラムである。描画プログラムは、タッチパネル２１０に表示する画像を生成するプログラムである。音声認識プログラムは、音声認識を実行するためのプログラムである。ＤＢ照合プログラムは、ＤＢサーバ１０のデータベースにアクセスし照合を行うためのプログラムである。電話接続プログラムは、ＩＰ電話機６０とＩＰ−ＰＢＸ５０との接続に係わるプログラムである。

なお、図示はされていないが、ＨＤＤ２０５には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。

ＮＷカード２０６は、上記ルータ４０に接続されている。ＮＷカード２０６は、ＤＢサーバ１０等との間でデータの送受信を可能とするためのいわゆる拡張カードである。

（Ｃ）ＤＢサーバの詳細機能
図５は、ＤＢサーバ１０の機能的構成を表す機能ブロック図である。

図５に示すように、ＤＢサーバ１０は、ＣＰＵ１０１と、ＲＯＭ１０２と、ＲＡＭ１０３と、入出力（Ｉ／Ｏ）インタフェイス１０４と、マウスコントローラ１０６と、キーコントローラ１０７と、ビデオコントローラ１０８と、通信装置１０９と、遅延量記憶手段としてのハードディスク装置（ＨＤＤ）１５０とを有している。ＲＯＭ１０２、ＲＡＭ１０３は、それぞれＣＰＵ１０１に接続されている。Ｉ／Ｏインタフェイス１０４には、上述した、ＣＰＵ１０１、マウスコントローラ１０６、キーコントローラ１０７、ビデオコントローラ１０８、通信装置１０９、及びハードディスク装置１５０が接続されている。

ＲＯＭ１０２は、ＢＩＯＳを含む、ＤＢサーバ１０を動作させるための各種のプログラムを記憶している。ＲＡＭ１０３は、各種データを一時的に記憶する。ＣＰＵ１０１は、ＲＯＭ１０２や、後述するＨＤＤ１５０に記憶されたプログラムに従って、ＤＢサーバ１０の全体の制御を司る。

マウスコントローラ１０６、キーコントローラ１０７、及びビデオコントローラ１０８には、それぞれマウス１１６、キーボード１１７、及びディスプレイ１１８が接続されている。通信装置１０９は、ルータ４０に接続され、受付端末２０等、外部機器との間でデータの送受信を行う。

ＨＤＤ１５０は、来訪者予約データベース記憶エリア１５１、遅延量データベース記憶エリア１５２、顔データベース記憶エリア１５３、部署電話番号データベース記憶エリア１５４、社員データベース記憶エリア１５５、及びプログラム記憶エリア１５６を含む、複数の記憶エリアを備えている。

来訪者予約データベース記憶エリア１５１には、予定された来訪者に関する予約データを格納する来訪者予約データベース（図示せず）が記憶されている。

顔データベース記憶エリア１５３には、複数の人間の顔データを格納する顔データベース（図示せず）が記憶されている。部署電話番号データベース記憶エリア１５４には、会社の全部署の電話番号情報を格納している。社員データベース記憶エリア１５５には、社員情報が格納されている。

プログラム記憶エリア１５６には、システムプログラム、通信プログラム等、各種処理をＤＢサーバ１０に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばＣＤ−ＲＯＭに記憶されたものがＣＤ−ＲＯＭドライブ（図示せず）を介してインストールされ、プログラム記憶エリア１５６に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。

遅延量データベース記憶エリア１５２には、遅延量データベース（図示せず）が記憶されている。この遅延量データベースの記憶内容及び遅延量については、後述する。

（Ｄ）音情報の加工原理及び加工内容
本実施形態の受付端末２０のＣＰＵ２０１は、カメラ２０９による撮像結果を画像認識し、所定の画角に含まれる来訪者３０の口の位置を検出する。各マイク２０７より入力された音に対応した音情報には、上記検出された口の位置に最も近いマイク２０７に係わる第１音情報と、それ以外のマイク２０７に係わる第２音情報とが含まれる。受付端末２０のＣＰＵ２０１は、精度よく音声認識を行うために、それら第１音情報及び第２音情報を加工する。なお、後述のように、上記第１音情報は、実質的には加工されていない。以下、その加工の原理及びその原理に基づく実際の加工内容を順を追って説明する。

（Ｄ−１）加工の概要
図６は、各マイク２０７Ａ〜２０７Ｄに入力される音を説明する説明図である。この図６では、図示の煩雑を避けるため、受付端末２０のアーム２１１及びベース２１２（いずれも図２参照）の図示を省略している。

図６において、この例では、カメラ２０９の上記所定の画角に含まれる来訪者３０の発話位置としての口３０Ｍの位置（後述の図８も参照）が、マイク２０７Ａに最も近い場合を示している。この場合、来訪者３０が、各請求項記載の「特定の１人のユーザ」に相当する。また、マイク２０７Ａが、第１音声入力手段に相当し、それ以外のマイク２０７Ｂ，２０７Ｃ，２０７Ｄが、第２音声入力手段に相当する。なお、以下適宜、第１音声入力手段に相当するマイク２０７を特に、「第１マイク２０７」と称し、第２音声入力手段に相当するマイク２０７を特に、「第２マイク２０７」と称する。例えば、第１音声入力手段に相当するマイク２０７が、マイク２０７Ａである場合は、第１マイク２０７Ａといい、第２音声入力手段に相当するマイク２０７が、マイク２０７Ｂ，２０７Ｃ，２０７Ｄである場合は、第２マイク２０７Ｂ，２０７Ｃ，２０７Ｄという。

来訪者３０によりタッチパネル２１０に表示された受付開始ボタン（図示せず）が押下されると、受付処理が開始される。このとき、来訪者３０が発話すると、その来訪者３０の口３０Ｍからの発話音声は、各マイク２０７Ａ〜２０７Ｄにより入力される。なお、この際、上記発話音声以外にも、受付端末２０の周囲で発生した雑音等の周囲音も各マイク２０７〜２０７Ｄにより入力される。そして、各マイク２０７〜２０７Ｄにより入力された上記発話音声や雑音を含む音に基づき、対応する音情報が取得される。なお、この場合、第１マイク２０７Ａにより入力された音に対応した音情報が、第１音情報に相当し、それ以外の第２マイク２０７Ｂ，２０７Ｃ，２０７Ｄにより入力された音に対応した音情報が、第２音情報に相当する。

ここで、第１マイク２０７Ａは、来訪者３０の口３０Ｍの位置に最も近いマイク２０７である。したがって、第１マイク２０７Ａでは、口３０Ｍからの発話音声が、他の第２マイク２０７Ｂ，２０７Ｃ，２０７Ｄに比べ高いレベルで入力される。また、第１マイク２０７Ａは、来訪者３０自身が接近しており、例えば来訪者３０の後方（図６中下方向）からの雑音は、来訪者３０が障壁となり反射される。この結果、第１マイク２０７Ａでは、他の第２マイク２０７Ｂ，２０７Ｃ，２０７Ｄに比べ、入力される雑音のレベルが小さくなる。すなわち、第１マイク２０７Ａを介して取得された第１音情報は、他の第２マイク２０７Ｂ，２０７Ｃ，２０７Ｄを介して取得された第２音情報に比べ、信号対雑音比、いわゆるＳ／Ｎ比が高くなっている。

そこで、本実施形態においては、受付端末２０のＣＰＵ２０１が、カメラ２０９を用いて、上記画角における画像を撮像する。その撮像結果を受付端末２０のＣＰＵ２０１が画像認識し、来訪者３０の口３０Ｍの位置が受付端末２０から見てどこにあるのかを検出する。ＣＰＵ２０１は、上記口３０Ｍの位置に基づき、来訪者３０から上記第１マイク２０７Ａへ伝搬する発話音声と来訪者３０から第２マイク２０７Ｂ，２０７Ｃ，２０７Ｄへ伝搬する発話音声との伝搬距離の差により生じる、遅延量を決定する。そして、ＣＰＵ２０１は、上記各マイク２０７Ａ〜Ｄで取得された第１音情報及び第２音情報に対して、対応する遅延量を適用し、それら第１音情報及び第２音情報の位相差を低減し、同相化を図る。これにより、第１マイク２０７Ａを介して取得された第１音情報が、それ以外の第２マイク２０７Ｂ，２０７Ｃ，２０７Ｄを介して取得された第２音情報よりも強調された、言い換えれば、来訪者３０による発話音声が強調された、新たな音情報が生成される。そして、ＣＰＵ２０１は、その加工後の新たな音情報を用いて音声認識を行う。

（Ｄ−２）遅延量
次に、音情報の加工の際に用いられる、上記遅延量について説明する。

図７は、上記遅延量について説明する説明図である。一例として、直列で配列された２つのマイク２０７Ａ，２０７Ｂを例にとり、第１マイク２０７Ａを介して取得された第１音情報に対する、第２マイク２０７Ｂを介して取得された第２音情報の遅延量について説明する。

図７において、この例では、第１マイク２０７Ａと第２マイク２０７Ｂと間の距離がｄ、上記来訪者３０の口３０Ｍから発話された発話音声が各マイク２０７Ａ，２０７Ｂに入力される角度がθとなっている。この角度θを、以下適宜、「音声到来角度」と称する。本実施形態においては、上記発話音声を平面波とみなしている。そして、上記発話音声は、各マイク２０７に対し、それぞれ等しい角度すなわち音声到来角度θで入力される、と仮定する。

来訪者３０の口３０Ｍから音声到来角度θで到来する発話音声は、まず、上記口３０Ｍの位置に最も近い第１マイク２０７Ａに入力される。その後、上記発話音声は、距離Ｄだけ進んで、第２マイク２０７Ｂに入力される。この距離Ｄは、上記口３０Ｍから第２マイク２０７Ｂまでの到来距離と、上記口３０Ｍから第１マイク２０７Ａまでの到来距離との差である。このとき、
Ｄ＝ｄｓｉｎθ ・・・（式１）
で表される関係が成り立つ。

ここで、第２マイク２０７Ｂにより入力された上記発話音声に対応した音情報は、第１マイク２０７Ａにより入力された上記発話音声に対応した音情報よりも、位相が遅れている。すなわち、上記位相遅れは、上記発話音声が上記距離Ｄだけ進行するのに要した時間である遅延量τに対応している。

すなわち、遅延量τについて、
τ＝Ｄ／ｃ
＝（ｄｓｉｎθ）／ｃ・・・（式２）
で表される関係が成り立つ。なお、ｃは音速（約３４０［ｍ／ｓ］）である。

上記距離ｄは既知であるから、上記（式２）に基づき、音声到来角度θがわかれば遅延量τを得ることができる。

（Ｄ−３）音声到来角度
図８は、上記音声到来角度θを推測する方法の原理を説明する説明図である。

図８において、上記音声到来角度θは、来訪者３０の顔面３０Ｆの口３０Ｍからの発話音声が各マイク２０７に入力される角度、言い換えれば、受付端末２０に対して来訪者３０の口３０Ｍが向いている方向である。受付処理が実行されるとき、来訪者３０は、タッチパネル２１０の方向を向きつつ、タッチパネル２１０の操作及び発話を行うのが一般的である。

本実施形態においては、来訪者３０が、言い換えれば来訪者３０の口３０Ｍが、タッチパネル２１０の中央を向いていると仮定する。また、当該口３０Ｍの位置からタッチパネル２１０の中央位置までの距離、言い換えれば、受付端末２０から来訪者３０の口３０Ｍまでの距離をＬ１（以下適宜、「来訪者距離Ｌ１」と称する）とする。また、タッチパネル２１０の面方向中心を面に直交して貫通するタッチパネル２１０の中心線に対する、口３０Ｍの位置からの偏差、言い換えれば口３０Ｍからタッチパネル２１０の中心線までの横方向（図中左右方向）の離反距離を、Ｌ２（以下適宜、「離反距離Ｌ２」と称する）とする。

ここで、カメラ２０９による上記画角での撮像結果を画像認識する（詳細は後述）ことで、上記来訪者距離Ｌ１と、上記離反距離Ｌ２とは推測可能である。このとき、図８に示されるように、
θ＝ｓｉｎ^−１（Ｌ２／Ｌ１）・・・（式３）
で表される関係が成り立つ。

上記（式３）に基づき、上記来訪者距離Ｌ１と上記離反距離Ｌ２がわかれば、音声到来角度θを得ることができる。

（Ｄ−４）来訪者距離の固定
図９は、来訪者３０がタッチパネル２１０を操作した状態での、受付端末２０と来訪者３０との位置関係を模式的に表した図である。

図９に示すように、一般的に、受付処理の実行中、来訪者３０は、タッチパネル２１０を操作可能な範囲に位置する。この操作可能範囲は、来訪者３０の腕３０Ａの長さに依存する。一般に、タッチパネル２１０を操作するときの装置−人物間の距離は、若干の個人差はあるものの概ね４０〜６０［ｃｍ］程度である。したがって、上記来訪者距離Ｌ１は、例えば概ねＬ１＝５０［ｃｍ］とみなし固定値とすることが可能である。図９には、上記タッチパネル２１０を操作するときの装置−人物間の距離、言い換えれば、来訪者３０の腕３０Ａの長さを、例えば５０［ｃｍ］としたときの、上記操作可能範囲を示している。

前述のように来訪者距離Ｌ１と離反距離Ｌ２とを用いて音声到来角度θを得られることから、上記のようにＬ１の値を一意的に固定することで、離反距離Ｌ２がわかれば音声到来角度θを得ることができる。

（Ｄ−５）口の位置の検出
本実施形態のＣＰＵ２０１は、来訪者３０の口３０Ｍの位置を、カメラ２０９の撮像結果を画像認識することによって検出する。そして、その検出した口３０Ｍの位置と、画角の中心位置Ｐとの距離により、上記離反距離Ｌ２を算出する。以下、その詳細を説明する。

図１０は、カメラ２０９が上記画角で撮影した撮像９０を表す概念的説明図である。撮像９０の中心には、上記画角の中心位置Ｐが存在している。

カメラ２０９により上記画角における撮影が行われると、来訪者３０の像３０′を含む撮像９０に対し、公知の手法で顔認識が行われる。例えば、ＣＰＵ２０１は、前述の顔データベースに予め格納された多数の人間の顔データを読み出して、当該顔データと、撮像９０とを照合する。そして、照合結果が合致した画像があった場合、ＣＰＵ２０１は、その顔データと合致した部分を、人間の顔として認識する。そして、図１０に示すように、ＣＰＵ２０１は、その顔として認識した部分、この例では、来訪者３０の顔面３０Ｆの像３０Ｆ′を含む所定の範囲を、顔認識領域３１として設定する。

その後、ＣＰＵ２０１は、口３０Ｍの像３０Ｍ′の位置が、撮像９０の中でどこに位置するのかを推測する。まず、ＣＰＵ２０１は、人間の口が顔面の半分より下側にあるという特徴に基づき、図１０に示すように、上記顔認識領域３１の下半分の領域を、口３０Ｍの像３０Ｍ′が位置する口認識領域３２として設定する。なお、ＣＰＵ２０１は、上記口３０Ｍの像３０Ｍ′の位置を直接検出してもよい。またＣＰＵ２０１は、一般的な顔面と口の位置の比例関係に基づき、上記口３０Ｍの像３０Ｍ′の位置を検出してもよい。

上記の口認識領域３２のように設定すれば、例えば、長方形形状を備えた口認識領域３２の上記長方形の中心を像３０Ｍ′の位置とみなすことができる。この結果、図１０に示すように、受付端末２０は、口３０の像３０Ｍ′から上記画角の中心位置Ｐまでの水平方向距離に基づき上記離反距離Ｌ２を取得可能となる。このようにして離反距離Ｌ２を取得できれば、前述したように、固定値の上記来訪者距離Ｌ１を用いて音声到来角度θが得られ、さらに上記（式２）を用いて、第２マイク２０７Ｂに係わる遅延量τを得ることができる。

なお、以上の説明では、第１マイク２０７Ａと同一の水平方向位置に設置された第２マイク２０７Ｂを例にとって説明した。すなわち、撮像９０内で水平方向に表される上記離反距離Ｌ２に基づき算出可能な、第１マイク２０７Ａを介して取得された第１音情報に対する、第２マイク２０７Ｂを介して取得された第２音情報の遅延量τを例にとって説明した。しかしながら、上記以外のマイク２０７Ｃ，２０７Ｄについても同様の手法を適用できる。

すなわち、第２マイク２０７Ｃは、第１マイク２０７Ａと同一の左右方向位置（図２参照）に設置されている。したがって、図１１に示すように、撮像９０内で鉛直方向に表される上記同様の離反距離Ｌ２′に基づき、第１マイク２０７Ａを介して取得された第１音情報に対する、第２マイク２０７Ｃを介して取得された第２音情報の遅延量τを算出可能である。

さらに、第１マイク２０７Ａと左右方向位置も水平方向位置も異なる（図２参照）第２マイク２０７Ｄについても同様である。すなわち、図１２に示すように、撮像９０内で斜め方向に表される上記同様の離反距離Ｌ２″に基づき、第１マイク２０７Ａを介して取得された第１音情報に対する、第２マイク２０７Ｄを介して取得された第２音情報の遅延量τを算出可能である。

（Ｄ−６）遅延量テーブルの活用
上述したように、撮像９０における口３０Ｍの像３０Ｍ′の位置に対応して離反距離Ｌ２，Ｌ２′，Ｌ２″を算出することで、第１マイク２０７Ａを介して取得された第１音情報に対する、第２マイク２０７Ｂ，２０７Ｃ，２０７Ｄを介して取得された第２音情報の遅延量τをそれぞれ算出することができる。しかしながら、本実施形態では、演算処理を簡素化して遅延量τを迅速に得るために、受付端末２０のＣＰＵ２０１は、遅延量テーブル（後述の図１４、図１５、図１６、図１７参照）に予め記憶された遅延量τを取得して用いる。以下、その詳細を順次説明する。

まず、本実施形態では、図１３に示すように、撮像９０を、複数の、この例では１６個の、撮像エリアＡｒ１〜Ａｒ１６に予め分割する。撮像９０は、１６個の、それぞれ等しい面積である第１撮像エリアＡｒ１、第２撮像エリアＡｒ２、…、第１６撮像エリアＡｒ１６に区分されている。以下適宜、第１撮像エリアＡｒ１〜第１６撮像エリアＡｒ１６を総称して単に「撮像エリアＡｒ」と称する。

ＣＰＵ２０１は、前述のようにして設定した口認識領域３２が、１６個の撮像エリアＡｒ１〜Ａｒ１６のうち、いずれの撮像エリアＡｒにあるのかを検出する。例えば、ＣＰＵ２０１は、各撮像エリアＡｒごとに口認識領域３２が重なる面積を算出し、当該重なる面積が最大であった撮像エリアＡｒを口認識領域３２が位置する撮像エリアＡｒとして検出する。図１３に示す例では、口認識領域３２は、第６撮像エリアＡｒ６、第７撮像エリアＡｒ７、第８撮像エリアＡｒ８、第１０撮像エリアＡｒ１０、第１１撮像エリアＡｒ１１、及び第１２撮像エリアＡｒ１２の６つの撮像エリアＡｒにそれぞれ重なっている。そのうち、口認識領域３２と重なる面積が最も大きい撮像エリアＡｒは、第７撮像エリアＡｒ７である。したがって、口認識領域３２は第７撮像エリアＡｒ７に位置すると検出される。

なお、以上のような画像認識の結果、すなわちこの例では、上記口認識領域３２が検出できたことを表す「成功」と、上記検出された撮像エリアＡｒ「第１０撮像エリアＡｒ１０」とは、カメラ２０９による撮像時間と対応付けて例えばＲＡＭ２０３に記憶される。

一方、本実施形態では、各撮像エリアＡｒ１〜Ａｒ１６ごとに、対応する遅延量τを予め設定しておく。設定された各撮像エリアＡｒ１〜Ａｒ１６と対応する遅延量τとの関係は、遅延量テーブルとして予め上記遅延量データベースに記憶されている。

図１４に、上記１６個の撮像エリアＡｒ１〜Ａｒ１６に対応して予め遅延量データベースに記憶された、マイク２０７Ｂに係わる遅延量テーブルを示す。図示のように、この遅延量テーブルには、撮像エリアＡｒ１，Ａｒ２，…，Ａｒ１６に対応して、それぞれ、遅延量τＢ１，τＢ２，…，τＢ１６が設定されている。なお、以下適宜、遅延量τＢ１，τＢ２，…，τＢ１６を、単に「遅延量τＢ」と総称する。

図示右上側の４つの撮像エリアＡｒ３，Ａｒ４，Ａｒ７，Ａｒ８に口認識領域３２がある場合は、前述の例と同様、マイク２０７Ａが第１マイクである。したがって、各撮像エリアＡｒ３，Ａｒ４，Ａｒ７，Ａｒ８には、第１マイク２０７Ａを介して取得された第１音情報に対する、第２マイク２０７Ｂを介して取得された第２音情報の遅延量τＢ３，τＢ４，τＢ７，τＢ８が設定されている。

一方、図示左下側の４つの撮像エリアＡｒ９，Ａｒ１０，Ａｒ１３，Ａｒ１４に口認識領域３２がある場合は、マイク２０７Ｄが第１マイクである。したがって、各撮像エリアＡｒ９，Ａｒ１０，Ａｒ１３，Ａｒ１４には、第１マイク２０７Ｄを介して取得された第１音情報に対する、第２マイク２０７Ｂを介して取得された第２音情報の遅延量τＢ９，τＢ１０，τＢ１３，τＢ１４が設定されている。

また、図示右下側の４つの撮像エリアＡｒ１１，Ａｒ１２，Ａｒ１５，Ａｒ１６に口認識領域３２がある場合は、マイク２０７Ｃが第１マイクである。したがって、各撮像エリアＡｒ１１，Ａｒ１２，Ａｒ１５，Ａｒ１６には、第１マイク２０７Ｃを介して取得された第１音情報に対する、第２マイク２０７Ｂを介して取得された第２音情報の遅延量τＢ１１，τＢ１２，τＢ１５，τＢ１６が設定されている。

なお、図示左上側の４つの撮像エリアＡｒ１，Ａｒ２，Ａｒ５，Ａｒ６に口認識領域３２がある場合は、マイク２０７Ｂ自体が第１マイクとなるため、遅延量τの値は存在しない。したがって、各撮像エリアＡｒ１，Ａｒ２，Ａｒ５，Ａｒ６における遅延量τＢ１，τＢ２，τＢ５，τＢ６はいずれも０に設定されている。

また、図１５は、上記１６個の撮像エリアＡｒ１〜Ａｒ１６に対応して予め遅延量データベースに記憶された、マイク２０７Ｃに係わる遅延量テーブルである。この遅延量テーブルでは、図１４と同様、撮像エリアＡｒ１，Ａｒ２，…，Ａｒ１６に対応して、それぞれ、遅延量τＣ１，τＣ２，…，τＣ１６が設定されている。なお、以下適宜、遅延量τＣ１，τＣ２，…，τＣ１６を、単に「遅延量τＣ」と総称する。

上記と同様、図示右上側の各撮像エリアＡｒ３，Ａｒ３，Ａｒ７，Ａｒ８には、第１マイク２０７Ａを介して取得された第１音情報に対する、第２マイク２０７Ｃを介して取得された第２音情報の遅延量τＣ３，τＣ４，τＣ７，τＣ８が設定されている。図示左下側の４つの撮像エリアＡｒ９，Ａｒ１０，Ａｒ１３，Ａｒ１４には、第１マイク２０７Ｄを介して取得された第１音情報に対する、第２マイク２０７Ｃを介して取得された第２音情報の遅延量τＣ９，τＣ１０，τＣ１３，τＣ１４が設定されている。図示左上側の４つの撮像エリアＡｒ１，Ａｒ２，Ａｒ５，Ａｒ６には、第１マイク２０７Ｂを介して取得された第１音情報に対する、第２マイク２０７Ｃを介して取得された第２音情報の遅延量τＣ１，τＣ２，τＣ５，τＣ６が設定されている。なお、図示右下側の４つの撮像エリアＡｒ１１，Ａｒ１２，Ａｒ１５，Ａｒ１６に口認識領域３２がある場合は、マイク２０７Ｃ自体が第１マイクとなるため、遅延量τの値は存在しない。したがって、各撮像エリアＡｒ１１，Ａｒ１２，Ａｒ１５，Ａｒ１６における遅延量τＣ１１，τＣ１２，τＣ１５，τＣ１６はいずれも０に設定されている。

さらに、図１６は、上記１６個の撮像エリアＡｒ１〜Ａｒ１６に対応して予め遅延量データベースに記憶された、マイク２０７Ｄに係わる遅延量テーブルである。上記と同様、撮像エリアＡｒ１，Ａｒ２，…，Ａｒ１６に対応して、それぞれ、遅延量τＤ１，τＤ２，…，τＤ１６が設定されている。なお、以下適宜、遅延量τＤ１，τＤ２，…，τＤ１６を、単に「遅延量τＤ」と総称する。

上記と同様、図示右上側の各撮像エリアＡｒ３，Ａｒ３，Ａｒ７，Ａｒ８には、第１マイク２０７Ａを介して取得された第１音情報に対する、第２マイク２０７Ｄを介して取得された第２音情報の遅延量τＤ３，τＤ４，τＤ７，τＤ８が設定されている。図示左上側の４つの撮像エリアＡｒ１，Ａｒ２，Ａｒ５，Ａｒ６には、第１マイク２０７Ｂを介して取得された第１音情報に対する、第２マイク２０７Ｄを介して取得された第２音情報の遅延量τＤ１，τＤ２，τＤ５，τＤ６が設定されている。図示右下側の４つの撮像エリアＡｒ１１，Ａｒ１２，Ａｒ１５，Ａｒ１６には、第１マイク２０７Ｃを介して取得された第１音情報に対する、第２マイク２０７Ｄを介して取得された第２音情報の遅延量τＤ１１，τＤ１２，τＤ１５，τＤ１６が設定されている。なお、図示左下側の４つの撮像エリアＡｒ９，Ａｒ１０，Ａｒ１３，Ａｒ１４に口認識領域３２がある場合は、マイク２０７Ｄ自体が第１マイクとなるため、遅延量τの値は存在しない。したがって、各撮像エリアＡｒ９，Ａｒ１０，Ａｒ１３，Ａｒ１４における遅延量τＤ９，τＤ１０，τＤ１３，τＤ１４はいずれも０に設定されている。

さらに、図１７は、上記１６個の撮像エリアＡｒ１〜Ａｒ１６に対応して予め遅延量データベースに記憶された、マイク２０７Ａに係わる遅延量テーブルである。上記と同様、撮像エリアＡｒ１，Ａｒ２，…，Ａｒ１６に対応して、それぞれ、遅延量τＡ１，τＡ２，…，τＡ１６が設定されている。なお、以下適宜、遅延量τＡ１，τＡ２，…，τＡ１６を、単に「遅延量τＡ」と総称する。

上記と同様、図示左上側の４つの撮像エリアＡｒ１，Ａｒ２，Ａｒ５，Ａｒ６には、第１マイク２０７Ｂを介して取得された第１音情報に対する、第２マイク２０７Ａを介して取得された第２音情報の遅延量τＡ１，τＡ２，τＡ５，τＡ６が設定されている。図示左下側の４つの撮像エリアＡｒ９，Ａｒ１０，Ａｒ１３，Ａｒ１４には、第１マイク２０７Ｄを介して取得された第１音情報に対する、第２マイク２０７Ａを介して取得された第２音情報の遅延量τＡ９，τＡ１０，τＡ１３，τＡ１４が設定されている。図示右下側の各撮像エリアＡｒ１１，Ａｒ１２，Ａｒ１５，Ａｒ１６には、第１マイク２０７Ｃを介して取得された第１音情報に対する、第２マイク２０７Ａを介して取得された第２音情報の遅延量τＡ１１，τＡ１２，τＡ１５，τＡ１６が設定されている。なお、図示右上側の４つの撮像エリアＡｒ３，Ａｒ４，Ａｒ７，Ａｒ８に口認識領域３２がある場合は、マイク２０７Ａ自体が第１マイクとなるため、遅延量τの値は存在しない。したがって、各撮像エリアＡｒ３，Ａｒ４，Ａｒ７，Ａｒ８における遅延量τＡ３，τＡ４，τＡ７，τＡ８はいずれも０に設定されている。

ＣＰＵ２０１は、撮像９０において口認識領域３２がどの撮像エリアＡｒ１〜Ａｒ１６に位置するかに応じて、図１４、図１５、図１６、及び図１７に示すテーブルを用いて、遅延量τＢ，τＣ，τＤ，τＡを取得する。すなわちＣＰＵ２０１は、図１４に示す遅延量テーブルを用いて第２マイク２０７Ｂに係わる遅延量τＢを決定し、図１５に示す遅延量テーブルを用いて第２マイク２０７Ｃに係わる遅延量τＣを決定し、図１６に示す遅延量テーブルを用いて第２マイク２０７Ｄに係わる遅延量τＤを決定し、図１７に示す遅延量テーブルを用いて第２マイク２０７Ａに係わる遅延量τＡを決定する。例えば図１３の例のように、口認識領域３２が第７撮像エリアＡｒ７に位置する場合、第１マイクはマイク２０７Ａである。そして、ＣＰＵ２０１は、図１４を参照して第２マイク２０７Ｂに係わる遅延量をτＢ７とし、図１５を参照して第２マイク２０７Ｃに係わる遅延量をτＣ７とし、図１６を参照して第２マイク２０７Ｄに係わる遅延量をτＤ７とする。

（Ｄ−７）遅延量を用いた同相化
上記のようにして、ＣＰＵ２０１は、第１マイク２０７を介して取得された第１音情報に対する、３つの第２マイク２０７を介して取得された第２音情報の遅延量τを、それぞれ決定する。その後、ＣＰＵ２０１は、３つの第２マイク２０７に係わる上記第２音情報を、時間の進む方向に上記遅延量τだけそれぞれシフトさせる。これにより、ＣＰＵ２０１は、３つの第２マイク２０７を介して取得された第２音情報を、第１マイク２０７を介して取得された第１音情報と同相化し、結果として、来訪者３０の口３０Ｍからの発話音声を多く含む上記第１音情報を上記第２音情報よりも強調する加工を実行する。この際、第２マイク２０７でそれぞれ入力される、周囲で発生した雑音等の音声到来角度は、上記θとは異なる。したがって、それら雑音等の音情報に上記遅延量τを適用しても、それら雑音等は強調されない。

（Ｅ）音情報の加工の開始条件
本実施形態の特徴の一つとして、上記（Ｄ）で説明したような音情報の加工を開始するための条件が予め設定されている。ＣＰＵ２０１は、前述の顔認識領域３１の面積がある程度大きくなったことを条件に、上記音情報の加工を開始する。

すなわち、例えば、来訪者３０が前述のタッチパネル２１０の操作可能な範囲よりも遠い場所に位置する場合、来訪者３０がタッチパネル２１０の操作や発話をする可能性は低い。このような場合に、ＣＰＵ２０１が上述した音情報の加工を行う必要はない。

そこで、本実施形態では、上記タッチパネル２１０の操作可能な範囲よりも少し遠い距離に対応した、所定のしきい値としての所定の面積しきい値ＳＭ０を予め設定している。上記（Ｄ−５）で説明したように、カメラ２０９の撮像結果の画像認識により顔認識領域３１が設定されると、ＣＰＵ２０１は当該顔認識領域３１の面積ＳＭを算出する。そして、上記のように算出された顔認識領域３１の面積ＳＭが、この面積しきい値ＳＭ０よりも大きくなった場合に、上記遅延量τの決定を含む音情報の加工を開始する。

（Ｆ）音情報の加工の継続条件
また、本実施形態の別の特徴として、上記（Ｅ）の条件により音情報の加工が開始されたら、なるべく加工を中断せず継続させるように、予め設定されている。

図１８は、カメラ２０９により上記画角にて撮像された撮像９０の、上記図１０、図１１、図１２、及び図１３とは別の例を表す概念的説明図である。図１８において、上記図１０を用いて説明した方法により、まず撮像９０に対して顔認識が行われる。この例では、来訪者３０が顔を下に向けた等により、像３０′の下半分が上記画角の外部へフレームアウトしている。このため、前述の手法による顔認識が行えず、前述の顔認識領域３１及び口認識領域３２が設定されない。ＣＰＵ２０１は、この画像認識の結果、すなわちこの例では、上記口認識領域３２が検出できなかったことを表す「失敗」を、カメラ２０９による撮像時間と対応付けて例えばＲＡＭ２０３に記憶する。

本実施形態では、上記図１８のようにして顔認識ができなくなった場合でも、その状態が短時間で終了し、その後は元通り顔認識ができるようになった場合には、音情報の加工を中断せず継続させる。この内容を図１９を用いて説明する。

既に説明したように、上記撮像９０に対する画像認識の結果と、上記検出された撮像エリアＡｒとが、撮像時間と対応付けてＲＡＭ２０３に記憶される。図１９に、当該ＲＡＭ２０３に記憶された、上記画像認識の結果と上記撮像時間とを対応付けた画像認識履歴テーブル２０３０を示す。

図１９において、この例では、画像認識履歴テーブル２０３０に、１０時００分００秒から１０時０１分１０秒までの１分１０秒間の区間におけるデータが１秒間隔で記憶されている。そして、データ内容として、カメラ２０９による撮像時刻と、口認識領域３２の検出結果「成功」「失敗」と、上記検出された撮像エリアＡｒとが、対応付けられて記憶されている。

１０時００分００秒、１０時００分０１秒、及び１０時００分０２秒においては、上記口認識領域３２の検出が成功し、口認識領域３２の位置が第１０撮像エリアＡｒ１０である。したがって、これら各時刻においては、ＣＰＵ２０１が、遅延量データベースより、図１４〜図１７にそれぞれ示した、第１０撮像エリアＡｒ１０に関連付けられた遅延量τＢ１０，τＣ１０，τＤ１０，τＡ１０をそれぞれ取得する。これにより、ＣＰＵ２０１により、当該取得された遅延量τＢ１０，τＣ１０，τＤ１０，τＡ１０を用いて上記音情報の加工が行われる。

１０時００分０３秒及び１０時００分０４秒においては、上記口認識領域３２の検出が失敗している。ここで、本実施形態では、上記のようにＣＰＵ２０１による音情報の加工が開始された後に、口認識領域３２の検出結果が「失敗」になった場合でも、その口認識領域３２の非検出状態が所定時間、この例では１０秒間継続するまでは、上記音情報の加工を続行する。すなわち、１０時００分０３秒では口認識領域３２の非検出状態は０秒であり、１０時００分０４秒では口認識領域３２の非検出状態は１０時００分０３秒からの１秒間である。したがって、１０時００分０４秒では、上記ＣＰＵ２０１による音情報の加工は続行される。このとき用いられる遅延量は、口認識領域３２の検出結果が「失敗」となる直前、すなわち１０時００分０２秒における撮像９０に対する画像認識の結果に基づき取得された、第１０撮像エリアＡｒ１０に対応した上記遅延量τＢ１０，τＣ１０，τＤ１０，τＡ１０である。

１０時００分０５秒〜１０時００分５９秒においては、上記口認識領域３２の検出が成功し、口認識領域３２の位置が第１１撮像エリアＡｒ１１である。したがって、１０時００分０５秒〜１０時００分５９秒においては、ＣＰＵ２０１が、遅延量データベースより、図１４〜図１７にそれぞれ示した、第１１撮像エリアＡｒ１１に関連付けられた遅延量τＢ１１，τＣ１１，τＤ１１，τＡ１１をそれぞれ取得する。これにより、ＣＰＵ２０１によって、当該取得された遅延量τＢ１１，τＣ１１，τＤ１１，τＡ１１を用いて上記音情報の加工が行われる。

１０時０１分００秒、１０時０１分０１秒、・・・、１０時０１分０９秒、及び１０時０１分１０秒においては、上記口認識領域３２の検出が失敗している。この場合、１０時０１分００秒から１０時０１分０９秒までの９秒間においては、前述と同様にして、口認識領域３２の検出結果が「失敗」となる直前、すなわち１０時００分５９秒において取得された遅延量が用いられる。すなわち、第１１撮像エリアＡｒ１１に関連付けられた遅延量τＢ１１，τＣ１１，τＤ１１，τＡ１１が用いられ、上記音情報の加工が行われる。そして、１０時０１分１０秒において、口認識領域３２の検出結果が「失敗」になると、口認識領域３２の非検出状態が１０時０１分００秒から当該１０時０１分１０秒までの１０秒間継続するため、この時点で、ＣＰＵ２０１による音情報の加工が終了される。

（Ｇ）制御手順
図２０は、以上説明した内容を実現するために、受付端末２０のＣＰＵ２０１が実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、ＨＤＤ２０５のプログラム記憶エリア２５６に記憶された来訪者受付処理用のプログラム群、すなわち前述のシステムプログラム、通信プログラム、描画プログラム、音声認識プログラム、ＤＢ照合プログラム、電話接続プログラム等に従って、ＣＰＵ２０１が実行する。

図２０において、例えば受付端末２０の電源がＯＮされることにより、図中「ＳＴＡＲＴ」位置で表されるように、このフローが開始される。

まずステップＳ５で、ＣＰＵ２０１は、所定の初期化処理を実行する。このとき、ＣＰＵ２０１は、受付処理が開始されたことを表すフラグＦｓを、Ｆｓ＝０へ併せて初期化する。

その後、ステップＳ１０で、ＣＰＵ２０１は、タッチパネル２１０に表示信号を出力する。これにより、タッチパネル２１０は、「御用の方はこのボタンを押してください」の旨の受付開始ボタンを含む待ち受け状態の画面、すなわち初期画面）を表示する。

そして、ステップＳ１５で、ＣＰＵ２０１は、上記受付開始ボタンが手動操作されたかどうかを判定する。来訪者３０によって押下されるまでは判定が満たされずループ待機し、押下されたら判定が満たされて、ステップＳ２０に移る。ステップＳ２０では、ＣＰＵ２０１は上記フラグＦｓをＦｓ＝１にする。その後、ステップＳ２５に移る。

ステップＳ２５では、ＣＰＵ２０１は、スピーカ２０８へ音声信号を出力する。これにより、スピーカ２０８は、”いらっしゃいませ。どちら様でしょうか。お名前を入力してください”という、来訪者名を問いかける台詞を含む案内音声を出力する。このとき、タッチパネル２１０が、同様の内容のテキスト表示も行う。なお、スピーカ２０８は上記案内音声の出力を行わず、タッチパネル２１０が表示を行うのみとしてもよい。

その後、ステップＳ３０で、ＣＰＵ２０１は、各マイク２０７Ａ〜２０７Ｄを介しそれぞれ入力された、音情報をそれぞれ取得する。この音情報は、上記ステップＳ２５での問いかけに対応して発話した来訪者３０の発話音声を含む、音に対応しており、当該音の振幅あるいは周波数を含む。

そして、ステップＳ３５で、ＣＰＵ２０１は、上記取得された各マイク２０７を介して入力された音に対応した音情報、すなわち上記第１音情報及び上記第２音情報を加工する。このとき、ＣＰＵ２０１は、後述の図２１のステップＳ２９０で決定された遅延量τを用いて加工を行い、上記第１音情報が上記第２音情報よりも強調された新たな音情報を生成する。なお、ＣＰＵ２０１は、上記ステップＳ２９０が実行されていない場合には、上記音情報の加工を行わず、マイク２０７を介して入力された音に対応した音情報をそのまま用いて新たな音情報を生成する。

その後、ステップＳ４０で、ＣＰＵ２０１は、上記ステップＳ３５で生成された新たな音情報に対して、前述の言語モデル記憶エリア２５２や辞書記憶エリア２５３に記憶された、音響モデル、言語モデル等を用いて音声認識を行う。

その後、ステップＳ４５で、ＣＰＵ２０１は、上記ステップＳ４０において音声認識できたかどうかを判定する。言語として音声認識できなかった場合には、ステップＳ４５の判定は満たされない。この場合、ＣＰＵ２０１は”音声を認識できませんでした。もう一度お名前を入力してください”という、音声認識ができなかったことを来訪者３０に通知する台詞をスピーカ２０８から出力させる。その後、上記ステップＳ３０に戻り、同様の手順を繰り返す。なお、この図２０では図示を省略しているが、上記来訪者３０へ通知する台詞の出力は、予め定められた設定回数だけ行われ、その間に音声認識できない場合には、対応する処理（例えば受付担当者に取り次ぐ等）を行う。

一方、ステップＳ４５において、ＣＰＵ２０１が言語として音声認識できた場合には、ステップＳ４５の判定が満たされ、ステップＳ５０に移る。

ステップＳ５０では、ＣＰＵ２０１は、上記音声認識結果、すなわち来訪者名を、例えばＲＡＭ２０３に保存する。

そして、ステップＳ５５で、ＣＰＵ２０１は、スピーカ２０８へ音声信号を出力する。これにより、スピーカ２０８は、“お約束の時間を入力してください”という、予約時間を問いかける台詞を含む案内音声を出力する。このとき、タッチパネル２１０が、同様の内容のテキスト表示を行う。なお、スピーカ２０８は上記案内音声の出力を行わず、タッチパネル２１０が表示を行うのみとしてもよい。

その後のステップＳ６０、ステップＳ６５、ステップＳ７０、及びステップＳ７５は、上記ステップＳ３０、ステップＳ３５、ステップＳ４０、及びステップＳ４５とほぼ同様である。すなわち、ＣＰＵ２０１は、上記各マイク２０７Ａ〜２０７Ｄを介して音情報を取得し、音情報を加工して新たな音情報を生成し、音声認識を行う。そして、言語として音声認識できなかった場合には、ステップＳ７５の判定が満たされず、”音声を認識できませんでした。もう一度お約束の時間を入力してください”という音声認識ができなかったことを来訪者３０に通知する台詞をスピーカ２０８が出力する。その後、上記ステップＳ６０に戻り、同様の手順を繰り返す。一方、ステップＳ７５において、ＣＰＵ２０１が言語として音声認識できた場合にはステップＳ７５の判定が満たされて、ステップＳ８０に移る。

ステップＳ８０では、ＣＰＵ２０１は、上記音声認識結果、すなわち予約時間を、例えばＲＡＭ２０３に保存する。

そして、ステップＳ８５で、ＣＰＵ２０１は、ＤＢサーバ１０の来訪者予約データベース１５１０（図６参照）にアクセスする。そして、ＣＰＵ２０１は、上記ステップＳ４０で取得した来訪者名と、上記ステップＳ７０で取得した予約時間とが、来訪者予約データベース１５１０のいずれかの予約データの「来訪者名」「訪問予定日時」と一致するかどうかを照合する。

その後、ステップＳ９０で、ＣＰＵ２０１は、上記ステップＳ８５での照合結果が一致したか、どうかを判定する。あるいは、ＣＰＵ２０１は、上記のようにある程度の範囲内で適合しているかを判定してもよい（以下同様）。ステップＳ８５での照合結果が一致した場合、すなわち該当する来訪者名及び訪問予定日時の予約データが存在した場合には、ステップＳ９０の判定が満たされて、ステップＳ９５に移る。

ステップＳ９５では、ＣＰＵ２０１は、対応する担当者のＩＰ電話機６０に発信すなわちコールを行う。具体的には、ＣＰＵ２０１が、担当者への通知文を作成し、その通知文のテキストデータを音声データに変換する。そして、ＣＰＵ２０１は、担当者の電話番号を用いて、ＩＰ−ＰＢＸ５０を介し、担当者の使用するＩＰ電話機６０に発信する。その後、後述のステップＳ１４５に移る。

一方、上記ステップＳ９０において、上記ステップＳ８５での照合結果が一致していなかった、すなわち該当する来訪者名及び訪問予定日時の予約データが存在していなかった場合には、ステップＳ９０の判定が満たされない。この場合、ステップＳ１００に移る。

ステップＳ１００では、ＣＰＵ２０１は、スピーカ２０８へ音声信号を出力する。これにより、スピーカ２０８は、”担当者名を入力してください”という、担当者名を問いかける台詞を含む案内音声を出力する。このとき、タッチパネル２１０が、同様の内容のテキスト表示を行う。なお、スピーカ２０８は上記案内音声の出力を行わず、タッチパネル２１０が表示を行うのみとしてもよい。

その後、ステップＳ１０５で、ＣＰＵ２０１は、タッチパネル２１０に表示信号を出力する。これにより、タッチパネル２１０は、来訪者３０が指でタッチすることで操作入力可能ないわゆるソフトウェアキーボードＳＢを含む画面を表示する。

そして、ステップＳ１１０で、ＣＰＵ２０１は、来訪者３０のソフトウェアキーボードＳＢの操作による操作情報を取得し、対応する担当者名を、例えばＲＡＭ２０３に保存する。

その後、ステップＳ１１５で、ＣＰＵ２０１は、ＤＢサーバ１０の来訪者予約データベース１５１０にアクセスする。そして、ＣＰＵ２０１は、上記ステップＳ４０で取得した来訪者名と、上記ステップＳ７０で取得した予約時間と、上記ステップＳ１１０で取得した担当者名とのうち、少なくとも２つが、来訪者予約データベース１５１０のいずれかの予約データの「来訪者名」「訪問予定日時」「担当者名」と一致するかどうかを照合する。

そして、ステップＳ１２０で、ＣＰＵ２０１は、上記ステップＳ１１５での照合結果が一致したかどうかを判定する。ステップＳ１１５での照合結果が一致した場合、すなわち該当する来訪者名、訪問予定日時、及び担当者名のうち２つ以上が一致した場合には、ステップＳ１２０の判定が満たされる。この場合、上記ステップＳ９５に移り、同様の手順を行う。一方、ステップＳ１１５での照合結果が一致しなかった場合、すなわち該当する来訪者名、訪問予定日時、及び担当者名のうち２つ以上一致しなかった場合には、ステップＳ１２０の判定が満たされず、ステップＳ１２５に移る。

ステップＳ１２５では、ＣＰＵ２０１は、スピーカ２０８へ音声信号を出力する。これによりスピーカ２０８は、”予約が確認できませんでした”旨の台詞を含む案内音声を出力する。このとき、タッチパネル２１０が、同様の内容のテキスト表示を行う。なお、スピーカ２０８は上記案内音声の出力を行わず、タッチパネル２１０が表示を行うのみとしてもよい。

その後、ステップＳ１３０で、ＣＰＵ２０１は、タッチパネル２１０に表示信号を出力する。これにより、タッチパネル２１０は、会社の全部署名に対応するボタンを含む部署名一覧表示画面を表示する。

そして、ステップＳ１３５で、ＣＰＵ２０１は、来訪者３０の上記全部署名に対応するボタンの操作による操作情報を取得し、対応する部署名を、例えばＲＡＭ２０３に保存する。

その後、ステップＳ１４０で、ＣＰＵ２０１は、対応する部署連絡先、この例では部署代表のＩＰ電話機６０に発信すなわちコールを行う。具体的には、ＣＰＵ２０１は、対応する通知文を作成し、その通知文のテキストデータを音声データに変換する。そして、ＣＰＵ２０１は、ステップＳ３１０で取得した部署名に対応する電話番号を、前述の部署電話番号データベースの記憶内容を参照して取得し、ＩＰ−ＰＢＸ５０を介しＩＰ電話機６０に発信する。そして、ステップＳ１４５に移る。

ステップＳ１４５では、ＣＰＵ２０１は、上記フラグＦｓを、受付処理を終了したことを表すＦｓ＝０とする。その後、このフローを終了する。

図２１は、上記図２０のフローと並行して、受付端末２０のＣＰＵ２０１が実行する制御手順を表すフローチャートである。上記図２０のフローが受付処理及び音情報の加工の制御手順を示していたのに対し、この図２１のフローは、受付処理の制御手順とは特に関係なく、主として上記撮像９０の画像認識、及び、遅延量の決定に関する処理の制御手順を表す。なお、これら図２０及び図２１の２つのフローは、前述の来訪者受付処理用のプログラム群に従って、ＣＰＵ２０１によって同時並行処理される。その際、上記２つのフローは、例えば、コンピュータのＯＳ等でしばしば行われる「マルチタスク処理」と同様の公知の手法で実行される。

図２１において、例えば受付端末２０の電源がＯＮされることにより、図中「ＳＴＡＲＴ」位置で表されるように、このフローが開始される。

まずステップＳ２００で、ＣＰＵ２０１は、所定の初期化処理を実行する。このとき、ＣＰＵ２０１は、遅延量が決定されたことを表すフラグＦｎを、Ｆｎ＝０へ併せて初期化する。

その後、ステップＳ２０５で、ＣＰＵ２０１は、上記フラグＦｓがＦｓ＝１であるかどうかを判定する。前述したように、上記図２０のステップＳ１５で来訪者３０により受付開始ボタンが押下され受付処理が開始されるとＦｓ＝１となる。このようにしてＦｓ＝１となるまでステップＳ２０５の判定が満たされず、ループして待機する。そして、Ｆｓ＝１になったら、ステップＳ２０５の判定が満たされ、ステップＳ２１０に移る。

ステップＳ２１０では、ＣＰＵ２０１は、Ｉ／Ｏインタフェイス２０４を介しカメラ２０９に制御信号を出力する。これにより、カメラ２０９は、上記画角での撮影を行う。

そして、ステップＳ２１５で、ＣＰＵ２０１は、カメラ２０９及びＩ／Ｏインタフェイス２０４を介し、上記ステップＳ２１０でのカメラ２０９による撮像９０を取得し、例えばＲＡＭ２０３に保存する。

その後、ステップＳ２２０で、ＣＰＵ２０１は、上記ステップＳ２１５で取得された撮像９０に対して、公知の方法により顔認識を行う。例えば、ＣＰＵ２０１が、ＨＤＤ１５０の前述の顔データベースにアクセスし、複数の人間の顔データを取得し、当該顔データと、上記ステップＳ２１５で取得されたカメラ２０９による撮像９０内の画像とを照合する。そして、ＣＰＵ２０１は、照合が合致又は適合した場合に人間の顔として認識し、その認識できた画像を検出する。

そして、ステップＳ２２５で、ＣＰＵ２０１は、上記ステップＳ２２０において顔認識ができたかどうか、すなわち、人間の顔として認識できた画像の検出ができたかどうかを判定する。顔認識ができた場合にはステップＳ２２５の判定が満たされて、ステップＳ２３０に移る。ステップＳ２３０では、ＣＰＵ２０１は、上記顔として認識できた画像を含む所定の範囲に対し、上記顔認識領域３１を設定する。その後、ステップＳ２３５に移る。

ステップＳ２３５では、ＣＰＵ２０１は、上記ステップＳ２３０で設定された顔認識領域３１の面積ＳＭを算出する。

その後、ステップＳ２４０で、ＣＰＵ２０１は、上記ステップＳ２３５において算出された顔認識領域３１の面積ＳＭが、上記面積しきい値ＳＭ０よりも大きいかどうかを判定する。ＳＭ＞ＳＭ０である場合には、判定が満たされてステップＳ２４５に移る。ステップＳ２４５では、ＣＰＵ２０１は、上記顔認識領域３１の下半分領域に対し、上記口認識領域３２を設定する。その後、ステップＳ２５０に移る。

ステップＳ２５０では、ＣＰＵ２０１は、上記ステップＳ２４５で設定された口認識領域３２が、前述したように予め区分して設定された複数の撮像エリアＡｒ１〜Ａｒ１６のうち、いずれの撮像エリアＡｒに位置するかを検出する。

そして、ステップＳ２５５で、ＣＰＵ２０１は、上記ステップＳ２５０において、上記口認識領域３２が、上記複数の撮像エリアＡｒ１〜Ａｒ１６のうち、いずれかの撮像エリアＡｒで検出できたかを判定する。上記口認識領域３２が、いずれかの撮像エリアＡｒで検出できていた場合には、ステップＳ２５５の判定が満たされてステップＳ２６０に移る。

ステップＳ２６０では、ＣＰＵ２０１は、上記ステップＳ２５０での検出結果、すなわち上記口認識領域３２がいずれかの撮像エリアＡｒで検出できたことを表す「成功」と、上記検出された撮像エリアＡｒとを、上記ステップＳ２１０でのカメラ２０９による撮像時刻と対応付けて、上記画像認識履歴テーブル２０３０に記憶させる。

その後、ステップＳ２６５で、ＣＰＵ２０１は、ＤＢサーバ１０の遅延量データベースにアクセスする。そして、ＣＰＵ２０１は、前述の遅延量テーブル（図１４、図１５、図１６、図１７参照）を参照し、上記ステップＳ２５０において口認識領域３２が検出された撮像エリアＡｒに対応した、遅延量τＢ，τＣ，τＤ，τＡを、取得する。

一方、上記ステップＳ２２０で顔認識ができず、ステップＳ２２５の判定が満たされなかった場合は、ステップＳ２７０に移る。あるいは、上記ステップＳ２３５で算出された顔認識領域３１の面積ＳＭが上記面積しきい値ＳＭ０以下であり、ステップＳ２４０の判定が満たされなかった場合も、ステップＳ２７０に移る。さらに、上記ステップＳ２５０で口認識領域３２がいずれの撮像エリアＡｒでも検出できず、ステップＳ２５５の判定が満たされなかった場合も、ステップＳ２７０に移る。

ステップＳ２７０では、ＣＰＵ２０１は、上記口認識領域３２がいずれの撮像エリアＡｒでも検出できなかったことを表す「失敗」を、上記ステップＳ２１０でのカメラ２０９による撮像時刻と対応付けて、上記画像認識履歴テーブル２０３０に記憶させる。

そして、ステップＳ２７５で、ＣＰＵ２０１は、上記フラグＦｎがＦｎ＝１であるかどうかを判定する。まだ後述のステップＳ２９０においてＣＰＵ２０１が用いる遅延量τが決定されておらずＦｎ＝０である場合には、ステップＳ２９０の判定が満たされない。この場合、後述のステップＳ３０５に移る。一方、後述のステップＳ２９０でＣＰＵ２０１が用いる遅延量τが決定され、Ｆｎ＝１であった場合には、ステップＳ２７５の判定が満たされる。この場合、ステップＳ２８０に移る。

ステップＳ２８０では、ＣＰＵ２０１は、前述の画像認識履歴テーブル２０３０の記憶内容を参照する。そして、ＣＰＵ２０１は、上記口認識領域３２がいずれの撮像エリアＡｒでも検出できなかったことを表す「失敗」が、所定時間、前述の例では１０秒間継続したかどうかを判定する。言い換えれば、このステップＳ２８０では、上記画角に含まれる来訪者３０の口３０Ｍの位置に対応した口認識領域３２の非検出状態が、上記所定時間継続したかどうかをＣＰＵ２０１が判定する。口認識領域３２の非検出状態が、上記所定時間継続するまではステップＳ２８０の判定が満たされず、ステップＳ２８５に移る。

ステップＳ２８５では、ＣＰＵ２０１は、ＤＢサーバ１０の遅延量データベースにアクセスする。そして、ＣＰＵ２０１は、前述の遅延量テーブル（図１４、図１５、図１６、図１７参照）を参照し、最後に、上記ステップＳ２６０において画像認識履歴テーブル２０３０に記憶された撮像エリアＡｒに対応した、遅延量τＢ，τＣ，τＤ，τＡを、取得する。

その後、ステップＳ２９０で、ＣＰＵ２０１は、上記ステップＳ２６５又は上記ステップＳ２８５において取得された遅延量τＢ，τＣ，τＤ，τＡを、上記図２０のステップＳ３５及びステップＳ６５においてＣＰＵ２０１が音情報の加工に用いる遅延量に決定し、例えばＲＡＭ２０３に保存する。

そして、ステップＳ２９５で、ＣＰＵ２０１は、上記フラグＦｎを、ＣＰＵ２０１が用いる遅延量が決定されたことを表すＦｎ＝１とする。その後、後述のステップＳ３０５に移る。

一方、上記ステップＳ２８０において、上記口認識領域３２の非検出状態が、上記所定時間継続していた場合には、ステップＳ２８０の判定が満たされて、ステップＳ３００に移る。ステップＳ３００では、ＣＰＵ２０１は、上記画像認識履歴テーブル２０３０を初期化した後、ステップＳ３０５に移る。

ステップＳ３０５では、ＣＰＵ２０１は、上記フラグＦｓがＦｓ＝０になったかどうかを判定する。受付処理が実行中でありＦｓ＝１である場合には、ステップＳ３０５の判定が満たされず上記ステップＳ２１０に戻り、同様の手順を繰り返す。受付処理が終了しておりＦｓ＝０である場合にはステップＳ３０５の判定が満たされ、ステップＳ３１０に移る。

ステップＳ３１０では、ＣＰＵ２０１は、上記フラグＦｎをＦｎ＝０とする。その後、このフローを終了する。

上記において、図２０に示すステップＳ３０及びステップＳ６０が、各請求項記載の音取得手段として機能する。また、図２０に示すステップＳ４０及びステップＳ７０が、音声認識手段として機能する。また、図２１に示すステップＳ２５０が、口位置検出手段として機能する。また、図２０に示すステップＳ３５及びステップＳ６５が、音加工手段として機能する。また、図２１に示すステップＳ２９０が、遅延量決定手段として機能する。

また、図２１に示すステップＳ２４０が開始制御手段として機能する。また、図２１に示すステップＳ２８０及びステップＳ２８５が継続制御手段として機能する。

以上説明したように、本実施形態の受付端末２０においては、来訪者３０が受付端末２０に対して発話すると、来訪者３０の口３０Ｍから発声された発話音声が複数のマイク２０７Ａ〜２０７Ｄにそれぞれ入力される。そして、複数のマイク２０７Ａ〜２０７Ｄからそれぞれ入力された複数の音に基づき、ＣＰＵ２０１が、複数の音情報をそれぞれ取得する。その後、ＣＰＵ２０１は、その音情報に基づいた音声認識を実行し、これによって来訪者３０の発話内容を検出し、所定の受付処理を行う。この際、各マイク２０７Ａ〜２０７Ｄには、受付処理の対象である来訪者３０の口３０Ｍからの発話音声以外にも、雑音等の周囲音が混入する形で入力される。

このとき、本実施形態では、カメラ２０９が、上記来訪者３０を含むような上記画角にて撮影を行う。そして、ＣＰＵ２０１は、その撮像９０を画像認識して、来訪者３０の口３０Ｍの位置が受付端末２０側から見てどこにあるかを検出する。前述の例では、ＣＰＵ２０１は、口認識領域３２がどの撮像エリアＡｒに位置するかを検出することにより、口３０Ｍの位置を検出する。これにより、ＣＰＵ２０１は、複数のマイク２０７Ａ〜２０７Ｄのうち、上記口３０Ｍの位置に最も近い第１マイク２０７を判別する。この結果、ＣＰＵ２０１は、上記第１マイク２０７を介して取得された第１音情報を、それ以外の第２マイク２０７を介して取得された第２音情報よりも強調するような加工を行うことができる（ステップＳ３５、ステップＳ６５参照）。そして、ＣＰＵ２０１は、その加工後の第１音情報及び第２音情報を用いて音声認識を行う（ステップＳ４０、ステップＳ７０参照）。

上記のように、第１マイク２０７での入力に対応した第１音情報を強調した後に音声認識を行うことにより、ＣＰＵ２０１は、来訪者３０の発話音声をそれ以外の音声から明確に区別した形で適切な音声認識を行うことができる。また、来訪者３０の口３０Ｍの位置がカメラ２０９の画角内で移動した場合でも、その移動に追従した形で音情報を強調するマイク２０７を切り替えつつ、音情報の加工を行うことができる。以上の結果、受付処理における音声認識精度を向上することができ、受付処理の効率化や正確性の向上を図ることができる。

また、本実施形態では特に、ＣＰＵ２０１が、来訪者３０の口３０Ｍからの発話音声がマイク２０７Ａ〜２０７Ｄに入力するときの音声到来角度θと、複数のマイク２０７Ａ〜２０７Ｄそれぞれの間の距離ｄとに対応した、音情報の加工に用いる遅延量τを決定する（ステップＳ２９０参照）。これにより、ＣＰＵ２０１は、上記算出された遅延量τを加味して第１音情報及び第２音情報の加工を行い、それら第１音情報及び第２音情報の位相差を低減し同相化する（ステップＳ３５及びステップＳ６５参照）。なお、前述のように、上記第１音情報についての遅延量τは０であるので実質的に加工されていない。この結果、第１マイク２０７に係わる第１音情報を、第２マイク２０７に係わる第２音情報よりも強調することができる。

また、本実施形態では特に、上記画角での来訪者３０の口３０Ｍの位置、上記の例では口認識領域３２が位置する撮像エリアＡｒ１〜Ａｒ１６と、対応する遅延量τＢ，τＣ，τＤ，τＡとの相関が遅延量テーブルとして予め遅延量データベースに記憶されている。そして、ＣＰＵ２０１は、実際に口認識領域３２が位置する撮像エリアＡｒに基づき、遅延量テーブルを参照し、対応する遅延量τＢ，τＣ，τＤ，τＡを参照して用いる（ステップＳ２６５、ステップＳ２９０）。これにより、後述の変形例（４）のように複数のマイク２０７Ａ〜２０７Ｄそれぞれに係わる音情報に対し相関演算を行って遅延量τを算出する場合に比べ、演算処理を簡素化し、処理時間を短縮することができる。

また、本実施形態では特に、上記画角に含まれる来訪者３０の像３０′に対応した、上記の例では来訪者３０の顔面３０Ｆの像３０Ｆ′に対応した、顔認識領域３１の面積ＳＭが、上記面積しきい値ＳＭ０よりも大きくなった場合に、ＣＰＵ２０１は、上記第１音情報及び第２音情報の加工を開始する（ステップＳ２４０参照）。これにより、受付処理を行うべき来訪者３０がある程度受付端末２０に接近してから、上記加工を開始することができるので、ＣＰＵ２０１による、無人状態での無駄な音情報の加工動作を防止することができる。

また、本実施形態では特に、音情報の加工が開始された後、上記画角に含まれる来訪者３０の口３０Ｍの位置が、上記の例では口認識領域３２が、検出されなくなった場合でも、その非検出状態が上記所定時間継続するまでは上記加工を続行する（ステップＳ２８０、ステップＳ２８５参照）。これにより、上記画角内にて顔を認識されている来訪者３０が、一時的に床に視線を落としたり横を向いたりした場合でも、その来訪者３０がすぐに元のカメラ２０９への正対状態に復帰した場合には、上記加工を中断せず引き続き継続することができる。この結果、このような場合におけるＣＰＵ２０１の音情報の加工動作中断、及び、音情報の加工動作再開の繰り返しを防止し、円滑な加工動作を確保することができる。

なお、本発明は、上記実施形態に限られるものではない。本発明は、趣旨や技術的思想を逸脱しない範囲内で、種々の変形が可能である。以下、そのような変形例を順を追って説明する。

（１）来訪者が受付端末にある程度接近したらカメラによる撮像を開始する場合
上記実施形態では、受付開始ボタンを来訪者３０が手動操作した場合に、カメラ２０９が撮像を開始したが、これに限られない。すなわち、周知の人感センサを用いて来訪者３０を検出し、来訪者３０が受付端末２０にある程度接近した場合に、カメラ２０９が撮像を開始するようにしてもよい。

本変形例においては、受付端末２０と来訪者３０との距離を、図示しない人感センサ（以下適宜、単に「センサ」と称する）が検出する。そして、検出した距離が所定値、この例では１［ｍ］以下になった場合に、前述の受付処理、及び、カメラ２０９による上記画角における画像の撮像が開始される。

図２２は、本変形例の受付端末２０のＣＰＵ２０１が、上記受付処理及び音情報の加工のために実行する制御手順を表すフローチャートである。この図２２は、前述の図２０に対応する図である。図２２において、図２０と同等の手順には同符号を付し説明を省略する。

図２２に示すフローが前述の図２０と異なる点は、ステップＳ１０及びステップＳ１５に代えて、ステップＳ１２及びステップＳ１７を新たに設けた点である。

すなわち、ステップＳ５は、前述の図２０と同様であり、ＣＰＵ２０１が所定の初期化処理を実行したら、新たに設けたステップＳ１２に移る。

ステップＳ１２では、ＣＰＵ２０１がセンサに制御信号を出力する。これにより、センサは、受付端末２０から来訪者３０までの距離を検出する。例えばセンサは、超音波パルスを対象物、すなわち来訪者３０に対して出力し、来訪者３０での反射波を探知する。そして、ＣＰＵ２０１は、センサが上記超音波パルスを出力してからセンサが反射波を入力するまでの伝達時間を算出する。この算出された時間により、ＣＰＵ２０１は、来訪者３０までの距離を検出する。

そして、新たに設けたステップＳ１７で、ＣＰＵ２０１は、上記ステップＳ１２で検出された受付端末２０から来訪者３０までの距離が、１［ｍ］以下になったかどうかを判定する。来訪者３０までの距離が１［ｍ］以下になるまではステップＳ１７の判定が満たされず、ループ待機する。来訪者３０までの距離が１［ｍ］以下になったらステップＳ１７の判定が満たされて、ステップＳ２０に移る。

その後のステップＳ２０以降の手順は、前述の図２０と同様であるので、説明を省略する。また、本変形例の受付端末２０のＣＰＵ２０１が、上記撮像９０の画像認識、及び、遅延量の決定に関する処理のために実行する制御手順は、前述の図２１のフローと同様であり、説明を省略する。

本変形例によっても、上記実施形態と同様の効果を得る。

（２）来訪者の性別・年齢を加味した音情報の加工を行う場合
本変形例では、受付端末２０は、カメラ２０９による撮像９０を画像認識し、来訪者３０の性別・年齢を判定する。そして、受付端末２０は、上記判定された性別・年齢に対応した音状態量の加工態様、例えば男性であれば低音域を強調した態様、女性や子供であれば高音域を強調した態様となるように、音情報を加工する。

図２３は、本変形例において、受付端末２０のＣＰＵ２０１が実行する、カメラの撮像の画像認識及び遅延量の決定に関する処理の制御手順を表すフローチャートである。図２３は、前述の図２１に対応する図である。図２３において、図２１と同等の手順には同符号を付し説明を省略する。

図２３に示すフローが前述の図２１と異なる点は、ステップＳ２４０とステップＳ２４５との間に、ステップＳ２４２及びステップＳ２４４を新たに設けた点である。

すなわち、ステップＳ２００〜ステップＳ２４０は、前述の図２１と同様である。ステップＳ２４０において、ＣＰＵ２０１がＳＭ＞ＳＭ０かどうかを判定し、ＳＭ＞ＳＭ０であればステップＳ２４０の判定が満たされて、新たに設けたステップＳ２４２に移る。

ステップＳ２４２では、ＣＰＵ２０１は、前述のステップＳ２１０で取得された撮像９０の画像認識結果に基づき、例えば公知のＨａａｒ−ｌｉｋｅｆｅａｔｕｒｅと呼ばれる特徴要素に基づき、上記画角に含まれる来訪者３０の性別及び年齢、この例では来訪者３０が男性であるか、又は女性であるか、あるいは子供であるのかを判定する。なお、このステップが、各請求項記載の人物判定手段として機能する。

そして、新たに設けたステップＳ２４４で、ＣＰＵ２０１は、上記ステップＳ２４２の判断結果に基づき、強調する音状態量の、この例では周波数の、加工態様を設定する。具体的には、上記ステップＳ２４２において来訪者３０が男性であると判断された場合には、ＣＰＵ２０１は、強調する周波数を例えば約１２０［Ｈｚ］に設定する。上記ステップＳ２４２において来訪者３０が女性であると判断された場合には、ＣＰＵ２０１は、強調する周波数を例えば約２２５［Ｈｚ］に設定する。上記ステップＳ２４２において来訪者３０が子供であると判断された場合には、ＣＰＵ２０１は、強調する周波数を例えば約３００［Ｈｚ］に設定する。

その後のステップＳ２４５以降の手順は、前述の図２１と同様であるので、説明を省略する。

ここで、本変形例の受付端末２０のＣＰＵ２０１が、上記受付処理及び音情報の加工のために実行する制御手順が、前述の図２０のフローと異なる点は、ステップＳ３５及びステップＳ６５の内容である。すなわち、本変形例におけるステップＳ３５及びステップＳ６５では、ＣＰＵ２０１は、上記ステップＳ２４４で設定された周波数を強調しつつ、前述のステップＳ２９０で決定された遅延量τを用いて加工を行い、上記第１音情報が上記第２音情報よりも強調された新たな音情報を生成する。なお、上記ステップＳ２４４で強調する周波数が設定されていない場合、及び、前述のステップＳ２９０の手順が実行されていない場合には、上記のような音情報の加工を行わず、上記取得された音に対応した音情報をそのまま用いて新たな音情報を生成する。

なお、本変形例においても、前述のステップＳ３５及びステップＳ６５が、音加工手段として機能する。

本変形例によれば、ＣＯＵ２０１が、画像認識結果に基づき、上記画角に含まれる来訪者３０の性別及び年齢、上記の例では来訪者３０が男性であるか、又は女性であるか、あるいは子供であるかを判定する。そして、その判定結果に対応した周波数の加工態様となるようにしつつ、上記第１音情報及び第２音情報を加工する。これにより、来訪者３０が男性であれば低音域を強調するような加工を行い、来訪者３０が女性や子供であれば高音域を強調するような加工を行う等、性別や年齢固有の声質に対応し、さらにきめ細かい音声認識処理を行うことができる。

なお、上記（２）の変形例においては、カメラ２０９による撮像９０を画像認識することで、ＣＰＵ２０１が、来訪者３０の性別及び年齢を判定したが、これに限られない。すなわち、各マイク２０７を介して取得された音情報の基本周波数に基づき、ＣＰＵ２０１が、当該来訪者３０の性別及び年齢を判定してもよい。この場合も、上記（２）の変形例と同様の効果を得る。

（３）遅延量テーブルを用いず、相関計算を行う場合
以上においては、遅延量テーブルを予め用意しておき、口認識領域３２が存在する撮像エリアＡｒに基づいて、ＣＰＵ２０１が、対応する遅延量τＢ，τＣ，τＤ，τＡを取得して用いた。しかしながら、このような遅延量テーブルを用いず、通常のアレーマイク制御と同様の相関演算により、遅延量τをその都度算出するようにしてもよい。

すなわち、本変形例では、ＣＰＵ２０１が、マイク２０７Ａ，２０７Ｂ，２０７Ｃ，２０７Ｄのそれぞれを介し、所定のサンプリング周期で音情報を取得する。このとき、これらマイク２０７Ａ，２０７Ｂ，２０７Ｃ，２０７Ｄを介し取得される音情報のデータ列は、下記の式で表される。
・・・（式４）

前述のように、各マイク２０７Ａ〜２０７Ｄにより取得される上記データ列には、発話音声以外の周囲音等に基づく音情報もそれぞれ含まれる。しかしながら、それらデータ列には、発話音声に基づく音情報も少なくとも含まれる。したがって、本変形例の受付端末２０は、マイク２０７Ａに係わる上記データ列、マイク２０７Ｂに係わる上記データ列、マイク２０７Ｃに係わる上記データ列、マイク２０７Ｄに係わる上記データ列の、合計４つのデータ列に対し公知の相関演算を適用し、相関が高いデータを抽出する。なお、このときの相関演算及びデータ抽出が、本変形例における音加工手段として機能する。そして、上記抽出されたデータは、発話音声に基づく音情報である可能性が高い。そこで、本変形例の受付端末２０は、このデータに下記の式による逆演算を行う。
・・・（式５）

この（式５）を用いた逆演算を行うことにより、前述の発話音声による音声到来角度θを求めることができる。前述したようにマイク２０７Ａ〜２０７Ｄ相互間の上記距離ｄは既知であるから、上記（式２）に基づき、音声到来角度θにより遅延量τを得る。この遅延量τの取得が、遅延量決定手段として機能する。このようにして決定した遅延量τを用いた第１音情報及び第２音情報の加工は、既に述べた手法と同様にして行うので、説明を省略する。

ここで、上記（式４）の演算においては、時間ｊ、即ち遅延量をシフトして相関値を求める。ここで、本変形例では、図２１のステップＳ２５０で説明したように、カメラ２０９の撮像結果の画像認識に基づき口３０Ｍの像３０Ｍ′の位置を検出できるので、上記のシフト量を制限することが可能である。このような制限を行わない場合、仮に発話音よりノイズや外乱音がレベルが大きかったとすると、誤った相関値検出を行うおそれがある。しかしながら、上記のようにして画像認識に基づくシフト量を制限することにより、発話音声の到来方向に対しての最大相関値を誤りなく求めることができる。したがって、相関演算の処理時間を減らすことができるとともに、誤った音声到来角度θの算出を防止することができる。

（４）カメラを随時動作させる場合
以上においては、来訪者３０による上記受付開始ボタンの手動操作やセンサによる来訪者３０の検出によって、複数のシナリオに沿った受付処理と、カメラ２０９による撮像を開始したが、これに限られない。すなわち、カメラ２０９が所定の時間間隔、例えば１秒間隔で上記画角における画像を撮影する。そして、その撮像９０を受付端末２０が画像認識し、来訪者３０の顔面３０Ｆの像３０Ｆ′の面積ＳＭが上記面積しきい値ＳＭ０よりも大きくなった場合に、受付端末２０が前述の受付処理や音情報の加工を開始するようにしてもよい。この場合も、上記実施形態や各変形例と同様の効果を得る。

（５）システム構成のバリエーション
上記来訪者受付システム１においては、来訪者３０の受付処理や音情報の加工が行われる受付端末２０と、ＤＢサーバ１０とは、別個の装置であった。しかしながら、これに限られず、撮像手段及び複数の音声入力手段等を備えたサーバを会社の入口付近に設置し、サーバのみで、受付処理及び音情報の加工のすべてを行うようにしてもよい。また、遅延量データベース等、ＨＤＤ１５０に記憶されている情報を、受付端末２０側のＨＤＤ２０５に記憶するようにしてもよい。この場合、受付端末２０のＨＤＤ２０５が各請求項記載の遅延量記憶手段を構成する。さらにはネットワークを介して受付端末２０に接続可能な別個の記憶装置に記憶させておき、受付処理や音情報の加工中に、必要な情報を読み出す構成としてもよい。この場合、当該別個の記憶装置が各請求項記載の遅延量記憶手段を構成する。これらの場合も上記実施形態と同様の効果を得る。

なお、以上において、各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。

また、各図のフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。

また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。

その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。

２０受付端末（受付装置）
３０来訪者（特定の１人のユーザ、ユーザ）
３０′ 来訪者の像（ユーザの像）
３０Ｆ顔面
３０Ｍ口
３１顔認識領域
３２口認識領域
９０撮像結果
１５０ハードディスク装置（遅延量記憶手段）
２０７Ａ〜Ｄマイク（音声入力手段）
２０８スピーカ
２０９カメラ（撮像手段）
２１０タッチパネル

Claims

ユーザに対し、予め定められた複数の処理手順に沿った受付処理を行う受付装置であって、
所定の画角における画像を撮影する撮像手段と、
前記撮像手段による撮像結果を画像認識し、前記画角に含まれる特定の１人の前記ユーザの顔面の発話位置を検出する口位置検出手段と、
前記ユーザの発話音声を入力可能な複数の音声入力手段と、
前記複数の音声入力手段を介しそれぞれ入力された複数の音により、対応する振幅あるいは周波数を含む複数の音情報をそれぞれ取得する音取得手段と、
前記複数の音声入力手段のうち、前記口位置検出手段により検出された前記発話位置に近い第１音声入力手段により入力された音に対応した第１音情報を、前記第１音声入力手段以外の第２音声入力手段により入力された音に対応した第２音情報よりも強調するように、所定の加工用係数を用いて少なくとも前記第１音情報又は前記第２音情報を加工する音加工手段と、
前記音加工手段により加工された後の、前記第１音情報又は前記第２音情報を用いて、前記受付処理のための音声認識を行う音声認識手段と
を有することを特徴とする受付装置。
前記画角に含まれる前記特定の１人の前記ユーザの像の大きさと前記画角での前記発話位置とに対応した、前記特定の１人の前記ユーザの前記発話位置から発話された発話音声が前記複数の音声入力手段にそれぞれ入力される角度と、前記複数の音声入力手段それぞれの間の距離とに基づく、前記音加工手段が前記加工に用いる前記加工用係数としての遅延量を決定する遅延量決定手段をさらに備え、
前記音加工手段は、
前記遅延量決定手段により決定された前記遅延量を用いて少なくとも前記第１音情報又は前記第２音情報を加工する
ことを特徴とする請求項１記載の受付装置。
前記画角での前記発話位置と、対応する前記遅延量との相関を記憶した遅延量記憶手段をさらに備え、
前記遅延量決定手段は、
前記口位置検出手段により検出された前記画角での前記発話位置に対応した前記遅延量を前記遅延量記憶手段より取得し、当該取得した遅延量を前記音加工手段が前記加工に用いる前記遅延量として決定し、
前記音加工手段は、
前記遅延量決定手段により決定された前記遅延量を用いて少なくとも前記第１音情報又は前記第２音情報を加工する
ことを特徴とする請求項１記載の受付装置。
前記撮像手段による前記撮像結果を画像認識し、前記画角に含まれる前記特定の１人の前記ユーザの像の大きさが所定のしきい値よりも大きくなった場合に前記第１音情報又は前記第２音情報の加工を開始するように、前記音加工手段を制御する開始制御手段を有する
ことを特徴とする請求項１乃至請求項３のいずれか１項記載の受付装置。
前記第１音情報又は前記第２音情報の加工が開始された後、前記画角に含まれる前記特定の１人の前記ユーザの前記発話位置が前記口位置検出手段により検出されなくなった場合でも、その非検出状態が所定時間継続するまでは、前記第１音情報又は前記第２音情報の加工を続行するように、前記音加工手段を制御する継続制御手段を有する
ことを特徴とする請求項４記載の受付装置。
前記撮像手段による前記撮像結果を画像認識し、前記画角に含まれる前記特定の１人の前記ユーザの性別及び年齢の少なくとも一方を判定する人物判定手段をさらに備え、
前記音加工手段は、
前記人物判定手段により判定された前記性別又は前記年齢に対応した音状態量の加工態様となるようにしつつ、少なくとも前記第１音情報又は前記第２音情報を加工する
ことを特徴とする請求項１乃至請求項５のいずれか１項記載の受付装置。