JP2011049625A - 受付装置 - Google Patents

受付装置 Download PDF

Info

Publication number
JP2011049625A
JP2011049625A JP2009193983A JP2009193983A JP2011049625A JP 2011049625 A JP2011049625 A JP 2011049625A JP 2009193983 A JP2009193983 A JP 2009193983A JP 2009193983 A JP2009193983 A JP 2009193983A JP 2011049625 A JP2011049625 A JP 2011049625A
Authority
JP
Japan
Prior art keywords
sound information
sound
delay amount
processing
cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009193983A
Other languages
English (en)
Inventor
Shoji Onofuji
祥司 尾野藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2009193983A priority Critical patent/JP2011049625A/ja
Publication of JP2011049625A publication Critical patent/JP2011049625A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Sub-Exchange Stations And Push- Button Telephones (AREA)
  • Telephone Function (AREA)

Abstract

【課題】受付処理中にユーザの位置が変化した場合でも、その変化に追従して音情報を適切に加工し、受付処理の効率化や正確性の向上を図る。
【解決手段】受付端末20は、カメラ209と、複数のマイク207A〜207Dとを有し、カメラ209による撮像90を画像認識し、画角に含まれる来訪者30の口30Mの位置を検出し、マイク207A〜207Dを介しそれぞれ入力された複数の音により、対応する複数の音情報をそれぞれ取得し、マイク207A〜207Dのうち、検出された画角における口30Mの位置に最も近いマイク207により入力された音に対応した第1音情報を、そのマイク207以外のマイク207により入力された音に対応した第2音情報よりも強調するように、遅延量を用いて第1音情報又は第2音情報を加工し、その加工された後の、第1音情報及び第2音情報を用いて音声認識を行う。
【選択図】図19

Description

本発明は、ユーザの発する発話音声を音声認識して受付処理を行う受付装置に関する。
例えば建造物への来訪者に対する受付業務を行う受付装置が、従来より既に知られている。このような受付装置では、ユーザの発話音声がマイクロホン等の音声入力手段により入力され、その発話内容が音声認識されることによって、氏名や会社名等のユーザ情報が取得される。この際、受付装置の周囲環境で雑音や騒音が発生していると、音声入力手段にはそれらの音も併せて入力され混入する。この結果、音声認識時に上記ユーザ情報の誤認識が生じるおそれがある。
上記のようなマイクロホンにおける音声認識の適正化に関する従来技術として、例えば特許文献1に記載の音声強調装置が知られている。この音声強調装置は、ビデオカメラと、複数のマイクロホン素子とを有している。ビデオカメラが音源を含む画像を撮影し、表示部がその撮影された画像を表示する。操作者が表示部に表示された画像上でマウスカーソルを操作する。制御部は、操作者がマウスカーソルを操作して指示した位置に対応する目的音声の強調をする。これにより、雑音に取り囲まれた環境内でも、目的とする音声を強調することができる。
特開2008−271157号公報
しかしながら、受付装置に対し、上記従来技術の手法を適用しようとする場合、以下のような問題があった。すなわち、受付装置では、受付処理の途中で、ユーザが姿勢を変えたり、首を別方向に向けたり、立つ位置を移動する場合がある。このような場合、撮影された画角における、音源すなわちユーザの口の位置が変わってしまう。上記従来技術の手法では、このような音源の位置の変化に追従してユーザの発話音声の強調を行うことは困難である。この結果、受付処理における音声認識精度が低下し、受付処理の効率化や正確性の向上を図ることができなかった。
本発明の目的は、受付処理中にユーザの位置が変化した場合でも、その変化に追従して音情報を適切に加工し、受付処理の効率化や正確性の向上を図ることができる受付装置を提供することにある。
上記目的を達成するために、第1の発明は、ユーザに対し、予め定められた複数の処理手順に沿った受付処理を行う受付装置であって、所定の画角における画像を撮影する撮像手段と、前記撮像手段による撮像結果を画像認識し、前記画角に含まれる特定の1人の前記ユーザの顔面の発話位置を検出する口位置検出手段と、前記ユーザの発話音声を入力可能な複数の音声入力手段と、前記複数の音声入力手段を介しそれぞれ入力された複数の音により、対応する振幅あるいは周波数を含む複数の音情報をそれぞれ取得する音取得手段と、前記複数の音声入力手段のうち、前記口位置検出手段により検出された前記発話位置に近い第1音声入力手段により入力された音に対応した第1音情報を、前記第1音声入力手段以外の第2音声入力手段により入力された音に対応した第2音情報よりも強調するように、所定の加工用係数を用いて少なくとも前記第1音情報又は前記第2音情報を加工する音加工手段と、前記音加工手段により加工された後の、前記第1音情報又は前記第2音情報を用いて、前記受付処理のための音声認識を行う音声認識手段とを有することを特徴とする。
本願第1発明においては、複数の音声入力手段からそれぞれ入力された複数の音に基づき、音取得手段が複数の音情報をそれぞれ取得する。そしてその音情報に基づいた音声認識が音声認識手段により実行され、これによってユーザの発話内容が検出され、所定の受付処理が行われる。
この際、複数の音声入力手段には、受付処理の対象であるユーザの発話位置からの発話音声以外にも、周囲音等が混入する形で入力される。本願第1発明では、撮像手段が特定の1人のユーザを含むような画角にて撮像を行うことにより、口位置検出手段が、その撮像結果を画像認識して、ユーザの発話位置が受付装置側から見てどこにあるかを検出する。これにより、複数の音声入力手段のうち発話位置に近い第1音声入力手段が判別されるので、音加工手段が、その第1音声入力手段に対応した第1音情報を、それ以外の第2音声入力手段に対応した第2音情報よりも強調するような加工を行う。そして、その加工後の第1音情報及び第2音情報を用いて音声認識手段は音声認識を行う。
上記のように、発話位置に近い第1音声入力手段での入力に対応した第1音情報を強調した後に音声認識を行うことにより、ユーザの発話音声をそれ以外の音声から明確に区別した形で適切な音声認識を行うことができる。また、ユーザの発話位置が撮像手段の画角内で移動した場合でも、その移動に追従した形で音情報を強調する音声入力手段を切り替えつつ、音情報の加工を行うことができる。以上の結果、受付処理における音声認識精度を向上することができ、受付処理の効率化や正確性の向上を図ることができる。
第2発明は、上記第1発明において、前記画角に含まれる前記特定の1人の前記ユーザの像の大きさと前記画角での前記発話位置とに対応した、前記特定の1人の前記ユーザの前記発話位置から発話された発話音声が前記複数の音声入力手段にそれぞれ入力される角度と、前記複数の音声入力手段それぞれの間の距離とに基づく、前記音加工手段が前記加工に用いる前記加工用係数としての遅延量を決定する遅延量決定手段をさらに備え、前記音加工手段は、前記遅延量決定手段により決定された前記遅延量を用いて少なくとも前記第1音情報又は前記第2音情報を加工することを特徴とする。
画角内でのユーザの像の大きさは、ユーザと音声入力手段との距離に対応している。画角での発話位置は、画角中心線から上記ユーザまでの偏差に対応している。発話音声が音声入力手段へと入力する角度は、上記距離と上記偏差との両方に対応している。本願第2発明では、遅延量決定手段が、上記発話音声の入力する角度と、複数の音声入力手段どうしの距離とに基づく、遅延量を決定する。これにより、音加工手段が、上記決定された遅延量を加味して少なくとも第1音情報又は第2音情報の加工を行い、それら第1音情報及び第2音情報の位相差を低減し同相化する。この結果、第1音情報を、第2音情報よりも強調することができる。
第3発明は、上記第1発明において、前記画角での前記発話位置と、対応する前記遅延量との相関を記憶した遅延量記憶手段をさらに備え、前記遅延量決定手段は、前記口位置検出手段により検出された前記画角での前記発話位置に対応した前記遅延量を前記遅延量記憶手段より取得し、当該取得した遅延量を前記音加工手段が前記加工に用いる前記遅延量として決定し、前記音加工手段は、前記遅延量決定手段により決定された前記遅延量を用いて少なくとも前記第1音情報又は前記第2音情報を加工することを特徴とする。
本願第3発明においては、画角でのユーザの発話位置と、これらに対応する遅延量とを予め遅延量記憶手段に相関として記憶させておく。そして、実際に検出したユーザの発話位置に基づき、記憶された相関を参照し、対応する遅延量を取得して用いる。これにより、複数の音声入力手段それぞれに係わる音情報に対し相関演算を行って遅延量を算出する場合に比べ、演算処理を簡素化し、処理時間を短縮することができる。
第4発明は、上記第1乃至第3発明のいずれかにおいて、前記撮像手段による前記撮像結果を画像認識し、前記画角に含まれる前記特定の1人の前記ユーザの像の大きさが所定のしきい値よりも大きくなった場合に前記第1音情報又は前記第2音情報の加工を開始するように、前記音加工手段を制御する開始制御手段を有することを特徴とする。
これにより、受付処理を行うべきユーザがある程度受付装置に接近してから、加工を開始することができるので、無人状態での無駄な音加工手段の動作を防止することができる。
第5発明は、上記第4発明において、前記第1音情報又は前記第2音情報の加工が開始された後、前記画角に含まれる前記特定の1人の前記ユーザの前記発話位置が前記口位置検出手段により検出されなくなった場合でも、その非検出状態が所定時間継続するまでは、前記第1音情報又は前記第2音情報の加工を続行するように、前記音加工手段を制御する継続制御手段を有することを特徴とする。
これにより、画角内にて顔を認識されているユーザが、一時的に床に視線を落としたり横を向いたりした場合でも、そのユーザがすぐに元の撮像手段への正対状態に復帰した場合には、加工を中断せず引き続き継続することができる。この結果、このような場合における音加工手段の動作中断及び動作再開の繰り返しを防止し、円滑な加工動作を確保することができる。
第6発明は、上記第1乃至第5発明のいずれかにおいて、前記撮像手段による前記撮像結果を画像認識し、前記画角に含まれる前記特定の1人の前記ユーザの性別及び年齢の少なくとも一方を判定する人物判定手段をさらに備え、前記音加工手段は、前記人物判定手段により判定された前記性別又は前記年齢に対応した音状態量の加工態様となるようにしつつ、少なくとも前記第1音情報又は前記第2音情報を加工することを特徴とする。
これにより、ユーザが男性であれば低音域を強調するような加工を行い、ユーザが女性や子供であれば高音域を強調するような加工を行う等、性別や年齢固有の声質に対応し、さらにきめ細かい音声認識処理を行うことができる。
本発明によれば、受付処理中にユーザの位置が変化した場合でも、その変化に追従して音情報を適切に加工し、受付処理の効率化や正確性の向上を図ることができる。
本発明の一実施の形態の来訪者受付システムの全体構成の概略構成を表すシステム構成図である。 受付端末の外観構造の一例を表す斜視図である。 タッチパネルにおける表示画面の例を表す図である。 受付端末の機能的構成を示す機能ブロック図である。 DBサーバの機能的構成を表す機能ブロック図である。 各マイクに入力される各音を説明する説明図である。 遅延量について説明する説明図である。 音声到来角度を推測する方法の原理を説明する説明図である。 来訪者がタッチパネルに表示された受付開始ボタンを押下した状態における、受付端末と来訪者との位置関係を模式的に表した図である。 カメラによる撮像結果を表す概念的説明図である。 カメラによる撮像結果を表す概念的説明図である。 カメラによる撮像結果を表す概念的説明図である。 カメラによる撮像結果の撮像エリアへの分割を説明するための説明図である。 遅延量テーブルの例を表す図である。 遅延量テーブルの例を表す図である。 遅延量テーブルの例を表す図である。 遅延量テーブルの例を表す図である。 カメラにより撮像された撮像結果の別の例を表す概念的説明図である。 画像認識履歴テーブルの一例を表す図である。 受付端末のCPUが実行する、受付処理及び音情報の加工の制御手順を表すフローチャートである。 受付端末のCPUが実行する、カメラの撮像の画像認識及び遅延量の決定に関する処理の制御手順を表すフローチャートである。 センサ検出に基づき撮像を開始する変形例において、受付端末のCPUが実行する、受付処理及び音情報の加工の制御手順を表すフローチャートである。 来訪者の性別・年齢を加味した音情報の加工を行う変形例において、受付端末のCPUが実行する、カメラの撮像の画像認識及び遅延量の決定に関する処理の制御手順を表すフローチャートである。
以下、本発明の一実施の形態を図面を参照しつつ説明する。
(A)システムの基本構成
図1は、本実施形態の来訪者受付システムの全体構成の概略構成を表すシステム構成図である。図1において、来訪者受付システム1は、例えば、ビルや会社その他の建造物への来訪者30(後述の図6参照)、すなわちユーザに対する、受付業務を行うシステムである。この例では、会社へ設置されている場合を例にとって説明する。
来訪者受付システム1は、受付装置である受付端末20と、DBサーバ10と、複数のIP電話機60と、Intenet Protocol Private Branch eXchange(IP−PBX)50とを有している。受付端末20は、例えば会社の入口付近に設置されている。DBサーバ10は、周知のコンピュータにより構成されている。IP電話機60は、会社の社員それぞれに対応して設けられている。IP−PBX50は、複数のIP電話機60の回線交換を行う周知の交換装置である。これら受付端末20と、IP電話機60と、IP−PBX50とは、すべてルータ40を介して接続されている。
受付端末20は、端末本体20Aと、タッチパネル210と、複数のマイク207A,207B,207C,207Dと、カメラ209と、スピーカ208とを有している。タッチパネル210、複数のマイク207A,207B,207C,207D、カメラ209、及びスピーカ208は、端末本体20Aに接続されている。なお、以下適宜、マイク207A〜207Dを総称して単に「マイク207」と称する。
各マイク207A,207B,207C,207Dは、それぞれ来訪者30の発話音声を入力可能に構成されており、それぞれ音声入力手段として機能する。これらマイク207は、それぞれ入力された音を音情報に変換し、端末本体20Aへ出力する。
カメラ209は、撮像手段として機能する。このカメラ209は、所定の画角(図示せず)における画像を撮影し、その撮像結果を端末本体20Aへ出力する。
スピーカ208は、端末本体20Aから入力された音声信号を、所定の案内音声に変換して出力する。
図2は、受付端末20の外観構造の一例を表す斜視図である。
図2において、タッチパネル210は、水平に設置されるベース212に対してアーム211を介し支持されている。そして、このタッチパネル210は、表示面のなす方向がユーザすなわち来訪者30の視線の方向に対して直角となるように、当該表示面が斜め上方を向いている。
各マイク207A〜207Dは、上記カメラ209に対する予め定められた位置関係となるように、それぞれ配置されている。この例では、受付端末20の正面側(図中手前側)の上記タッチパネル210の、図中向かって左上側にマイク207A、右上側にマイク207B、左下側にマイク207C、右下側にマイク207Dが、それぞれ配置されている。
スピーカ208は、受付端末20の正面側に配置されている。すなわち、スピーカ208は、上記タッチパネル210の下部に位置している。
図3は、タッチパネル210における表示画面の例を表す図である。図3に示す画面においては、少なくとも1つの操作ボタンBが背景Gとともに表示される。この操作ボタンBは、来訪者30が指でタッチすることで操作入力可能である。また、操作ボタンBは、後述の描画プログラムによって生成される。なお、各ボタンBにはその内容が記載(図中では「***」で略記している)されている。
タッチパネル210は、複数の画面を所定の順序で順次切り替えて表示することができる。
以上の構成において、例えば受付端末20の電源がONされた後、この状態で会社への来訪者30が上記タッチパネル210を操作する。これにより、受付端末20は来訪者30が検出されたと認識し、受付端末20が受付処理を開始する。すなわち、受付端末20は、端末本体20Aからの音声信号に基づき、来訪者30に関する所定の質問(詳細は後述)をスピーカ208より出力する。この質問は、予め定められた複数の処理手順(以下、シナリオという)に沿って行われる。このとき、タッチパネル210が、上記スピーカ208からの出力に対応した所定の表示を行うようにしてもよい。
上記スピーカ208による出力やタッチパネル210における表示に応じて、来訪者30は、自己の氏名等を発声する。すると、受付端末20は、対応する音情報を各マイク207から入力し、その音情報に対して音声認識処理を行う。上記スピーカ208の出力やタッチパネル210の表示に応じて、来訪者30は、タッチパネル210の適宜の画面における各種ボタンを手動操作する。これにより、来訪者30は、対応する操作情報を受付端末20へと入力する。
受付端末20は、上記音情報に対する音声認識結果及び上記操作情報の入力結果に応じて、来訪者30に対して対応すべき来訪対応者(以下適宜、単に担当者という)への通知処理を行う。具体的には、受付端末20は、自らを、担当者が使用するIP電話機60へIP−PBX50を介して接続する。担当者は、通知された来訪者30の身元に関する情報に応じて、受付端末20に対して応対を指示する。この指示に応じて、受付端末20は、来訪者30と担当者とが会話できるようにIP電話機60を接続したり、担当者の代理で来訪者30に応対したりする。このようにして、本実施形態の来訪者受付システム1は、会社における受付業務を自動的に行うことができる。
(B)受付端末の詳細機能
図4は、受付端末20の機能的構成を示す機能ブロック図である。
図4において、受付端末20の端末本体20Aは、制御回路部200と、入出力(I/O)インタフェイス204と、ハードディスク装置(HDD)205とを有している。
制御回路部200は、CPU201と、ROM202と、RAM203とを備えている。ROM202は、受付端末20の基本的な動作に必要なプログラムやそのための設定値を記憶する。RAM203は、各種データを一時的に記憶する。CPU201は、ROM202や、HDD205に記憶されたプログラムに従って、受付端末20全体の動作を制御する。またCPU201は、所定の加工用係数としての遅延量(後述)を用いて、各マイク207により入力された音に対応した音情報を加工する(詳細は後述する)。
I/Oインタフェイス204には、上記CPU201と、上記HDD205と、上記タッチパネル210と、上記マイク207A〜207Dと、上記カメラ209と、上記スピーカ208と、ネットワーク(NW)カード206とが接続されている。
HDD205には、言語モデル記憶エリア252、辞書記憶エリア253、及びプログラム記憶エリア256を含む複数の記憶エリアを備えている。辞書記憶エリア253は、上記言語モデルとともに音声認識に使用される辞書が記憶される。
言語モデル記憶エリア252は、来訪者30による発話の音声認識に使用される言語モデルが記憶される。言語モデル記憶エリア252には、来訪者30による発話の認識に使用するための受理可能な文のパターンが、言語モデルとして記憶されている。この言語モデルは、受付端末20と来訪者30との対話で想定される様々な場面に応じて予め作成されている。
プログラム記憶エリア256には、例えば、受付端末20の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、システムプログラム、通信プログラム、描画プログラム、音声認識プログラム、DB照合プログラム、音声合成プログラム、対話制御プログラム、電話接続プログラム等が含まれる。システムプログラムは、受付端末20の基本的な動作を制御するプログラムである。通信プログラムは、DBサーバ10との通信を制御するプログラムである。描画プログラムは、タッチパネル210に表示する画像を生成するプログラムである。音声認識プログラムは、音声認識を実行するためのプログラムである。DB照合プログラムは、DBサーバ10のデータベースにアクセスし照合を行うためのプログラムである。電話接続プログラムは、IP電話機60とIP−PBX50との接続に係わるプログラムである。
なお、図示はされていないが、HDD205には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。
NWカード206は、上記ルータ40に接続されている。NWカード206は、DBサーバ10等との間でデータの送受信を可能とするためのいわゆる拡張カードである。
(C)DBサーバの詳細機能
図5は、DBサーバ10の機能的構成を表す機能ブロック図である。
図5に示すように、DBサーバ10は、CPU101と、ROM102と、RAM103と、入出力(I/O)インタフェイス104と、マウスコントローラ106と、キーコントローラ107と、ビデオコントローラ108と、通信装置109と、遅延量記憶手段としてのハードディスク装置(HDD)150とを有している。ROM102、RAM103は、それぞれCPU101に接続されている。I/Oインタフェイス104には、上述した、CPU101、マウスコントローラ106、キーコントローラ107、ビデオコントローラ108、通信装置109、及びハードディスク装置150が接続されている。
ROM102は、BIOSを含む、DBサーバ10を動作させるための各種のプログラムを記憶している。RAM103は、各種データを一時的に記憶する。CPU101は、ROM102や、後述するHDD150に記憶されたプログラムに従って、DBサーバ10の全体の制御を司る。
マウスコントローラ106、キーコントローラ107、及びビデオコントローラ108には、それぞれマウス116、キーボード117、及びディスプレイ118が接続されている。通信装置109は、ルータ40に接続され、受付端末20等、外部機器との間でデータの送受信を行う。
HDD150は、来訪者予約データベース記憶エリア151、遅延量データベース記憶エリア152、顔データベース記憶エリア153、部署電話番号データベース記憶エリア154、社員データベース記憶エリア155、及びプログラム記憶エリア156を含む、複数の記憶エリアを備えている。
来訪者予約データベース記憶エリア151には、予定された来訪者に関する予約データを格納する来訪者予約データベース(図示せず)が記憶されている。
顔データベース記憶エリア153には、複数の人間の顔データを格納する顔データベース(図示せず)が記憶されている。部署電話番号データベース記憶エリア154には、会社の全部署の電話番号情報を格納している。社員データベース記憶エリア155には、社員情報が格納されている。
プログラム記憶エリア156には、システムプログラム、通信プログラム等、各種処理をDBサーバ10に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばCD−ROMに記憶されたものがCD−ROMドライブ(図示せず)を介してインストールされ、プログラム記憶エリア156に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。
遅延量データベース記憶エリア152には、遅延量データベース(図示せず)が記憶されている。この遅延量データベースの記憶内容及び遅延量については、後述する。
(D)音情報の加工原理及び加工内容
本実施形態の受付端末20のCPU201は、カメラ209による撮像結果を画像認識し、所定の画角に含まれる来訪者30の口の位置を検出する。各マイク207より入力された音に対応した音情報には、上記検出された口の位置に最も近いマイク207に係わる第1音情報と、それ以外のマイク207に係わる第2音情報とが含まれる。受付端末20のCPU201は、精度よく音声認識を行うために、それら第1音情報及び第2音情報を加工する。なお、後述のように、上記第1音情報は、実質的には加工されていない。以下、その加工の原理及びその原理に基づく実際の加工内容を順を追って説明する。
(D−1)加工の概要
図6は、各マイク207A〜207Dに入力される音を説明する説明図である。この図6では、図示の煩雑を避けるため、受付端末20のアーム211及びベース212(いずれも図2参照)の図示を省略している。
図6において、この例では、カメラ209の上記所定の画角に含まれる来訪者30の発話位置としての口30Mの位置(後述の図8も参照)が、マイク207Aに最も近い場合を示している。この場合、来訪者30が、各請求項記載の「特定の1人のユーザ」に相当する。また、マイク207Aが、第1音声入力手段に相当し、それ以外のマイク207B,207C,207Dが、第2音声入力手段に相当する。なお、以下適宜、第1音声入力手段に相当するマイク207を特に、「第1マイク207」と称し、第2音声入力手段に相当するマイク207を特に、「第2マイク207」と称する。例えば、第1音声入力手段に相当するマイク207が、マイク207Aである場合は、第1マイク207Aといい、第2音声入力手段に相当するマイク207が、マイク207B,207C,207Dである場合は、第2マイク207B,207C,207Dという。
来訪者30によりタッチパネル210に表示された受付開始ボタン(図示せず)が押下されると、受付処理が開始される。このとき、来訪者30が発話すると、その来訪者30の口30Mからの発話音声は、各マイク207A〜207Dにより入力される。なお、この際、上記発話音声以外にも、受付端末20の周囲で発生した雑音等の周囲音も各マイク207〜207Dにより入力される。そして、各マイク207〜207Dにより入力された上記発話音声や雑音を含む音に基づき、対応する音情報が取得される。なお、この場合、第1マイク207Aにより入力された音に対応した音情報が、第1音情報に相当し、それ以外の第2マイク207B,207C,207Dにより入力された音に対応した音情報が、第2音情報に相当する。
ここで、第1マイク207Aは、来訪者30の口30Mの位置に最も近いマイク207である。したがって、第1マイク207Aでは、口30Mからの発話音声が、他の第2マイク207B,207C,207Dに比べ高いレベルで入力される。また、第1マイク207Aは、来訪者30自身が接近しており、例えば来訪者30の後方(図6中下方向)からの雑音は、来訪者30が障壁となり反射される。この結果、第1マイク207Aでは、他の第2マイク207B,207C,207Dに比べ、入力される雑音のレベルが小さくなる。すなわち、第1マイク207Aを介して取得された第1音情報は、他の第2マイク207B,207C,207Dを介して取得された第2音情報に比べ、信号対雑音比、いわゆるS/N比が高くなっている。
そこで、本実施形態においては、受付端末20のCPU201が、カメラ209を用いて、上記画角における画像を撮像する。その撮像結果を受付端末20のCPU201が画像認識し、来訪者30の口30Mの位置が受付端末20から見てどこにあるのかを検出する。CPU201は、上記口30Mの位置に基づき、来訪者30から上記第1マイク207Aへ伝搬する発話音声と来訪者30から第2マイク207B,207C,207Dへ伝搬する発話音声との伝搬距離の差により生じる、遅延量を決定する。そして、CPU201は、上記各マイク207A〜Dで取得された第1音情報及び第2音情報に対して、対応する遅延量を適用し、それら第1音情報及び第2音情報の位相差を低減し、同相化を図る。これにより、第1マイク207Aを介して取得された第1音情報が、それ以外の第2マイク207B,207C,207Dを介して取得された第2音情報よりも強調された、言い換えれば、来訪者30による発話音声が強調された、新たな音情報が生成される。そして、CPU201は、その加工後の新たな音情報を用いて音声認識を行う。
(D−2)遅延量
次に、音情報の加工の際に用いられる、上記遅延量について説明する。
図7は、上記遅延量について説明する説明図である。一例として、直列で配列された2つのマイク207A,207Bを例にとり、第1マイク207Aを介して取得された第1音情報に対する、第2マイク207Bを介して取得された第2音情報の遅延量について説明する。
図7において、この例では、第1マイク207Aと第2マイク207Bと間の距離がd、上記来訪者30の口30Mから発話された発話音声が各マイク207A,207Bに入力される角度がθとなっている。この角度θを、以下適宜、「音声到来角度」と称する。本実施形態においては、上記発話音声を平面波とみなしている。そして、上記発話音声は、各マイク207に対し、それぞれ等しい角度すなわち音声到来角度θで入力される、と仮定する。
来訪者30の口30Mから音声到来角度θで到来する発話音声は、まず、上記口30Mの位置に最も近い第1マイク207Aに入力される。その後、上記発話音声は、距離Dだけ進んで、第2マイク207Bに入力される。この距離Dは、上記口30Mから第2マイク207Bまでの到来距離と、上記口30Mから第1マイク207Aまでの到来距離との差である。このとき、
D=dsinθ ・・・(式1)
で表される関係が成り立つ。
ここで、第2マイク207Bにより入力された上記発話音声に対応した音情報は、第1マイク207Aにより入力された上記発話音声に対応した音情報よりも、位相が遅れている。すなわち、上記位相遅れは、上記発話音声が上記距離Dだけ進行するのに要した時間である遅延量τに対応している。
すなわち、遅延量τについて、
τ=D/c
=(dsinθ)/c ・・・(式2)
で表される関係が成り立つ。なお、cは音速(約340[m/s])である。
上記距離dは既知であるから、上記(式2)に基づき、音声到来角度θがわかれば遅延量τを得ることができる。
(D−3)音声到来角度
図8は、上記音声到来角度θを推測する方法の原理を説明する説明図である。
図8において、上記音声到来角度θは、来訪者30の顔面30Fの口30Mからの発話音声が各マイク207に入力される角度、言い換えれば、受付端末20に対して来訪者30の口30Mが向いている方向である。受付処理が実行されるとき、来訪者30は、タッチパネル210の方向を向きつつ、タッチパネル210の操作及び発話を行うのが一般的である。
本実施形態においては、来訪者30が、言い換えれば来訪者30の口30Mが、タッチパネル210の中央を向いていると仮定する。また、当該口30Mの位置からタッチパネル210の中央位置までの距離、言い換えれば、受付端末20から来訪者30の口30Mまでの距離をL1(以下適宜、「来訪者距離L1」と称する)とする。また、タッチパネル210の面方向中心を面に直交して貫通するタッチパネル210の中心線に対する、口30Mの位置からの偏差、言い換えれば口30Mからタッチパネル210の中心線までの横方向(図中左右方向)の離反距離を、L2(以下適宜、「離反距離L2」と称する)とする。
ここで、カメラ209による上記画角での撮像結果を画像認識する(詳細は後述)ことで、上記来訪者距離L1と、上記離反距離L2とは推測可能である。このとき、図8に示されるように、
θ=sin−1(L2/L1) ・・・(式3)
で表される関係が成り立つ。
上記(式3)に基づき、上記来訪者距離L1と上記離反距離L2がわかれば、音声到来角度θを得ることができる。
(D−4)来訪者距離の固定
図9は、来訪者30がタッチパネル210を操作した状態での、受付端末20と来訪者30との位置関係を模式的に表した図である。
図9に示すように、一般的に、受付処理の実行中、来訪者30は、タッチパネル210を操作可能な範囲に位置する。この操作可能範囲は、来訪者30の腕30Aの長さに依存する。一般に、タッチパネル210を操作するときの装置−人物間の距離は、若干の個人差はあるものの概ね40〜60[cm]程度である。したがって、上記来訪者距離L1は、例えば概ねL1=50[cm]とみなし固定値とすることが可能である。図9には、上記タッチパネル210を操作するときの装置−人物間の距離、言い換えれば、来訪者30の腕30Aの長さを、例えば50[cm]としたときの、上記操作可能範囲を示している。
前述のように来訪者距離L1と離反距離L2とを用いて音声到来角度θを得られることから、上記のようにL1の値を一意的に固定することで、離反距離L2がわかれば音声到来角度θを得ることができる。
(D−5)口の位置の検出
本実施形態のCPU201は、来訪者30の口30Mの位置を、カメラ209の撮像結果を画像認識することによって検出する。そして、その検出した口30Mの位置と、画角の中心位置Pとの距離により、上記離反距離L2を算出する。以下、その詳細を説明する。
図10は、カメラ209が上記画角で撮影した撮像90を表す概念的説明図である。撮像90の中心には、上記画角の中心位置Pが存在している。
カメラ209により上記画角における撮影が行われると、来訪者30の像30′を含む撮像90に対し、公知の手法で顔認識が行われる。例えば、CPU201は、前述の顔データベースに予め格納された多数の人間の顔データを読み出して、当該顔データと、撮像90とを照合する。そして、照合結果が合致した画像があった場合、CPU201は、その顔データと合致した部分を、人間の顔として認識する。そして、図10に示すように、CPU201は、その顔として認識した部分、この例では、来訪者30の顔面30Fの像30F′を含む所定の範囲を、顔認識領域31として設定する。
その後、CPU201は、口30Mの像30M′の位置が、撮像90の中でどこに位置するのかを推測する。まず、CPU201は、人間の口が顔面の半分より下側にあるという特徴に基づき、図10に示すように、上記顔認識領域31の下半分の領域を、口30Mの像30M′が位置する口認識領域32として設定する。なお、CPU201は、上記口30Mの像30M′の位置を直接検出してもよい。またCPU201は、一般的な顔面と口の位置の比例関係に基づき、上記口30Mの像30M′の位置を検出してもよい。
上記の口認識領域32のように設定すれば、例えば、長方形形状を備えた口認識領域32の上記長方形の中心を像30M′の位置とみなすことができる。この結果、図10に示すように、受付端末20は、口30の像30M′から上記画角の中心位置Pまでの水平方向距離に基づき上記離反距離L2を取得可能となる。このようにして離反距離L2を取得できれば、前述したように、固定値の上記来訪者距離L1を用いて音声到来角度θが得られ、さらに上記(式2)を用いて、第2マイク207Bに係わる遅延量τを得ることができる。
なお、以上の説明では、第1マイク207Aと同一の水平方向位置に設置された第2マイク207Bを例にとって説明した。すなわち、撮像90内で水平方向に表される上記離反距離L2に基づき算出可能な、第1マイク207Aを介して取得された第1音情報に対する、第2マイク207Bを介して取得された第2音情報の遅延量τを例にとって説明した。しかしながら、上記以外のマイク207C,207Dについても同様の手法を適用できる。
すなわち、第2マイク207Cは、第1マイク207Aと同一の左右方向位置(図2参照)に設置されている。したがって、図11に示すように、撮像90内で鉛直方向に表される上記同様の離反距離L2′に基づき、第1マイク207Aを介して取得された第1音情報に対する、第2マイク207Cを介して取得された第2音情報の遅延量τを算出可能である。
さらに、第1マイク207Aと左右方向位置も水平方向位置も異なる(図2参照)第2マイク207Dについても同様である。すなわち、図12に示すように、撮像90内で斜め方向に表される上記同様の離反距離L2″に基づき、第1マイク207Aを介して取得された第1音情報に対する、第2マイク207Dを介して取得された第2音情報の遅延量τを算出可能である。
(D−6)遅延量テーブルの活用
上述したように、撮像90における口30Mの像30M′の位置に対応して離反距離L2,L2′,L2″を算出することで、第1マイク207Aを介して取得された第1音情報に対する、第2マイク207B,207C,207Dを介して取得された第2音情報の遅延量τをそれぞれ算出することができる。しかしながら、本実施形態では、演算処理を簡素化して遅延量τを迅速に得るために、受付端末20のCPU201は、遅延量テーブル(後述の図14、図15、図16、図17参照)に予め記憶された遅延量τを取得して用いる。以下、その詳細を順次説明する。
まず、本実施形態では、図13に示すように、撮像90を、複数の、この例では16個の、撮像エリアAr1〜Ar16に予め分割する。撮像90は、16個の、それぞれ等しい面積である第1撮像エリアAr1、第2撮像エリアAr2、…、第16撮像エリアAr16に区分されている。以下適宜、第1撮像エリアAr1〜第16撮像エリアAr16を総称して単に「撮像エリアAr」と称する。
CPU201は、前述のようにして設定した口認識領域32が、16個の撮像エリアAr1〜Ar16のうち、いずれの撮像エリアArにあるのかを検出する。例えば、CPU201は、各撮像エリアArごとに口認識領域32が重なる面積を算出し、当該重なる面積が最大であった撮像エリアArを口認識領域32が位置する撮像エリアArとして検出する。図13に示す例では、口認識領域32は、第6撮像エリアAr6、第7撮像エリアAr7、第8撮像エリアAr8、第10撮像エリアAr10、第11撮像エリアAr11、及び第12撮像エリアAr12の6つの撮像エリアArにそれぞれ重なっている。そのうち、口認識領域32と重なる面積が最も大きい撮像エリアArは、第7撮像エリアAr7である。したがって、口認識領域32は第7撮像エリアAr7に位置すると検出される。
なお、以上のような画像認識の結果、すなわちこの例では、上記口認識領域32が検出できたことを表す「成功」と、上記検出された撮像エリアAr「第10撮像エリアAr10」とは、カメラ209による撮像時間と対応付けて例えばRAM203に記憶される。
一方、本実施形態では、各撮像エリアAr1〜Ar16ごとに、対応する遅延量τを予め設定しておく。設定された各撮像エリアAr1〜Ar16と対応する遅延量τとの関係は、遅延量テーブルとして予め上記遅延量データベースに記憶されている。
図14に、上記16個の撮像エリアAr1〜Ar16に対応して予め遅延量データベースに記憶された、マイク207Bに係わる遅延量テーブルを示す。図示のように、この遅延量テーブルには、撮像エリアAr1,Ar2,…,Ar16に対応して、それぞれ、遅延量τB1,τB2,…,τB16が設定されている。なお、以下適宜、遅延量τB1,τB2,…,τB16を、単に「遅延量τB」と総称する。
図示右上側の4つの撮像エリアAr3,Ar4,Ar7,Ar8に口認識領域32がある場合は、前述の例と同様、マイク207Aが第1マイクである。したがって、各撮像エリアAr3,Ar4,Ar7,Ar8には、第1マイク207Aを介して取得された第1音情報に対する、第2マイク207Bを介して取得された第2音情報の遅延量τB3,τB4,τB7,τB8が設定されている。
一方、図示左下側の4つの撮像エリアAr9,Ar10,Ar13,Ar14に口認識領域32がある場合は、マイク207Dが第1マイクである。したがって、各撮像エリアAr9,Ar10,Ar13,Ar14には、第1マイク207Dを介して取得された第1音情報に対する、第2マイク207Bを介して取得された第2音情報の遅延量τB9,τB10,τB13,τB14が設定されている。
また、図示右下側の4つの撮像エリアAr11,Ar12,Ar15,Ar16に口認識領域32がある場合は、マイク207Cが第1マイクである。したがって、各撮像エリアAr11,Ar12,Ar15,Ar16には、第1マイク207Cを介して取得された第1音情報に対する、第2マイク207Bを介して取得された第2音情報の遅延量τB11,τB12,τB15,τB16が設定されている。
なお、図示左上側の4つの撮像エリアAr1,Ar2,Ar5,Ar6に口認識領域32がある場合は、マイク207B自体が第1マイクとなるため、遅延量τの値は存在しない。したがって、各撮像エリアAr1,Ar2,Ar5,Ar6における遅延量τB1,τB2,τB5,τB6はいずれも0に設定されている。
また、図15は、上記16個の撮像エリアAr1〜Ar16に対応して予め遅延量データベースに記憶された、マイク207Cに係わる遅延量テーブルである。この遅延量テーブルでは、図14と同様、撮像エリアAr1,Ar2,…,Ar16に対応して、それぞれ、遅延量τC1,τC2,…,τC16が設定されている。なお、以下適宜、遅延量τC1,τC2,…,τC16を、単に「遅延量τC」と総称する。
上記と同様、図示右上側の各撮像エリアAr3,Ar3,Ar7,Ar8には、第1マイク207Aを介して取得された第1音情報に対する、第2マイク207Cを介して取得された第2音情報の遅延量τC3,τC4,τC7,τC8が設定されている。図示左下側の4つの撮像エリアAr9,Ar10,Ar13,Ar14には、第1マイク207Dを介して取得された第1音情報に対する、第2マイク207Cを介して取得された第2音情報の遅延量τC9,τC10,τC13,τC14が設定されている。図示左上側の4つの撮像エリアAr1,Ar2,Ar5,Ar6には、第1マイク207Bを介して取得された第1音情報に対する、第2マイク207Cを介して取得された第2音情報の遅延量τC1,τC2,τC5,τC6が設定されている。なお、図示右下側の4つの撮像エリアAr11,Ar12,Ar15,Ar16に口認識領域32がある場合は、マイク207C自体が第1マイクとなるため、遅延量τの値は存在しない。したがって、各撮像エリアAr11,Ar12,Ar15,Ar16における遅延量τC11,τC12,τC15,τC16はいずれも0に設定されている。
さらに、図16は、上記16個の撮像エリアAr1〜Ar16に対応して予め遅延量データベースに記憶された、マイク207Dに係わる遅延量テーブルである。上記と同様、撮像エリアAr1,Ar2,…,Ar16に対応して、それぞれ、遅延量τD1,τD2,…,τD16が設定されている。なお、以下適宜、遅延量τD1,τD2,…,τD16を、単に「遅延量τD」と総称する。
上記と同様、図示右上側の各撮像エリアAr3,Ar3,Ar7,Ar8には、第1マイク207Aを介して取得された第1音情報に対する、第2マイク207Dを介して取得された第2音情報の遅延量τD3,τD4,τD7,τD8が設定されている。図示左上側の4つの撮像エリアAr1,Ar2,Ar5,Ar6には、第1マイク207Bを介して取得された第1音情報に対する、第2マイク207Dを介して取得された第2音情報の遅延量τD1,τD2,τD5,τD6が設定されている。図示右下側の4つの撮像エリアAr11,Ar12,Ar15,Ar16には、第1マイク207Cを介して取得された第1音情報に対する、第2マイク207Dを介して取得された第2音情報の遅延量τD11,τD12,τD15,τD16が設定されている。なお、図示左下側の4つの撮像エリアAr9,Ar10,Ar13,Ar14に口認識領域32がある場合は、マイク207D自体が第1マイクとなるため、遅延量τの値は存在しない。したがって、各撮像エリアAr9,Ar10,Ar13,Ar14における遅延量τD9,τD10,τD13,τD14はいずれも0に設定されている。
さらに、図17は、上記16個の撮像エリアAr1〜Ar16に対応して予め遅延量データベースに記憶された、マイク207Aに係わる遅延量テーブルである。上記と同様、撮像エリアAr1,Ar2,…,Ar16に対応して、それぞれ、遅延量τA1,τA2,…,τA16が設定されている。なお、以下適宜、遅延量τA1,τA2,…,τA16を、単に「遅延量τA」と総称する。
上記と同様、図示左上側の4つの撮像エリアAr1,Ar2,Ar5,Ar6には、第1マイク207Bを介して取得された第1音情報に対する、第2マイク207Aを介して取得された第2音情報の遅延量τA1,τA2,τA5,τA6が設定されている。図示左下側の4つの撮像エリアAr9,Ar10,Ar13,Ar14には、第1マイク207Dを介して取得された第1音情報に対する、第2マイク207Aを介して取得された第2音情報の遅延量τA9,τA10,τA13,τA14が設定されている。図示右下側の各撮像エリアAr11,Ar12,Ar15,Ar16には、第1マイク207Cを介して取得された第1音情報に対する、第2マイク207Aを介して取得された第2音情報の遅延量τA11,τA12,τA15,τA16が設定されている。なお、図示右上側の4つの撮像エリアAr3,Ar4,Ar7,Ar8に口認識領域32がある場合は、マイク207A自体が第1マイクとなるため、遅延量τの値は存在しない。したがって、各撮像エリアAr3,Ar4,Ar7,Ar8における遅延量τA3,τA4,τA7,τA8はいずれも0に設定されている。
CPU201は、撮像90において口認識領域32がどの撮像エリアAr1〜Ar16に位置するかに応じて、図14、図15、図16、及び図17に示すテーブルを用いて、遅延量τB,τC,τD,τAを取得する。すなわちCPU201は、図14に示す遅延量テーブルを用いて第2マイク207Bに係わる遅延量τBを決定し、図15に示す遅延量テーブルを用いて第2マイク207Cに係わる遅延量τCを決定し、図16に示す遅延量テーブルを用いて第2マイク207Dに係わる遅延量τDを決定し、図17に示す遅延量テーブルを用いて第2マイク207Aに係わる遅延量τAを決定する。例えば図13の例のように、口認識領域32が第7撮像エリアAr7に位置する場合、第1マイクはマイク207Aである。そして、CPU201は、図14を参照して第2マイク207Bに係わる遅延量をτB7とし、図15を参照して第2マイク207Cに係わる遅延量をτC7とし、図16を参照して第2マイク207Dに係わる遅延量をτD7とする。
(D−7)遅延量を用いた同相化
上記のようにして、CPU201は、第1マイク207を介して取得された第1音情報に対する、3つの第2マイク207を介して取得された第2音情報の遅延量τを、それぞれ決定する。その後、CPU201は、3つの第2マイク207に係わる上記第2音情報を、時間の進む方向に上記遅延量τだけそれぞれシフトさせる。これにより、CPU201は、3つの第2マイク207を介して取得された第2音情報を、第1マイク207を介して取得された第1音情報と同相化し、結果として、来訪者30の口30Mからの発話音声を多く含む上記第1音情報を上記第2音情報よりも強調する加工を実行する。この際、第2マイク207でそれぞれ入力される、周囲で発生した雑音等の音声到来角度は、上記θとは異なる。したがって、それら雑音等の音情報に上記遅延量τを適用しても、それら雑音等は強調されない。
(E)音情報の加工の開始条件
本実施形態の特徴の一つとして、上記(D)で説明したような音情報の加工を開始するための条件が予め設定されている。CPU201は、前述の顔認識領域31の面積がある程度大きくなったことを条件に、上記音情報の加工を開始する。
すなわち、例えば、来訪者30が前述のタッチパネル210の操作可能な範囲よりも遠い場所に位置する場合、来訪者30がタッチパネル210の操作や発話をする可能性は低い。このような場合に、CPU201が上述した音情報の加工を行う必要はない。
そこで、本実施形態では、上記タッチパネル210の操作可能な範囲よりも少し遠い距離に対応した、所定のしきい値としての所定の面積しきい値SM0を予め設定している。上記(D−5)で説明したように、カメラ209の撮像結果の画像認識により顔認識領域31が設定されると、CPU201は当該顔認識領域31の面積SMを算出する。そして、上記のように算出された顔認識領域31の面積SMが、この面積しきい値SM0よりも大きくなった場合に、上記遅延量τの決定を含む音情報の加工を開始する。
(F)音情報の加工の継続条件
また、本実施形態の別の特徴として、上記(E)の条件により音情報の加工が開始されたら、なるべく加工を中断せず継続させるように、予め設定されている。
図18は、カメラ209により上記画角にて撮像された撮像90の、上記図10、図11、図12、及び図13とは別の例を表す概念的説明図である。図18において、上記図10を用いて説明した方法により、まず撮像90に対して顔認識が行われる。この例では、来訪者30が顔を下に向けた等により、像30′の下半分が上記画角の外部へフレームアウトしている。このため、前述の手法による顔認識が行えず、前述の顔認識領域31及び口認識領域32が設定されない。CPU201は、この画像認識の結果、すなわちこの例では、上記口認識領域32が検出できなかったことを表す「失敗」を、カメラ209による撮像時間と対応付けて例えばRAM203に記憶する。
本実施形態では、上記図18のようにして顔認識ができなくなった場合でも、その状態が短時間で終了し、その後は元通り顔認識ができるようになった場合には、音情報の加工を中断せず継続させる。この内容を図19を用いて説明する。
既に説明したように、上記撮像90に対する画像認識の結果と、上記検出された撮像エリアArとが、撮像時間と対応付けてRAM203に記憶される。図19に、当該RAM203に記憶された、上記画像認識の結果と上記撮像時間とを対応付けた画像認識履歴テーブル2030を示す。
図19において、この例では、画像認識履歴テーブル2030に、10時00分00秒から10時01分10秒までの1分10秒間の区間におけるデータが1秒間隔で記憶されている。そして、データ内容として、カメラ209による撮像時刻と、口認識領域32の検出結果「成功」「失敗」と、上記検出された撮像エリアArとが、対応付けられて記憶されている。
10時00分00秒、10時00分01秒、及び10時00分02秒においては、上記口認識領域32の検出が成功し、口認識領域32の位置が第10撮像エリアAr10である。したがって、これら各時刻においては、CPU201が、遅延量データベースより、図14〜図17にそれぞれ示した、第10撮像エリアAr10に関連付けられた遅延量τB10,τC10,τD10,τA10をそれぞれ取得する。これにより、CPU201により、当該取得された遅延量τB10,τC10,τD10,τA10を用いて上記音情報の加工が行われる。
10時00分03秒及び10時00分04秒においては、上記口認識領域32の検出が失敗している。ここで、本実施形態では、上記のようにCPU201による音情報の加工が開始された後に、口認識領域32の検出結果が「失敗」になった場合でも、その口認識領域32の非検出状態が所定時間、この例では10秒間継続するまでは、上記音情報の加工を続行する。すなわち、10時00分03秒では口認識領域32の非検出状態は0秒であり、10時00分04秒では口認識領域32の非検出状態は10時00分03秒からの1秒間である。したがって、10時00分04秒では、上記CPU201による音情報の加工は続行される。このとき用いられる遅延量は、口認識領域32の検出結果が「失敗」となる直前、すなわち10時00分02秒における撮像90に対する画像認識の結果に基づき取得された、第10撮像エリアAr10に対応した上記遅延量τB10,τC10,τD10,τA10である。
10時00分05秒〜10時00分59秒においては、上記口認識領域32の検出が成功し、口認識領域32の位置が第11撮像エリアAr11である。したがって、10時00分05秒〜10時00分59秒においては、CPU201が、遅延量データベースより、図14〜図17にそれぞれ示した、第11撮像エリアAr11に関連付けられた遅延量τB11,τC11,τD11,τA11をそれぞれ取得する。これにより、CPU201によって、当該取得された遅延量τB11,τC11,τD11,τA11を用いて上記音情報の加工が行われる。
10時01分00秒、10時01分01秒、・・・、10時01分09秒、及び10時01分10秒においては、上記口認識領域32の検出が失敗している。この場合、10時01分00秒から10時01分09秒までの9秒間においては、前述と同様にして、口認識領域32の検出結果が「失敗」となる直前、すなわち10時00分59秒において取得された遅延量が用いられる。すなわち、第11撮像エリアAr11に関連付けられた遅延量τB11,τC11,τD11,τA11が用いられ、上記音情報の加工が行われる。そして、10時01分10秒において、口認識領域32の検出結果が「失敗」になると、口認識領域32の非検出状態が10時01分00秒から当該10時01分10秒までの10秒間継続するため、この時点で、CPU201による音情報の加工が終了される。
(G)制御手順
図20は、以上説明した内容を実現するために、受付端末20のCPU201が実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、HDD205のプログラム記憶エリア256に記憶された来訪者受付処理用のプログラム群、すなわち前述のシステムプログラム、通信プログラム、描画プログラム、音声認識プログラム、DB照合プログラム、電話接続プログラム等に従って、CPU201が実行する。
図20において、例えば受付端末20の電源がONされることにより、図中「START」位置で表されるように、このフローが開始される。
まずステップS5で、CPU201は、所定の初期化処理を実行する。このとき、CPU201は、受付処理が開始されたことを表すフラグFsを、Fs=0へ併せて初期化する。
その後、ステップS10で、CPU201は、タッチパネル210に表示信号を出力する。これにより、タッチパネル210は、「御用の方はこのボタンを押してください」の旨の受付開始ボタンを含む待ち受け状態の画面、すなわち初期画面)を表示する。
そして、ステップS15で、CPU201は、上記受付開始ボタンが手動操作されたかどうかを判定する。来訪者30によって押下されるまでは判定が満たされずループ待機し、押下されたら判定が満たされて、ステップS20に移る。ステップS20では、CPU201は上記フラグFsをFs=1にする。その後、ステップS25に移る。
ステップS25では、CPU201は、スピーカ208へ音声信号を出力する。これにより、スピーカ208は、”いらっしゃいませ。どちら様でしょうか。お名前を入力してください”という、来訪者名を問いかける台詞を含む案内音声を出力する。このとき、タッチパネル210が、同様の内容のテキスト表示も行う。なお、スピーカ208は上記案内音声の出力を行わず、タッチパネル210が表示を行うのみとしてもよい。
その後、ステップS30で、CPU201は、各マイク207A〜207Dを介しそれぞれ入力された、音情報をそれぞれ取得する。この音情報は、上記ステップS25での問いかけに対応して発話した来訪者30の発話音声を含む、音に対応しており、当該音の振幅あるいは周波数を含む。
そして、ステップS35で、CPU201は、上記取得された各マイク207を介して入力された音に対応した音情報、すなわち上記第1音情報及び上記第2音情報を加工する。このとき、CPU201は、後述の図21のステップS290で決定された遅延量τを用いて加工を行い、上記第1音情報が上記第2音情報よりも強調された新たな音情報を生成する。なお、CPU201は、上記ステップS290が実行されていない場合には、上記音情報の加工を行わず、マイク207を介して入力された音に対応した音情報をそのまま用いて新たな音情報を生成する。
その後、ステップS40で、CPU201は、上記ステップS35で生成された新たな音情報に対して、前述の言語モデル記憶エリア252や辞書記憶エリア253に記憶された、音響モデル、言語モデル等を用いて音声認識を行う。
その後、ステップS45で、CPU201は、上記ステップS40において音声認識できたかどうかを判定する。言語として音声認識できなかった場合には、ステップS45の判定は満たされない。この場合、CPU201は”音声を認識できませんでした。もう一度お名前を入力してください”という、音声認識ができなかったことを来訪者30に通知する台詞をスピーカ208から出力させる。その後、上記ステップS30に戻り、同様の手順を繰り返す。なお、この図20では図示を省略しているが、上記来訪者30へ通知する台詞の出力は、予め定められた設定回数だけ行われ、その間に音声認識できない場合には、対応する処理(例えば受付担当者に取り次ぐ等)を行う。
一方、ステップS45において、CPU201が言語として音声認識できた場合には、ステップS45の判定が満たされ、ステップS50に移る。
ステップS50では、CPU201は、上記音声認識結果、すなわち来訪者名を、例えばRAM203に保存する。
そして、ステップS55で、CPU201は、スピーカ208へ音声信号を出力する。これにより、スピーカ208は、“お約束の時間を入力してください”という、予約時間を問いかける台詞を含む案内音声を出力する。このとき、タッチパネル210が、同様の内容のテキスト表示を行う。なお、スピーカ208は上記案内音声の出力を行わず、タッチパネル210が表示を行うのみとしてもよい。
その後のステップS60、ステップS65、ステップS70、及びステップS75は、上記ステップS30、ステップS35、ステップS40、及びステップS45とほぼ同様である。すなわち、CPU201は、上記各マイク207A〜207Dを介して音情報を取得し、音情報を加工して新たな音情報を生成し、音声認識を行う。そして、言語として音声認識できなかった場合には、ステップS75の判定が満たされず、”音声を認識できませんでした。もう一度お約束の時間を入力してください”という音声認識ができなかったことを来訪者30に通知する台詞をスピーカ208が出力する。その後、上記ステップS60に戻り、同様の手順を繰り返す。一方、ステップS75において、CPU201が言語として音声認識できた場合にはステップS75の判定が満たされて、ステップS80に移る。
ステップS80では、CPU201は、上記音声認識結果、すなわち予約時間を、例えばRAM203に保存する。
そして、ステップS85で、CPU201は、DBサーバ10の来訪者予約データベース1510(図6参照)にアクセスする。そして、CPU201は、上記ステップS40で取得した来訪者名と、上記ステップS70で取得した予約時間とが、来訪者予約データベース1510のいずれかの予約データの「来訪者名」「訪問予定日時」と一致するかどうかを照合する。
その後、ステップS90で、CPU201は、上記ステップS85での照合結果が一致したか、どうかを判定する。あるいは、CPU201は、上記のようにある程度の範囲内で適合しているかを判定してもよい(以下同様)。ステップS85での照合結果が一致した場合、すなわち該当する来訪者名及び訪問予定日時の予約データが存在した場合には、ステップS90の判定が満たされて、ステップS95に移る。
ステップS95では、CPU201は、対応する担当者のIP電話機60に発信すなわちコールを行う。具体的には、CPU201が、担当者への通知文を作成し、その通知文のテキストデータを音声データに変換する。そして、CPU201は、担当者の電話番号を用いて、IP−PBX50を介し、担当者の使用するIP電話機60に発信する。その後、後述のステップS145に移る。
一方、上記ステップS90において、上記ステップS85での照合結果が一致していなかった、すなわち該当する来訪者名及び訪問予定日時の予約データが存在していなかった場合には、ステップS90の判定が満たされない。この場合、ステップS100に移る。
ステップS100では、CPU201は、スピーカ208へ音声信号を出力する。これにより、スピーカ208は、”担当者名を入力してください”という、担当者名を問いかける台詞を含む案内音声を出力する。このとき、タッチパネル210が、同様の内容のテキスト表示を行う。なお、スピーカ208は上記案内音声の出力を行わず、タッチパネル210が表示を行うのみとしてもよい。
その後、ステップS105で、CPU201は、タッチパネル210に表示信号を出力する。これにより、タッチパネル210は、来訪者30が指でタッチすることで操作入力可能ないわゆるソフトウェアキーボードSBを含む画面を表示する。
そして、ステップS110で、CPU201は、来訪者30のソフトウェアキーボードSBの操作による操作情報を取得し、対応する担当者名を、例えばRAM203に保存する。
その後、ステップS115で、CPU201は、DBサーバ10の来訪者予約データベース1510にアクセスする。そして、CPU201は、上記ステップS40で取得した来訪者名と、上記ステップS70で取得した予約時間と、上記ステップS110で取得した担当者名とのうち、少なくとも2つが、来訪者予約データベース1510のいずれかの予約データの「来訪者名」「訪問予定日時」「担当者名」と一致するかどうかを照合する。
そして、ステップS120で、CPU201は、上記ステップS115での照合結果が一致したかどうかを判定する。ステップS115での照合結果が一致した場合、すなわち該当する来訪者名、訪問予定日時、及び担当者名のうち2つ以上が一致した場合には、ステップS120の判定が満たされる。この場合、上記ステップS95に移り、同様の手順を行う。一方、ステップS115での照合結果が一致しなかった場合、すなわち該当する来訪者名、訪問予定日時、及び担当者名のうち2つ以上一致しなかった場合には、ステップS120の判定が満たされず、ステップS125に移る。
ステップS125では、CPU201は、スピーカ208へ音声信号を出力する。これによりスピーカ208は、”予約が確認できませんでした”旨の台詞を含む案内音声を出力する。このとき、タッチパネル210が、同様の内容のテキスト表示を行う。なお、スピーカ208は上記案内音声の出力を行わず、タッチパネル210が表示を行うのみとしてもよい。
その後、ステップS130で、CPU201は、タッチパネル210に表示信号を出力する。これにより、タッチパネル210は、会社の全部署名に対応するボタンを含む部署名一覧表示画面を表示する。
そして、ステップS135で、CPU201は、来訪者30の上記全部署名に対応するボタンの操作による操作情報を取得し、対応する部署名を、例えばRAM203に保存する。
その後、ステップS140で、CPU201は、対応する部署連絡先、この例では部署代表のIP電話機60に発信すなわちコールを行う。具体的には、CPU201は、対応する通知文を作成し、その通知文のテキストデータを音声データに変換する。そして、CPU201は、ステップS310で取得した部署名に対応する電話番号を、前述の部署電話番号データベースの記憶内容を参照して取得し、IP−PBX50を介しIP電話機60に発信する。そして、ステップS145に移る。
ステップS145では、CPU201は、上記フラグFsを、受付処理を終了したことを表すFs=0とする。その後、このフローを終了する。
図21は、上記図20のフローと並行して、受付端末20のCPU201が実行する制御手順を表すフローチャートである。上記図20のフローが受付処理及び音情報の加工の制御手順を示していたのに対し、この図21のフローは、受付処理の制御手順とは特に関係なく、主として上記撮像90の画像認識、及び、遅延量の決定に関する処理の制御手順を表す。なお、これら図20及び図21の2つのフローは、前述の来訪者受付処理用のプログラム群に従って、CPU201によって同時並行処理される。その際、上記2つのフローは、例えば、コンピュータのOS等でしばしば行われる「マルチタスク処理」と同様の公知の手法で実行される。
図21において、例えば受付端末20の電源がONされることにより、図中「START」位置で表されるように、このフローが開始される。
まずステップS200で、CPU201は、所定の初期化処理を実行する。このとき、CPU201は、遅延量が決定されたことを表すフラグFnを、Fn=0へ併せて初期化する。
その後、ステップS205で、CPU201は、上記フラグFsがFs=1であるかどうかを判定する。前述したように、上記図20のステップS15で来訪者30により受付開始ボタンが押下され受付処理が開始されるとFs=1となる。このようにしてFs=1となるまでステップS205の判定が満たされず、ループして待機する。そして、Fs=1になったら、ステップS205の判定が満たされ、ステップS210に移る。
ステップS210では、CPU201は、I/Oインタフェイス204を介しカメラ209に制御信号を出力する。これにより、カメラ209は、上記画角での撮影を行う。
そして、ステップS215で、CPU201は、カメラ209及びI/Oインタフェイス204を介し、上記ステップS210でのカメラ209による撮像90を取得し、例えばRAM203に保存する。
その後、ステップS220で、CPU201は、上記ステップS215で取得された撮像90に対して、公知の方法により顔認識を行う。例えば、CPU201が、HDD150の前述の顔データベースにアクセスし、複数の人間の顔データを取得し、当該顔データと、上記ステップS215で取得されたカメラ209による撮像90内の画像とを照合する。そして、CPU201は、照合が合致又は適合した場合に人間の顔として認識し、その認識できた画像を検出する。
そして、ステップS225で、CPU201は、上記ステップS220において顔認識ができたかどうか、すなわち、人間の顔として認識できた画像の検出ができたかどうかを判定する。顔認識ができた場合にはステップS225の判定が満たされて、ステップS230に移る。ステップS230では、CPU201は、上記顔として認識できた画像を含む所定の範囲に対し、上記顔認識領域31を設定する。その後、ステップS235に移る。
ステップS235では、CPU201は、上記ステップS230で設定された顔認識領域31の面積SMを算出する。
その後、ステップS240で、CPU201は、上記ステップS235において算出された顔認識領域31の面積SMが、上記面積しきい値SM0よりも大きいかどうかを判定する。SM>SM0である場合には、判定が満たされてステップS245に移る。ステップS245では、CPU201は、上記顔認識領域31の下半分領域に対し、上記口認識領域32を設定する。その後、ステップS250に移る。
ステップS250では、CPU201は、上記ステップS245で設定された口認識領域32が、前述したように予め区分して設定された複数の撮像エリアAr1〜Ar16のうち、いずれの撮像エリアArに位置するかを検出する。
そして、ステップS255で、CPU201は、上記ステップS250において、上記口認識領域32が、上記複数の撮像エリアAr1〜Ar16のうち、いずれかの撮像エリアArで検出できたかを判定する。上記口認識領域32が、いずれかの撮像エリアArで検出できていた場合には、ステップS255の判定が満たされてステップS260に移る。
ステップS260では、CPU201は、上記ステップS250での検出結果、すなわち上記口認識領域32がいずれかの撮像エリアArで検出できたことを表す「成功」と、上記検出された撮像エリアArとを、上記ステップS210でのカメラ209による撮像時刻と対応付けて、上記画像認識履歴テーブル2030に記憶させる。
その後、ステップS265で、CPU201は、DBサーバ10の遅延量データベースにアクセスする。そして、CPU201は、前述の遅延量テーブル(図14、図15、図16、図17参照)を参照し、上記ステップS250において口認識領域32が検出された撮像エリアArに対応した、遅延量τB,τC,τD,τAを、取得する。
一方、上記ステップS220で顔認識ができず、ステップS225の判定が満たされなかった場合は、ステップS270に移る。あるいは、上記ステップS235で算出された顔認識領域31の面積SMが上記面積しきい値SM0以下であり、ステップS240の判定が満たされなかった場合も、ステップS270に移る。さらに、上記ステップS250で口認識領域32がいずれの撮像エリアArでも検出できず、ステップS255の判定が満たされなかった場合も、ステップS270に移る。
ステップS270では、CPU201は、上記口認識領域32がいずれの撮像エリアArでも検出できなかったことを表す「失敗」を、上記ステップS210でのカメラ209による撮像時刻と対応付けて、上記画像認識履歴テーブル2030に記憶させる。
そして、ステップS275で、CPU201は、上記フラグFnがFn=1であるかどうかを判定する。まだ後述のステップS290においてCPU201が用いる遅延量τが決定されておらずFn=0である場合には、ステップS290の判定が満たされない。この場合、後述のステップS305に移る。一方、後述のステップS290でCPU201が用いる遅延量τが決定され、Fn=1であった場合には、ステップS275の判定が満たされる。この場合、ステップS280に移る。
ステップS280では、CPU201は、前述の画像認識履歴テーブル2030の記憶内容を参照する。そして、CPU201は、上記口認識領域32がいずれの撮像エリアArでも検出できなかったことを表す「失敗」が、所定時間、前述の例では10秒間継続したかどうかを判定する。言い換えれば、このステップS280では、上記画角に含まれる来訪者30の口30Mの位置に対応した口認識領域32の非検出状態が、上記所定時間継続したかどうかをCPU201が判定する。口認識領域32の非検出状態が、上記所定時間継続するまではステップS280の判定が満たされず、ステップS285に移る。
ステップS285では、CPU201は、DBサーバ10の遅延量データベースにアクセスする。そして、CPU201は、前述の遅延量テーブル(図14、図15、図16、図17参照)を参照し、最後に、上記ステップS260において画像認識履歴テーブル2030に記憶された撮像エリアArに対応した、遅延量τB,τC,τD,τAを、取得する。
その後、ステップS290で、CPU201は、上記ステップS265又は上記ステップS285において取得された遅延量τB,τC,τD,τAを、上記図20のステップS35及びステップS65においてCPU201が音情報の加工に用いる遅延量に決定し、例えばRAM203に保存する。
そして、ステップS295で、CPU201は、上記フラグFnを、CPU201が用いる遅延量が決定されたことを表すFn=1とする。その後、後述のステップS305に移る。
一方、上記ステップS280において、上記口認識領域32の非検出状態が、上記所定時間継続していた場合には、ステップS280の判定が満たされて、ステップS300に移る。ステップS300では、CPU201は、上記画像認識履歴テーブル2030を初期化した後、ステップS305に移る。
ステップS305では、CPU201は、上記フラグFsがFs=0になったかどうかを判定する。受付処理が実行中でありFs=1である場合には、ステップS305の判定が満たされず上記ステップS210に戻り、同様の手順を繰り返す。受付処理が終了しておりFs=0である場合にはステップS305の判定が満たされ、ステップS310に移る。
ステップS310では、CPU201は、上記フラグFnをFn=0とする。その後、このフローを終了する。
上記において、図20に示すステップS30及びステップS60が、各請求項記載の音取得手段として機能する。また、図20に示すステップS40及びステップS70が、音声認識手段として機能する。また、図21に示すステップS250が、口位置検出手段として機能する。また、図20に示すステップS35及びステップS65が、音加工手段として機能する。また、図21に示すステップS290が、遅延量決定手段として機能する。
また、図21に示すステップS240が開始制御手段として機能する。また、図21に示すステップS280及びステップS285が継続制御手段として機能する。
以上説明したように、本実施形態の受付端末20においては、来訪者30が受付端末20に対して発話すると、来訪者30の口30Mから発声された発話音声が複数のマイク207A〜207Dにそれぞれ入力される。そして、複数のマイク207A〜207Dからそれぞれ入力された複数の音に基づき、CPU201が、複数の音情報をそれぞれ取得する。その後、CPU201は、その音情報に基づいた音声認識を実行し、これによって来訪者30の発話内容を検出し、所定の受付処理を行う。この際、各マイク207A〜207Dには、受付処理の対象である来訪者30の口30Mからの発話音声以外にも、雑音等の周囲音が混入する形で入力される。
このとき、本実施形態では、カメラ209が、上記来訪者30を含むような上記画角にて撮影を行う。そして、CPU201は、その撮像90を画像認識して、来訪者30の口30Mの位置が受付端末20側から見てどこにあるかを検出する。前述の例では、CPU201は、口認識領域32がどの撮像エリアArに位置するかを検出することにより、口30Mの位置を検出する。これにより、CPU201は、複数のマイク207A〜207Dのうち、上記口30Mの位置に最も近い第1マイク207を判別する。この結果、CPU201は、上記第1マイク207を介して取得された第1音情報を、それ以外の第2マイク207を介して取得された第2音情報よりも強調するような加工を行うことができる(ステップS35、ステップS65参照)。そして、CPU201は、その加工後の第1音情報及び第2音情報を用いて音声認識を行う(ステップS40、ステップS70参照)。
上記のように、第1マイク207での入力に対応した第1音情報を強調した後に音声認識を行うことにより、CPU201は、来訪者30の発話音声をそれ以外の音声から明確に区別した形で適切な音声認識を行うことができる。また、来訪者30の口30Mの位置がカメラ209の画角内で移動した場合でも、その移動に追従した形で音情報を強調するマイク207を切り替えつつ、音情報の加工を行うことができる。以上の結果、受付処理における音声認識精度を向上することができ、受付処理の効率化や正確性の向上を図ることができる。
また、本実施形態では特に、CPU201が、来訪者30の口30Mからの発話音声がマイク207A〜207Dに入力するときの音声到来角度θと、複数のマイク207A〜207Dそれぞれの間の距離dとに対応した、音情報の加工に用いる遅延量τを決定する(ステップS290参照)。これにより、CPU201は、上記算出された遅延量τを加味して第1音情報及び第2音情報の加工を行い、それら第1音情報及び第2音情報の位相差を低減し同相化する(ステップS35及びステップS65参照)。なお、前述のように、上記第1音情報についての遅延量τは0であるので実質的に加工されていない。この結果、第1マイク207に係わる第1音情報を、第2マイク207に係わる第2音情報よりも強調することができる。
また、本実施形態では特に、上記画角での来訪者30の口30Mの位置、上記の例では口認識領域32が位置する撮像エリアAr1〜Ar16と、対応する遅延量τB,τC,τD,τAとの相関が遅延量テーブルとして予め遅延量データベースに記憶されている。そして、CPU201は、実際に口認識領域32が位置する撮像エリアArに基づき、遅延量テーブルを参照し、対応する遅延量τB,τC,τD,τAを参照して用いる(ステップS265、ステップS290)。これにより、後述の変形例(4)のように複数のマイク207A〜207Dそれぞれに係わる音情報に対し相関演算を行って遅延量τを算出する場合に比べ、演算処理を簡素化し、処理時間を短縮することができる。
また、本実施形態では特に、上記画角に含まれる来訪者30の像30′に対応した、上記の例では来訪者30の顔面30Fの像30F′に対応した、顔認識領域31の面積SMが、上記面積しきい値SM0よりも大きくなった場合に、CPU201は、上記第1音情報及び第2音情報の加工を開始する(ステップS240参照)。これにより、受付処理を行うべき来訪者30がある程度受付端末20に接近してから、上記加工を開始することができるので、CPU201による、無人状態での無駄な音情報の加工動作を防止することができる。
また、本実施形態では特に、音情報の加工が開始された後、上記画角に含まれる来訪者30の口30Mの位置が、上記の例では口認識領域32が、検出されなくなった場合でも、その非検出状態が上記所定時間継続するまでは上記加工を続行する(ステップS280、ステップS285参照)。これにより、上記画角内にて顔を認識されている来訪者30が、一時的に床に視線を落としたり横を向いたりした場合でも、その来訪者30がすぐに元のカメラ209への正対状態に復帰した場合には、上記加工を中断せず引き続き継続することができる。この結果、このような場合におけるCPU201の音情報の加工動作中断、及び、音情報の加工動作再開の繰り返しを防止し、円滑な加工動作を確保することができる。
なお、本発明は、上記実施形態に限られるものではない。本発明は、趣旨や技術的思想を逸脱しない範囲内で、種々の変形が可能である。以下、そのような変形例を順を追って説明する。
(1)来訪者が受付端末にある程度接近したらカメラによる撮像を開始する場合
上記実施形態では、受付開始ボタンを来訪者30が手動操作した場合に、カメラ209が撮像を開始したが、これに限られない。すなわち、周知の人感センサを用いて来訪者30を検出し、来訪者30が受付端末20にある程度接近した場合に、カメラ209が撮像を開始するようにしてもよい。
本変形例においては、受付端末20と来訪者30との距離を、図示しない人感センサ(以下適宜、単に「センサ」と称する)が検出する。そして、検出した距離が所定値、この例では1[m]以下になった場合に、前述の受付処理、及び、カメラ209による上記画角における画像の撮像が開始される。
図22は、本変形例の受付端末20のCPU201が、上記受付処理及び音情報の加工のために実行する制御手順を表すフローチャートである。この図22は、前述の図20に対応する図である。図22において、図20と同等の手順には同符号を付し説明を省略する。
図22に示すフローが前述の図20と異なる点は、ステップS10及びステップS15に代えて、ステップS12及びステップS17を新たに設けた点である。
すなわち、ステップS5は、前述の図20と同様であり、CPU201が所定の初期化処理を実行したら、新たに設けたステップS12に移る。
ステップS12では、CPU201がセンサに制御信号を出力する。これにより、センサは、受付端末20から来訪者30までの距離を検出する。例えばセンサは、超音波パルスを対象物、すなわち来訪者30に対して出力し、来訪者30での反射波を探知する。そして、CPU201は、センサが上記超音波パルスを出力してからセンサが反射波を入力するまでの伝達時間を算出する。この算出された時間により、CPU201は、来訪者30までの距離を検出する。
そして、新たに設けたステップS17で、CPU201は、上記ステップS12で検出された受付端末20から来訪者30までの距離が、1[m]以下になったかどうかを判定する。来訪者30までの距離が1[m]以下になるまではステップS17の判定が満たされず、ループ待機する。来訪者30までの距離が1[m]以下になったらステップS17の判定が満たされて、ステップS20に移る。
その後のステップS20以降の手順は、前述の図20と同様であるので、説明を省略する。また、本変形例の受付端末20のCPU201が、上記撮像90の画像認識、及び、遅延量の決定に関する処理のために実行する制御手順は、前述の図21のフローと同様であり、説明を省略する。
本変形例によっても、上記実施形態と同様の効果を得る。
(2)来訪者の性別・年齢を加味した音情報の加工を行う場合
本変形例では、受付端末20は、カメラ209による撮像90を画像認識し、来訪者30の性別・年齢を判定する。そして、受付端末20は、上記判定された性別・年齢に対応した音状態量の加工態様、例えば男性であれば低音域を強調した態様、女性や子供であれば高音域を強調した態様となるように、音情報を加工する。
図23は、本変形例において、受付端末20のCPU201が実行する、カメラの撮像の画像認識及び遅延量の決定に関する処理の制御手順を表すフローチャートである。図23は、前述の図21に対応する図である。図23において、図21と同等の手順には同符号を付し説明を省略する。
図23に示すフローが前述の図21と異なる点は、ステップS240とステップS245との間に、ステップS242及びステップS244を新たに設けた点である。
すなわち、ステップS200〜ステップS240は、前述の図21と同様である。ステップS240において、CPU201がSM>SM0かどうかを判定し、SM>SM0であればステップS240の判定が満たされて、新たに設けたステップS242に移る。
ステップS242では、CPU201は、前述のステップS210で取得された撮像90の画像認識結果に基づき、例えば公知のHaar−like featureと呼ばれる特徴要素に基づき、上記画角に含まれる来訪者30の性別及び年齢、この例では来訪者30が男性であるか、又は女性であるか、あるいは子供であるのかを判定する。なお、このステップが、各請求項記載の人物判定手段として機能する。
そして、新たに設けたステップS244で、CPU201は、上記ステップS242の判断結果に基づき、強調する音状態量の、この例では周波数の、加工態様を設定する。具体的には、上記ステップS242において来訪者30が男性であると判断された場合には、CPU201は、強調する周波数を例えば約120[Hz]に設定する。上記ステップS242において来訪者30が女性であると判断された場合には、CPU201は、強調する周波数を例えば約225[Hz]に設定する。上記ステップS242において来訪者30が子供であると判断された場合には、CPU201は、強調する周波数を例えば約300[Hz]に設定する。
その後のステップS245以降の手順は、前述の図21と同様であるので、説明を省略する。
ここで、本変形例の受付端末20のCPU201が、上記受付処理及び音情報の加工のために実行する制御手順が、前述の図20のフローと異なる点は、ステップS35及びステップS65の内容である。すなわち、本変形例におけるステップS35及びステップS65では、CPU201は、上記ステップS244で設定された周波数を強調しつつ、前述のステップS290で決定された遅延量τを用いて加工を行い、上記第1音情報が上記第2音情報よりも強調された新たな音情報を生成する。なお、上記ステップS244で強調する周波数が設定されていない場合、及び、前述のステップS290の手順が実行されていない場合には、上記のような音情報の加工を行わず、上記取得された音に対応した音情報をそのまま用いて新たな音情報を生成する。
なお、本変形例においても、前述のステップS35及びステップS65が、音加工手段として機能する。
本変形例によれば、COU201が、画像認識結果に基づき、上記画角に含まれる来訪者30の性別及び年齢、上記の例では来訪者30が男性であるか、又は女性であるか、あるいは子供であるかを判定する。そして、その判定結果に対応した周波数の加工態様となるようにしつつ、上記第1音情報及び第2音情報を加工する。これにより、来訪者30が男性であれば低音域を強調するような加工を行い、来訪者30が女性や子供であれば高音域を強調するような加工を行う等、性別や年齢固有の声質に対応し、さらにきめ細かい音声認識処理を行うことができる。
なお、上記(2)の変形例においては、カメラ209による撮像90を画像認識することで、CPU201が、来訪者30の性別及び年齢を判定したが、これに限られない。すなわち、各マイク207を介して取得された音情報の基本周波数に基づき、CPU201が、当該来訪者30の性別及び年齢を判定してもよい。この場合も、上記(2)の変形例と同様の効果を得る。
(3)遅延量テーブルを用いず、相関計算を行う場合
以上においては、遅延量テーブルを予め用意しておき、口認識領域32が存在する撮像エリアArに基づいて、CPU201が、対応する遅延量τB,τC,τD,τAを取得して用いた。しかしながら、このような遅延量テーブルを用いず、通常のアレーマイク制御と同様の相関演算により、遅延量τをその都度算出するようにしてもよい。
すなわち、本変形例では、CPU201が、マイク207A,207B,207C,207Dのそれぞれを介し、所定のサンプリング周期で音情報を取得する。このとき、これらマイク207A,207B,207C,207Dを介し取得される音情報のデータ列は、下記の式で表される。
・・・(式4)
前述のように、各マイク207A〜207Dにより取得される上記データ列には、発話音声以外の周囲音等に基づく音情報もそれぞれ含まれる。しかしながら、それらデータ列には、発話音声に基づく音情報も少なくとも含まれる。したがって、本変形例の受付端末20は、マイク207Aに係わる上記データ列、マイク207Bに係わる上記データ列、マイク207Cに係わる上記データ列、マイク207Dに係わる上記データ列の、合計4つのデータ列に対し公知の相関演算を適用し、相関が高いデータを抽出する。なお、このときの相関演算及びデータ抽出が、本変形例における音加工手段として機能する。そして、上記抽出されたデータは、発話音声に基づく音情報である可能性が高い。そこで、本変形例の受付端末20は、このデータに下記の式による逆演算を行う。
・・・(式5)
この(式5)を用いた逆演算を行うことにより、前述の発話音声による音声到来角度θを求めることができる。前述したようにマイク207A〜207D相互間の上記距離dは既知であるから、上記(式2)に基づき、音声到来角度θにより遅延量τを得る。この遅延量τの取得が、遅延量決定手段として機能する。このようにして決定した遅延量τを用いた第1音情報及び第2音情報の加工は、既に述べた手法と同様にして行うので、説明を省略する。
ここで、上記(式4)の演算においては、時間j、即ち遅延量をシフトして相関値を求める。ここで、本変形例では、図21のステップS250で説明したように、カメラ209の撮像結果の画像認識に基づき口30Mの像30M′の位置を検出できるので、上記のシフト量を制限することが可能である。このような制限を行わない場合、仮に発話音よりノイズや外乱音がレベルが大きかったとすると、誤った相関値検出を行うおそれがある。しかしながら、上記のようにして画像認識に基づくシフト量を制限することにより、発話音声の到来方向に対しての最大相関値を誤りなく求めることができる。したがって、相関演算の処理時間を減らすことができるとともに、誤った音声到来角度θの算出を防止することができる。
(4)カメラを随時動作させる場合
以上においては、来訪者30による上記受付開始ボタンの手動操作やセンサによる来訪者30の検出によって、複数のシナリオに沿った受付処理と、カメラ209による撮像を開始したが、これに限られない。すなわち、カメラ209が所定の時間間隔、例えば1秒間隔で上記画角における画像を撮影する。そして、その撮像90を受付端末20が画像認識し、来訪者30の顔面30Fの像30F′の面積SMが上記面積しきい値SM0よりも大きくなった場合に、受付端末20が前述の受付処理や音情報の加工を開始するようにしてもよい。この場合も、上記実施形態や各変形例と同様の効果を得る。
(5)システム構成のバリエーション
上記来訪者受付システム1においては、来訪者30の受付処理や音情報の加工が行われる受付端末20と、DBサーバ10とは、別個の装置であった。しかしながら、これに限られず、撮像手段及び複数の音声入力手段等を備えたサーバを会社の入口付近に設置し、サーバのみで、受付処理及び音情報の加工のすべてを行うようにしてもよい。また、遅延量データベース等、HDD150に記憶されている情報を、受付端末20側のHDD205に記憶するようにしてもよい。この場合、受付端末20のHDD205が各請求項記載の遅延量記憶手段を構成する。さらにはネットワークを介して受付端末20に接続可能な別個の記憶装置に記憶させておき、受付処理や音情報の加工中に、必要な情報を読み出す構成としてもよい。この場合、当該別個の記憶装置が各請求項記載の遅延量記憶手段を構成する。これらの場合も上記実施形態と同様の効果を得る。
なお、以上において、各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。
また、各図のフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。
20 受付端末(受付装置)
30 来訪者(特定の1人のユーザ、ユーザ)
30′ 来訪者の像(ユーザの像)
30F 顔面
30M 口
31 顔認識領域
32 口認識領域
90 撮像結果
150 ハードディスク装置(遅延量記憶手段)
207A〜D マイク(音声入力手段)
208 スピーカ
209 カメラ(撮像手段)
210 タッチパネル

Claims (6)

  1. ユーザに対し、予め定められた複数の処理手順に沿った受付処理を行う受付装置であって、
    所定の画角における画像を撮影する撮像手段と、
    前記撮像手段による撮像結果を画像認識し、前記画角に含まれる特定の1人の前記ユーザの顔面の発話位置を検出する口位置検出手段と、
    前記ユーザの発話音声を入力可能な複数の音声入力手段と、
    前記複数の音声入力手段を介しそれぞれ入力された複数の音により、対応する振幅あるいは周波数を含む複数の音情報をそれぞれ取得する音取得手段と、
    前記複数の音声入力手段のうち、前記口位置検出手段により検出された前記発話位置に近い第1音声入力手段により入力された音に対応した第1音情報を、前記第1音声入力手段以外の第2音声入力手段により入力された音に対応した第2音情報よりも強調するように、所定の加工用係数を用いて少なくとも前記第1音情報又は前記第2音情報を加工する音加工手段と、
    前記音加工手段により加工された後の、前記第1音情報又は前記第2音情報を用いて、前記受付処理のための音声認識を行う音声認識手段と
    を有することを特徴とする受付装置。
  2. 前記画角に含まれる前記特定の1人の前記ユーザの像の大きさと前記画角での前記発話位置とに対応した、前記特定の1人の前記ユーザの前記発話位置から発話された発話音声が前記複数の音声入力手段にそれぞれ入力される角度と、前記複数の音声入力手段それぞれの間の距離とに基づく、前記音加工手段が前記加工に用いる前記加工用係数としての遅延量を決定する遅延量決定手段をさらに備え、
    前記音加工手段は、
    前記遅延量決定手段により決定された前記遅延量を用いて少なくとも前記第1音情報又は前記第2音情報を加工する
    ことを特徴とする請求項1記載の受付装置。
  3. 前記画角での前記発話位置と、対応する前記遅延量との相関を記憶した遅延量記憶手段をさらに備え、
    前記遅延量決定手段は、
    前記口位置検出手段により検出された前記画角での前記発話位置に対応した前記遅延量を前記遅延量記憶手段より取得し、当該取得した遅延量を前記音加工手段が前記加工に用いる前記遅延量として決定し、
    前記音加工手段は、
    前記遅延量決定手段により決定された前記遅延量を用いて少なくとも前記第1音情報又は前記第2音情報を加工する
    ことを特徴とする請求項1記載の受付装置。
  4. 前記撮像手段による前記撮像結果を画像認識し、前記画角に含まれる前記特定の1人の前記ユーザの像の大きさが所定のしきい値よりも大きくなった場合に前記第1音情報又は前記第2音情報の加工を開始するように、前記音加工手段を制御する開始制御手段を有する
    ことを特徴とする請求項1乃至請求項3のいずれか1項記載の受付装置。
  5. 前記第1音情報又は前記第2音情報の加工が開始された後、前記画角に含まれる前記特定の1人の前記ユーザの前記発話位置が前記口位置検出手段により検出されなくなった場合でも、その非検出状態が所定時間継続するまでは、前記第1音情報又は前記第2音情報の加工を続行するように、前記音加工手段を制御する継続制御手段を有する
    ことを特徴とする請求項4記載の受付装置。
  6. 前記撮像手段による前記撮像結果を画像認識し、前記画角に含まれる前記特定の1人の前記ユーザの性別及び年齢の少なくとも一方を判定する人物判定手段をさらに備え、
    前記音加工手段は、
    前記人物判定手段により判定された前記性別又は前記年齢に対応した音状態量の加工態様となるようにしつつ、少なくとも前記第1音情報又は前記第2音情報を加工する
    ことを特徴とする請求項1乃至請求項5のいずれか1項記載の受付装置。
JP2009193983A 2009-08-25 2009-08-25 受付装置 Pending JP2011049625A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009193983A JP2011049625A (ja) 2009-08-25 2009-08-25 受付装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009193983A JP2011049625A (ja) 2009-08-25 2009-08-25 受付装置

Publications (1)

Publication Number Publication Date
JP2011049625A true JP2011049625A (ja) 2011-03-10

Family

ID=43835568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009193983A Pending JP2011049625A (ja) 2009-08-25 2009-08-25 受付装置

Country Status (1)

Country Link
JP (1) JP2011049625A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104541356A (zh) * 2012-08-07 2015-04-22 积水化学工业株式会社 晶片的处理方法
JP2015228559A (ja) * 2014-05-30 2015-12-17 株式会社フォーバルテレコム Ip電話システム
JP2019054470A (ja) * 2017-09-19 2019-04-04 株式会社サテライトオフィス 携帯移動端末用アプリケーションソフトウェア
CN110210196A (zh) * 2019-05-08 2019-09-06 北京地平线机器人技术研发有限公司 身份认证方法及装置
JP2019186649A (ja) * 2018-04-04 2019-10-24 パナソニックIpマネジメント株式会社 インターホン装置、インターホンシステム、情報端末、処理方法及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104541356A (zh) * 2012-08-07 2015-04-22 积水化学工业株式会社 晶片的处理方法
JP2015228559A (ja) * 2014-05-30 2015-12-17 株式会社フォーバルテレコム Ip電話システム
JP2019054470A (ja) * 2017-09-19 2019-04-04 株式会社サテライトオフィス 携帯移動端末用アプリケーションソフトウェア
JP7030288B2 (ja) 2017-09-19 2022-03-07 株式会社サテライトオフィス 携帯移動端末用アプリケーションソフトウェア
JP2019186649A (ja) * 2018-04-04 2019-10-24 パナソニックIpマネジメント株式会社 インターホン装置、インターホンシステム、情報端末、処理方法及びプログラム
JP7042440B2 (ja) 2018-04-04 2022-03-28 パナソニックIpマネジメント株式会社 インターホン装置、インターホンシステム、情報端末、処理方法及びプログラム
CN110210196A (zh) * 2019-05-08 2019-09-06 北京地平线机器人技术研发有限公司 身份认证方法及装置
CN110210196B (zh) * 2019-05-08 2023-01-06 北京地平线机器人技术研发有限公司 身份认证方法及装置

Similar Documents

Publication Publication Date Title
US11875820B1 (en) Context driven device arbitration
US10019992B2 (en) Speech-controlled actions based on keywords and context thereof
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5201050B2 (ja) 会議支援装置、会議支援方法、会議システム、会議支援プログラム
US20190279642A1 (en) System and method for speech understanding via integrated audio and visual based speech recognition
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
JP4462339B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20150331490A1 (en) Voice recognition device, voice recognition method, and program
CN110741433A (zh) 使用多个计算设备的对讲式通信
EP3655863A1 (en) Automatic integration of image capture and recognition in a voice-based query to understand intent
CN106157956A (zh) 语音识别的方法及装置
JP2013519135A (ja) 音声−体識別の相関
JP2010066519A (ja) 音声対話装置、音声対話方法、および音声対話プログラム
JP2007264473A (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2011049625A (ja) 受付装置
CN111048113A (zh) 声音方向定位处理方法、装置、系统、计算机设备及存储介质
JP2007257088A (ja) ロボット装置及びそのコミュニケーション方法
WO2018000207A1 (zh) 基于单意图的技能包并行执行管理方法、系统及机器人
WO2019171780A1 (ja) 個人識別装置および特徴収集装置
WO2021166811A1 (ja) 情報処理装置および行動モード設定方法
KR102433964B1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
JP2012118679A (ja) 情報処理装置、単語判別装置、画面表示操作装置、単語登録装置およびこれらに関する方法ならびにプログラム
JP2021076715A (ja) 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム
JP2017191531A (ja) コミュニケーションシステム、サーバ及びコミュニケーション方法
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム