以下に説明する実施形態及び変形例は、本開示の一例に過ぎず、本開示は、実施形態及び変形例に限定されない。以下の実施形態及び変形例以外であっても、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。
(実施形態)
以下、本実施形態に係るインターホン装置として動作する情報端末10を備えるインターホンシステム1について、図1〜図4Bを用いて説明する。
(1)概要
以下、本実施形態に係る情報端末10について、説明する。
本実施形態に係る情報端末10は、図2に示すように、インターホンシステム1に適用される。インターホンシステム1は、例えば、マンション等の集合住宅5に適用される。本実施形態に係るインターホンシステム1は、情報端末10を備える。本実施形態では、インターホンシステム1は、各々がインターホン装置として動作する複数(図2では2つ)の情報端末10を備える。インターホンシステム1は、ロビーインターホン20(インターホン玄関装置)と、制御装置30と、複数(図2では2つ)の玄関子機40(インターホン玄関装置)とを、更に備える。インターホンシステム1では、複数の情報端末10の各々とロビーインターホン20とが制御装置30を介して通信を行うように構成されている。また、インターホンシステム1では、複数の情報端末10と複数の玄関子機40とが一対一に対応している。なお、本実施形態に係るインターホンシステム1は、集合住宅5以外に、戸建住宅に適用されてもよい。あるいは、インターホンシステム1は、事務所、店舗、学校若しくは介護施設等の非住宅施設等に適用されてもよい。
複数の情報端末10の各々は、例えば、集合住宅5に含まれる複数の住戸E2の各々に設けられている住戸端末(インターホン親機)である。各情報端末10は、例えば、各住戸E2の内玄関に設けられている。各情報端末10は、第2幹線62、分岐線63、及び分岐器50を介して制御装置30に接続されている。各情報端末10は、制御装置30を介して、ロビーインターホン20との間で通信(例えば、通話、及び制御信号の送信等)を行うように構成されている。さらに、各情報端末10は、接続線64を介して対応する玄関子機40に接続されている。各情報端末10は、対応する玄関子機40との間で通信(例えば、通話、及び制御信号の送信等)を行うように構成されている。
ロビーインターホン20は、例えば、集合住宅5の共用玄関(ロビー)E1に設けられている。ロビーインターホン20は、第1幹線61を介して制御装置30に接続されている。ロビーインターホン20は、制御装置30を介して、各情報端末10との間で通信(例えば、通話、及び映像信号の送信等)を行うように構成されている。ロビーインターホン20は、例えば、共用玄関E1の壁に取り付けられている。ロビーインターホン20が映像信号を情報端末10に送信することで、情報端末10は、映像(画像)を表示することができる。
制御装置30は、例えば、集合住宅5の管理室E3に設けられている。制御装置30は、第1幹線61を介してロビーインターホン20に接続され、かつ第2幹線62を介して各情報端末10に接続されている。つまり、制御装置30は、各情報端末10とロビーインターホン20との間の通信を中継するように構成されている。
複数の玄関子機40の各々は、例えば、集合住宅5の住戸E2の外玄関に設けられている。各玄関子機40は、接続線64を介して対応する情報端末10に接続されている。各玄関子機40は、対応する情報端末10との間で通信(例えば、通話、映像信号の送信等)を行うように構成されている。
本実施形態では、第1幹線61、第2幹線62、分岐線63、及び接続線64は、いずれもツイストペア線である。つまり、実際には、第1幹線61、第2幹線62、分岐線63、及び接続線64は2本の電線で構成されるが、図面上は1本の線で表している。第1幹線61、第2幹線62、分岐線63、及び接続線64の少なくとも1つはツイストペア線以外の電線であってもよい。
本実施形態に係る情報端末10は、情報端末10に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。ここで、ユーザは、例えば、住戸E2の住人である。また、受話は、情報端末10が受け取るユーザの音声を含む。発話は、情報端末10がユーザに対して出力する音声を含む。ユーザに対して出力する音声の送信元は、例えば、集合住宅5への訪問者であるが、ロビーインターホン20又は玄関子機40から各住戸E2のユーザを呼び出す者であればよく、外出先から帰宅した各住戸E2の住人(呼出対象のユーザとは異なるユーザ)等であってもよい。
本実施形態に係る情報端末10では、情報端末10に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。そのため、情報端末10は、適切な音声を、通信対象の機器(ロビーインターホン20、玄関子機40)に出力、又はユーザに対して出力することができる。例えば、ユーザが情報端末10から離れた位置でロビーインターホン20から呼び出しに対応する場合、情報端末10がユーザから受け取る音声が小さくても適切な音量に調整してロビーインターホン20に出力することができる。
(2)構成
(2−1)情報端末
情報端末10は、図1に示すように、第1通信部11、第2通信部12、音取得部13、操作部14、出力部15、表示部16、記憶部17及び制御部18を備える。
情報端末10は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部18として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。
第1通信部11は、ロビーインターホン20(の通信部21)と通信するための通信インタフェースである。第1通信部11は、第2幹線62、分岐線63、及び分岐器50を介して制御装置30に接続されている。第1通信部11は、制御装置30を介して、ロビーインターホン20に対して音声信号、及び制御信号等を送信する。さらに、第1通信部11は、制御装置30を介して、ロビーインターホン20から音声信号、及び映像信号等を受信する。
第2通信部12は、玄関子機40と通信するための通信インタフェースである。第2通信部12は、接続線64を介して玄関子機40に接続されている。第2通信部12は、玄関子機40に対して音声信号、及び制御信号等を送信し、玄関子機40から音声信号、及び映像信号等を受信する。
音取得部13は、少なくともユーザの音声を含む音を取得し、取得した音に係る音情報を制御部18に出力する。音取得部13は、複数のマイクロホンを有している。複数のマイクロホンの各々は、指向性を有するマイクロホンである。本実施形態では、音取得部13は、図1に示すように、2つのマイクロホン(第1マイクロホン131及び第2マイクロホン132)を有している。第1マイクロホン131及び第2マイクロホン132は、水平方向(左右方向)及び鉛直方向(上下方向)の少なくとも一方において指向性を有している。第1マイクロホン131及び第2マイクロホン132は、左右方向に沿って並べられて配置されている。第1マイクロホン131及び第2マイクロホン132は、情報端末10の前方に位置するユーザの音声(音)を含む周囲の音を取得し、取得した音をアナログの音信号(音情報)に変換して制御部18に出力する。
操作部14は、ユーザ(例えば、各住戸E2の住人等)の操作を受け付けるように構成されている。操作部14は、少なくとも通話ボタンを有している。通話ボタンは、ロビーインターホン20、又は玄関子機40からの呼び出しに対して、ロビーインターホン20、又は玄関子機40との通信(訪問者等との通話)を開始するためのボタンである。つまり、第1通信部11が住人を呼び出すための呼出信号を受信している状態で通話ボタンが押されると、ロビーインターホン20、又は玄関子機40と情報端末10との間で音声通話が可能になる。
出力部15は、例えばスピーカである。出力部15は、情報端末10がロビーインターホン20と通話可能な状態である場合には、ロビーインターホン20から送信された音データに基づいた音(訪問者等の音声を含む)を出力する。出力部15は、情報端末10が玄関子機40と通話可能な状態である場合には、玄関子機40から送信された音データに基づいた音(訪問者等の音声を含む)を出力する。
表示部16は、例えば、液晶ディスプレイである。表示部16は、映像を表示するように構成されている。表示部16は、情報端末10がロビーインターホン20と通話(通信)可能な状態である場合に、通信対象であるロビーインターホン20が撮像した映像を表示する。表示部16は、情報端末10が玄関子機40と通話(通信)可能な状態である場合に、通信対象である玄関子機40が撮像した映像を表示する。なお、情報端末10がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部16と操作部14とを兼ねてもよい。
記憶部17は、読み書き可能なメモリで構成されている。記憶部17は、例えば、フラッシュメモリである。記憶部17は、例えば、情報端末10とユーザとの距離を推定するための基準となる基準情報を記憶する。基準情報は、例えば、定常位置からユーザが発した音声が情報端末10に入力された場合における信号の強度を表す入力レベルを含む。入力レベルを表す単位は、例えば[dBspl]、[dBm]である。
制御部18は、図1に示すように、音声処理部181、音声認識部182、制御処理部183、表示処理部184及び送出部185を有している。
音声処理部181は、音取得部13が取得した音に対して、所定の条件に応じて音声調整処理を行う。ここで、所定の条件は、情報端末10に対するユーザの距離及び方向のうち少なくとも一方を含む。本実施形態では、所定の条件は、情報端末10に対するユーザの距離及び方向の双方を含む。以下、音声処理部181が行う音声調整処理についての具体例を記載する。
音声処理部181は、音取得部13が出力したアナログの音信号を取得する。音声処理部181は、取得したアナログの音信号を、デジタルの音信号に変換する。また、音声処理部181は、音取得部13から取得した音信号に対して所定のフィルタリング処理等を行うように構成されている。音声処理部181は、例えば複数のエコーキャンセラ(第1エコーキャンセラ、第2エコーキャンセラ)を含む。第1エコーキャンセラは、第1マイクロホン131から出力された音信号に対してエコーの抑制又は除去を行う。第2エコーキャンセラは、第2マイクロホンから出力された音信号に対してエコーの抑制又は除去を行う。
音声処理部181は、音取得部13が取得した音にユーザが発した所定のキーワードを含む場合に、情報端末10に対するユーザの距離及び方向を推定する。すなわち、音声処理部181は、ユーザが発した音声として所定のキーワードを音取得部13が取得することをトリガとし、所定の条件としての情報(距離、方向)の取得(推定)を実行する。
音声処理部181は、音取得部13が取得した音に係る音情報に基づいて、音声を発する人の方向を推定する。具体的には、音声処理部181は、第1信号と、第2信号との位相差に基づいて音声を発する人の方向を推定する。ここで、第1信号は、第1マイクロホン131から出力されたアナログの音信号に対するデジタルの音信号である。第2信号は、第2マイクロホン132から出力されたアナログの音信号に対するデジタルの音信号である。
音声処理部181は、方向に対する推定結果に基づいて、音取得部13による音の取得方向を制御する。具体的には、音声処理部181は、第1マイクロホン131及び第2マイクロホン132の各々から入力される音声信号に対して各種演算を行うことで、所望の方向の感度を高めた音声信号に変換する。これにより、所望の方向のS/N比が向上する。つまり、制御部18は、音声処理部181の推定結果に基づいて、各マイクロホンから入力される音に基づいて、音取得部13による音の取得方向を制御することができる。
音声処理部181は、例えばノイズサプレッサを含む。音声処理部181は、ゲイン調整された2つの信号を含む音の信号に対してノイズの抑制又は除去を行う。
音声処理部181は、記憶部17が記憶する基準情報を用いてユーザとの距離を推定する。音声処理部181は、音取得部13が取得した音に係る音信号(音情報)に対する信号レベル(強度)を測定する。例えば、音声処理部181は、信号レベル(強度)の計測として、音取得部13が取得した音に係る音信号の信号レベルの単位時間当たりの平均値を算出する。音声処理部181は、音信号の信号レベルが基準情報に含まれる入力レベル以上である場合には、情報端末10とユーザとの距離は近いと推定する。音声処理部181は、音取得部13が取得した音に係る信号(デジタルの音信号)の信号レベルが、基準情報に含まれる入力レベル未満である場合には、情報端末10とユーザとの距離は遠いと推定する。要するに、距離には、音取得部13が取得した音に基づいて推定される結果が含まれる。言い換えると、距離は、音取得部13が取得した音に基づいて推定される結果を含む。また、基準情報に含まれる入力レベルは、ユーザごとに異なってもよい。
音声処理部181は、情報端末10とユーザとの距離は近いと推定した場合、ユーザの音声の音量が小さくなるように音が入力されるゲインを小さくする。例えば、音声処理部181は、音が入力されるゲインが小さくなるように設定を変更する。
音声処理部181は、情報端末10とユーザとの距離は遠いと推定した場合、ユーザの音声の音量が大きくなるように音が入力されるゲインを大きくする。例えば、音声処理部181は、音が入力されるゲインが大きくなるように設定を変更する。
音声処理部181は、音取得部13が取得した音の信号レベルが基準情報に含まれる入力レベルと同じとなるように設定を変更する。
音声認識部182は、音声処理部181が処理した音に対して音声認識処理を行う。音声認識部182は、音声認識処理を行うことで、音声処理部181が処理した音に所定のキーワードが含まれるか否かを判断する。音声認識部182は、音声処理部181が処理した音に所定のキーワードが含まれると判断する場合には、音声処理部181に情報端末10に対するユーザの距離及び方向を推定するように指示する。
音声認識部182は、音声処理部181が処理した音に所定のキーワードが含まれると判断する場合には、通信対象のインターホン玄関装置(ロビーインターホン20、玄関子機40)との通信(通話)を開始するよう、情報端末10を制御する。
音声認識部182は、音声処理部181が処理した音に、インターホンシステム1における制御に係るキーワード(制御用ワード)が含まれるか否かを判断する。
制御処理部183は、音声認識部182による上記判断の結果に応じて、インターホンシステム1における制御に係る処理を行う。具体的には、制御処理部183は、音声処理部181が処理した音に制御用ワードが含まれると音声認識部182が判断すると、音声処理部181が処理した音に含まれる制御用ワードに応じた処理を行う。
例えば、情報端末10がロビーインターホン20と通信中に、情報端末10は、ユーザから制御用ワードとして“ドアを開けて”を含む音声を受け取る。この場合、音声認識部182は、音声処理部181が処理した音声に制御用ワード“ドアを開けて”が含まれると判断する。制御処理部183は、共用玄関E1から入室するための扉の開錠を制御する。
さらに、制御処理部183は、ユーザから操作部14が所定の操作を受け付けた場合に、上記扉の開錠を制御する。
表示処理部184は、表示部16に通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像を表示させるための処理を行う。より詳細には、表示処理部184は、所定の条件に応じて表示部16が表示する画像の表示態様を変更する。
具体的には、情報端末10とユーザとの距離が近いと音声処理部181が推定する場合、表示処理部184は、インターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像の倍率を変更することなく表示するように、表示部16を制御する。情報端末10とユーザとの距離が遠いと音声処理部181が推定する場合、表示処理部184は、インターホン玄関装置が撮像した画像の倍率を高くして表示、例えば訪問者の顔を拡大して表示するように、表示部16を制御する。
また、情報端末10に対してユーザが第1マイクロホン131側の方向にユーザが存在すると音声処理部181が推定する場合、表示処理部184は、訪問者の顔が表示部16の画面の中心よりもユーザが存在すると推定された方向、つまり第1マイクロホン131側に表示されるように、表示部16を制御する。情報端末10に対してユーザが第2マイクロホン132側の方向にユーザが存在すると音声処理部181が推定する場合、表示処理部184は、訪問者の顔が表示部16の画面の中心よりも第2マイクロホン132側に表示されるように、表示部16を制御してもよい。
送出部185は、音取得部13が取得した音に係る音データ(音情報)を、通話先の人が操作する装置に出力する。具体的には、送出部185は、音声処理部181でノイズの抑制又は除去がされた音の信号を、第1通信部11又は第2通信部12を介して、通信対象のインターホン玄関装置(ロビーインターホン20、玄関子機40)に送信する。例えば、情報端末10がロビーインターホン20と通信を行っている場合には、送出部185は、音声処理部181でノイズの抑制又は除去がされた音の信号を、第1通信部11を介してロビーインターホン20に送信する。
(2−2)ロビーインターホン
ロビーインターホン20は、図2に示すように、通信部21と、制御部22と、通話部23と、表示部24と、操作部25と、記憶部26と、撮像部27と、を備えている。
ロビーインターホン20は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部22として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。
通信部21は、情報端末10(の第1通信部11)と通信するための通信インタフェースである。通信部21は、第1幹線61を介して制御装置30(の通信部31)に接続されている。通信部21は、制御装置30を介して、情報端末10に対して音声信号、及び映像信号等を送信する。さらに、通信部21は、制御装置30を介して、情報端末10から音声信号、及び制御信号等を受信する。ここで、ロビーインターホン20からの通信信号には、情報端末10を特定するための情報(例えば、アドレス情報等)が含まれている。そのため、この通信信号に含まれるアドレス情報と一致するアドレス情報が割り当てられた情報端末10のみが通信信号を受信することができる。
制御部22は、通信部21、通話部23、及び撮像部27等を制御するように構成されている。
通話部23は、スピーカ及びマイクロホンを含み、情報端末10との間で通話可能に構成されている。
表示部24は、例えば、液晶ディスプレイである。表示部24は、撮像部27が撮像した映像を表示するように構成されている。また、表示部24は、訪問者等に対してメッセージを表示するように構成されている。メッセージは、例えば、訪問者等に発話を促すためのメッセージである。表示部24は、例えば、「お話しください」等のメッセージを表示する。この場合において、同様の音声メッセージを通話部23のスピーカ、又は通話部23のスピーカとは別に設けられたスピーカから出力(報知)してもよい。また、表示部24とスピーカとを併用してもよい。なお、情報端末10がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部24と操作部25とを兼ねてもよい。
操作部25は、ユーザ(例えば、集合住宅5への訪問者、住人等)の操作を受け付けるように構成されている。操作部25は、例えば、複数の押ボタンスイッチ、及びタッチパネル等を有する入力インタフェースである。
記憶部26は、読み書き可能なメモリで構成されている。記憶部26は、例えば、フラッシュメモリである。記憶部26は、例えば、撮像部27で撮像された映像(画像)の映像データを記憶する。
撮像部27は、撮像素子を有し、被写体(ユーザ)を撮像するためのカメラである。本実施形態では、撮像部27の撮像エリア(視野)は、情報端末10の前方に設定されている。本実施形態では、撮像部27は動画を撮像するカメラである。さらに、本実施形態では、撮像部27はカラー画像を撮像するカメラである。なお、撮像部27は、静止画を撮像するカメラ(スチルカメラ)であってもよいし、モノクロ画像を撮像するカメラであってもよい。
撮像素子は、例えば、CCD(Charge Coupled Devices)イメージセンサ、又はCMOS(Complementary Metal-Oxide Semiconductor)イメージセンサ等の二次元イメージセンサである。撮像部27は、被写体からの光をレンズ等の光学系によって撮像素子の撮像面(受光面)上に結像させ、撮像素子にて被写体からの光を電気信号に変換する。そして、撮像部27は、撮像素子の出力信号を映像信号として制御部22に出力する。
(2−3)制御装置
制御装置30は、図2に示すように、通信部31と、制御部32と、記憶部33と、を備えている。
制御装置30は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部32として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。
通信部31は、各情報端末10、及びロビーインターホン20と通信するための通信インタフェースを含んでいる。通信部31は、第1幹線61を介してロビーインターホン20に接続され、第2幹線62を介して各情報端末10に接続されている。つまり、通信部31は、各情報端末10とロビーインターホン20との間の通信を中継するように構成されている。
制御部32は、通信部31を制御するように構成されている。
記憶部33は、読み書き可能なメモリで構成されている。記憶部33は、例えば、フラッシュメモリである。記憶部33は、例えば、各住戸E2に割り当てられた部屋番号と、各情報端末10に割り当てられたアドレス情報との対応関係を表す対応テーブルを記憶する。つまり、制御装置30では、制御部32は、対応テーブルを参照して、ロビーインターホン20からの信号に含まれる部屋番号を対応する情報端末10のアドレス情報に置き換えた信号を作成し、この信号を通信部31から各情報端末10に送信させる。そして、各情報端末10では、制御部18は、第1通信部11が受信した信号に含まれるアドレス情報が、記憶部17に記憶されているアドレス情報と一致する場合には、この信号に含まれる情報を取得する。また、各情報端末10では、制御部18は、第1通信部11が受信した信号に含まれるアドレス情報が、記憶部17に記憶されているアドレス情報と一致しない場合には、この信号に含まれる情報を破棄する。
(2−4)玄関子機
各玄関子機40は、図2に示すように、接続線64を介して対応する情報端末10に接続されている。玄関子機40は、情報端末10に対して音声信号、及び映像信号等を送信する。さらに、玄関子機40は、情報端末10から音声信号、及び制御信号等を受信する。
(3)動作
ここでは、情報端末10の動作について、図3を用いて説明する。
音声認識部182は、音取得部13が取得した音に係る音情報を用いて、音取得部13が取得した音にユーザが発した所定のキーワードが含まれるか否かを判断する(ステップS1)。
音取得部13が取得した音に所定のキーワードが含まれないと音声認識部182が判断する場合(ステップS1における「No」)、処理は、当該判定を繰り返す。
音取得部13が取得した音に所定のキーワードが含まれると音声認識部182が判断する場合(ステップS1における「Yes」)、音声処理部181は、情報端末10に対するユーザの方向を推定する(ステップS2)。具体的には、音声処理部181は、第1信号と、第2信号との位相差に基づいて音声を発する人の方向を推定する。
音声処理部181は、音取得部13が取得した音に係る音信号(音情報)に対する信号レベル(強度)を測定する(ステップS3)。音声処理部181は、音声処理部181は、音信号の信号レベルが基準情報に含まれる入力レベル以上であるか否かを判断する(ステップS4)。
音信号の信号レベルが基準情報に含まれる入力レベル以上であると判断する場合(ステップS4における「Yes」)、音声処理部181は、情報端末10とユーザとの距離は近いと推定し、第1音声処理を行う(ステップS5)。具体的には、音声処理部181は、情報端末10とユーザとの距離は近いと推定した場合、ユーザの音声の音量が小さくなるように音が入力されるゲインを小さくする。このとき、送出部185は、音量が小さくなるように音量調整された音の信号を、通信対象のインターホン玄関装置(ロビーインターホン20、玄関子機40)に送信する。
さらに、表示処理部184は、第1表示処理を行う(ステップS6)。具体的には、情報端末10とユーザとの距離が近いと音声処理部181が推定する場合、表示処理部184は、インターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像の倍率を変更することなく表示するように、表示部16を制御する。このとき、表示部16は、ロビーインターホン20において呼出操作を行った訪問者U1を撮像した画像G10を、当該画像G10の倍率を変更することなく表示する(図4A参照)。
音信号の信号レベルが基準情報に含まれる入力レベル以上でない、つまり信号レベルが入力レベル未満であると判断する場合(ステップS4における「No」)、音声処理部181は、情報端末10とユーザとの距離は遠いと推定し、第2音声処理を行う(ステップS7)。具体的には、音声処理部181は、情報端末10とユーザとの距離は遠いと推定した場合、ユーザの音声の音量が大きくなるように音が入力されるゲインを大きくする。このとき、送出部185は、音量が大きくなるように音量調整された音の信号を、通信対象のインターホン玄関装置(ロビーインターホン20、玄関子機40)に送信する。
さらに、表示処理部184は、第2表示処理を行う(ステップS8)。具体的には、情報端末10とユーザとの距離が遠いと音声処理部181が推定する場合、表示処理部184は、インターホン玄関装置が撮像した画像の倍率を高くして表示、例えば訪問者の顔を拡大して表示するように、表示部16を制御する。このとき、表示部16は、ロビーインターホン20において呼出操作を行った訪問者U1を撮像した画像G10に対して、当該画像G10に含まれる訪問者U1の顔を拡大して表示する(図4B参照)。
音声認識部182は、音声処理部181が処理した音に対して音声認識処理を行う(ステップS9)。具体的には、音声認識部182は、音声処理部181が処理した音に、インターホンシステム1における制御に係るキーワード(制御用ワード)が含まれるか否かを判断する。
制御処理部183は、インターホンシステム1における制御が必要か否かを判断する(ステップS10)。具体的には、制御処理部183は、音声認識部182の判断結果に基づいて、制御が必要であるか否かを判断する。制御処理部183は、音声処理部181が処理した音に制御用ワードが含まれると判断した場合に、制御が必要であると判断する。制御処理部183は、音声処理部181が処理した音に制御用ワードが含まれないと判断した場合に、制御が必要でないと判断する。
制御が必要であると判断する場合(ステップS10における「Yes」)、制御処理部183は、音声処理部181が処理した音に含まれる制御用ワードに応じた処理を行う。
制御が必要でないと判断する場合(ステップS10における「No」)、制御処理部183は、ステップS11を実行しない。
なお、情報端末10は、所定のキーワードが検出された以降であって、情報端末10と通信対象であるインターホン玄関装置との間で通信中である場合には、ステップS5〜ステップS11までの処理を実行する。
(4)利点
以上説明したように、本実施形態の情報端末10は、インターホン装置として動作する情報端末である。情報端末10は、情報端末10に対するユーザの距離及び方向のうち少なくとも一方に基づいて、音取得部13が取得した音(音声)である受話に関する音声調整処理を行う。
より詳細には、情報端末10は、音取得部13と、音声処理部181と、制御処理部183と、を備える。音取得部13は、ユーザの音声を含む音を取得する。音声処理部181は、音取得部13が取得した音に対して、距離及び方向のうち少なくとも一方を所定の条件として音声調整処理を行う。
この構成によると、情報端末10に対するユーザの距離及び方向のうち少なくとも一方を用いて音声調整処理を行うので、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から出力される音声の音量を適切な音量とすることができる。例えば、情報端末10に対するユーザの距離が遠くであっても、音声を調整することで近くから音声を発しているように訪問者に感じさせることができる。したがって、情報端末10は、ユーザの位置に応じて明瞭な通話を行うことができる。
また、情報端末10は、表示部16と、表示処理部184と、を更に備える。表示部16は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像を表示する。表示処理部184は、表示部16に画像を表示させる。表示処理部184は、所定の条件に応じて表示部16が表示する画像の表示態様を変更する。
例えば、情報端末10に対するユーザの距離が遠くである場合には、表示する画像を拡大する。これにより、ユーザは、ユーザの位置によらず、訪問者が誰であるかを容易に確認することができる。
(5)変形例
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。
以下、上記の実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。
(5−1)変形例1
上記実施形態では、情報端末10は、取得した音に基づいて、情報端末10に対するユーザの距離及び方向を推定する構成としたが、この構成に限定されない。
取得した音に係る音情報とは異なる情報を基に、情報端末10に対するユーザの距離及び方向を推定してもよい。例えば、情報端末10は、住戸E2での人(ユーザ)の有無を検知する人検知部19(図5参照)の検知結果を基に、情報端末10に対するユーザの距離及び方向を推定してもよい。
以下、実施形態とは異なる点を中心に説明する。なお、実施形態と同一の構成要素については、実施形態と同一の符号を付し、その説明を適宜省略する。
本変形例の情報端末10Aは、図5に示すように、第1通信部11、第2通信部12、音取得部13、操作部14、出力部15、表示部16、記憶部17、制御部18A及び人検知部19を備える。
情報端末10Aは、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部18Aとして機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。
人検知部19は、例えば人感センサである。人検知部19は、赤外線等のマイクロ波を出力し、物体に反射した反射波を受信する。
制御部18Aは、図5に示すように、音声処理部181A、音声認識部182、制御処理部183、表示処理部184、送出部185及び検知処理部186を有する。
検知処理部186は、音声認識部182が音取得部で取得した音(音声)に所定のキーワードが含まれると判断した場合に、人検知部19の検知結果を基に、情報端末10に対するユーザの距離及び方向を推定する。具体的には、検知処理部186は、マイクロ波が出力された方向を、情報端末10に対するユーザの方向として推定する。検知処理部186は、出力されたマイクロ波の位相と、受光された反射波の位相との位相差に基づいて、マイクロ波が反射した物体(ユーザ)までの距離を算出(推定)する。検知処理部186は、算出した距離が予め定められた基準値以下である場合には、情報端末10に対するユーザの距離は近いと判定する。検知処理部186は、算出した距離が予め定められた基準値より大きい場合には、情報端末10に対するユーザの距離は遠いと判定する。要するに、距離には、人を検知する人検知部19が検知した結果に基づいて推定される結果が含まれる。言い換えると、距離は、人を検知する人検知部19が検知した結果に基づいて推定される結果を含む。
音声処理部181Aは、音取得部13が取得した音に対して、所定の条件(情報端末10に対するユーザの距離及び方向)に応じて音声調整処理を行う。
音声処理部181Aは、音取得部13が出力したアナログの音信号を取得し、デジタルの音信号に変換する。音声処理部181Aは、音取得部13から取得した音信号に対して所定のフィルタリング処理等により、音信号に対してエコーの抑制又は除去を行う。
音声処理部181Aは、方向に対する検知処理部186の推定結果に基づいて、音取得部13による音の取得方向を制御する。具体的には、音声処理部181Aは、推定結果に基づいて、第1マイクロホン131から入力される音、及び第2マイクロホン132から入力される音をそれぞれ調整する。
音声処理部181Aは、例えばノイズサプレッサを含む。音声処理部181は、ゲイン調整された2つの信号を含む音の信号に対してノイズの抑制又は除去を行う。
音声処理部181は、距離に対する検知処理部186の推定結果(判定結果)に基づいて、通信対象のインターホン玄関装置(ロビーインターホン20、玄関子機40)に出力する音の音量を調整する。例えば、情報端末10とユーザとの距離が近いと検知処理部186が判断した場合には、ユーザの音声の音量が小さくなるように音が入力されるゲインを小さくする。情報端末10とユーザとの距離が遠いと検知処理部186が判断した場合には、ユーザの音声の音量が大きくなるように音が入力されるゲインを小さくする。
これにより、本変形例の情報端末10Aは、人検知部19の検知結果を用いた場合であっても、ユーザの位置に応じて明瞭な通話を行うことができる。
本変形例では、情報端末10Aは、人検知部19を備える構成としたが、これに限定されない。人検知部19は、情報端末10Aの必須の構成要素ではない。
また、人検知部19は、人感センサとする構成としたが、これに限定されない。人検知部19は、住戸E2における人の位置を検知するLPS(Local Positioning System)であってもよい。すなわち、人検知部19は、住戸E2内の人(ユーザ)の情報端末10に対する距離及び方向を検出(推定)できる構成であればよい。
(5−2)変形例2
上記実施形態では、所定の条件として、情報端末10に対するユーザの距離及び方向の双方を含める構成としたが、この構成に限定されない。
所定の条件は、情報端末10に対するユーザの距離及び方向のうち一方を含める構成であってもよい。つまり、所定の条件は、情報端末10に対するユーザの距離及び方向のうち少なくとも一方を含む構成であればよい。すなわち、音声処理部181は、情報端末10に対するユーザの距離及び方向のうち少なくとも一方に基づいて音声調整処理を行う構成であればよい。
(5−3)変形例3
上記実施形態では、音声処理部181は、音取得部13が取得した音(ユーザの音声)、すなわち受話に対して、情報端末10に対するユーザの距離及び方向に基づいて、音声調整を行う構成としたが、この構成に限定されない。
音声処理部181は、インターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声信号に基づいた音声(訪問者音声)を出力する際に、情報端末10に対するユーザの距離及び方向の少なくとも一方に基づいて、音声調整を行ってもよい。
例えば、音声処理部181は、音取得部13が取得した音に係る音信号(音情報)に対する信号レベル(強度)を基に、情報端末に対するユーザの距離が遠いか否かを判断する。音声処理部181は、情報端末10に対するユーザの距離が遠いと判断する場合には、訪問者音声の音量を上げるように音声調整を行う。音声処理部181は、情報端末10に対するユーザの距離が近いと判断する場合には、訪問者音声の音量を維持するよう、又は下げるように音声調整を行う。これにより、ユーザ側で聞こえる音量についても適切な音量とすることができる。
要するに、音声処理部181は、前記情報端末に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う構成であればよい。例えば、発話について音声調整処理を行うことで、情報端末10の出力部15から出力される音の音量をユーザの位置に応じてユーザが聞きやすい音量とすることができる。また、受話及び発話の双方について音声調整処理を行うことで、インターホン玄関装置(ロビーインターホン20、玄関子機40)から出力される音声の音量を適切な音量とするとともに、情報端末10の出力部15から出力される音の音量をユーザの位置に応じてユーザが聞きやすい音量とすることができる。
(5−4)変形例4
上記実施形態では、情報端末10が、情報端末10に対するユーザの距離及び方向に基づいて音声調整(音量の調整)を行う構成としたが、この構成に限定されない。
情報端末10との通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)が、音量調整を行ってもよい。この場合、情報端末10は、情報端末10に対するユーザの距離及び方向のそれぞれの推定結果を、インターホン玄関装置に送信する。インターホン玄関装置は、推定結果を基に、インターホン玄関装置から出力するユーザの音声の音量を調整する。
(5−5)変形例5
上記実施形態では、音声処理部181は、ユーザが発した音声として所定のキーワードを音取得部13が取得することをトリガとし、所定の条件としての情報(距離、方向)の取得(推定)を実行する構成とした。しかしながら、この構成に限定されない。
音声処理部181は、所定の条件としての情報(距離、方向)の取得(推定)を実行の開始の条件を、所定のキーワードを音取得部13が取得することすることは必須ではない。インターホン玄関装置(ロビーインターホン20、玄関子機40)から呼出に係る制御信号を第1通信部11又は第2通信部12が受信すると、音声処理部181は、所定の条件としての情報(距離、方向)の取得(推定)を実行してもよい。
(5−6)変形例6
上記実施形態において、情報端末とインターホン玄関装置(ロビーインターホン20、玄関子機40)との通信が終了するまでの間、音声処理部181は、情報端末10に対するユーザの距離及び方向の推定を繰り返し行ってもよい。
(5−7)変形例7
上記実施形態では、音取得部13は、2つのマイクロホン(第1マイクロホン131、第2マイクロホン132)を有する構成としたが、この構成に限定されない。
音取得部13は、1つのマイクロホン又は3つ以上のマイクロホンを有する構成であってもよい。音取得部13が、1つのマイクロホンを有する構成は、所定の条件として情報端末10に対するユーザの距離を推定する場合に有効である。また、音取得部13が3つ以上のマイクロホンを有する場合には、情報端末10に対するユーザの距離及び方向をより精度よく推定することができる。
(5−8)変形例8
上記実施形態において、音声認識部182は、情報端末10の必須の構成要素ではない。音声認識部182は、情報端末10とは異なる端末(例えばサーバ)が備えてもよい。この場合、情報端末10は、音取得部13が取得した音に係る音情報をサーバに送信する。サーバは、音声認識処理により、所定のキーワードの検知及び制御用ワードの検知を行う。具体的には、サーバは、音情報を基に、音取得部13が取得した音に所定のキーワードが含まれるかの判断、及び音取得部13が取得した音に制御用ワードが含まれるかを判断する。
または、所定のキーワードの検知を音声認識部182が行い、制御用ワードの検知をサーバが行ってもよい。
(5−9)変形例9
上記実施形態において、情報端末10は、住戸端末(インターホン親機)とする構成としたが、この構成に限定されない。
情報端末10は、インターホン玄関装置(ロビーインターホン20、玄関子機40)と通信可能に構成されている端末であればよく、例えばタブレット端末、スマートフォンであってもよい。
(5−10)変形例10
上記実施形態の情報端末10が備える音声調整処理に係る機能(音取得部13、音声処理部181)を、インターホン玄関装置(ロビーインターホン20、玄関子機40)に適用してもよい。
同様に、変形例1の情報端末10Aが備える音声調整処理に係る機能(音取得部13、人検知部19、音声処理部181A、検知処理部186)を、インターホン玄関装置(ロビーインターホン20、玄関子機40)に適用してもよい。
(5−11)変形例11
上記実施形態の情報端末10が備える音声処理部181は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されてもよい。
例えば、情報端末10が備える音声処理部181は、出力部15(スピーカ)が出力した音声が音取得部13で入力されると、当該音声に対してエコーキャンセラによりエコーの抑制又は除去を行ってもよい。すなわち、音声処理部181は、出力部15が出力した音声が音取得部13で入力されると、当該音声をエコーキャンセラにより減衰させてもよい。出力部15が出力した音声に対して、音声処理部181は減衰する処理(減衰処理)を行うので、当該音声に対して音声認識部182が行う音声認識処理は抑止される。すなわち、出力部15が出力した音声に対して、音声処理部181が減衰処理を行うことで、当該音声を音声認識処理での処理対象外とすることができる。
または、音声処理部181は、出力部15から音声が出力されているか否かを判断し、出力部15から音声が出力されていると判断する場合には、音声認識部182による音声認識処理を抑止するように、音声認識部182を制御してもよい。音声認識部182による音声認識処理を抑止するように音声認識部182を制御する処理を行うことで、音声処理部181は、出力部15が出力した音声を音声認識処理での処理対象外とすることができる。
例えば、情報端末10がロビーインターホン20と通信を行っている場合、ロビーインターホン20から送信された音声が、第1マイクロホン131及び第2マイクロホン132のうち少なくとも一方のマイクロホンに入力され、音声認識処理が行われる場合がある。この場合、ロビーインターホン20から送信された音声に共用玄関E1から入室するための扉を開錠するための制御用キーワードが含まれていると、制御処理部183は、音声認識処理の結果に基づいて、共用玄関E1から入室するための扉の開錠を制御する。すなわち、住戸E2のユーザの意思に関係なく、第三者(例えば訪問者)によって共用玄関E1の扉が解除されてしまう。
そこで、変形例11の情報端末10は、音取得部13と、音声処理部181と、制御処理部183と、を備える。音取得部13は、ユーザの音声を含む音を取得する。音声処理部181は、音取得部13が取得した音に対して、音声調整処理を行う。制御処理部183は、音声処理部181が処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理部181は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されている。
この構成によると、音声処理部181は、通信対象であるインターホン玄関装置から受け取った音声を音声認識処理での処理対象外とする処理を行うので、第三者によって扉が解除されてしまう可能性を低くすることができる。
なお、変形例11において、音取得部13が複数のマイクロホン(第1マイクロホン131、第2マイクロホン132)を有することは必須ではない。音取得部13は、1本のマイクロホンを有する構成であってもよい。音取得部13が1本のマイクロホンを有する場合、音声処理部181がユーザの距離及び方向を推定することは必須ではない。音声処理部181は、音声調整処理として、音取得部13(が有する1本マイクロホン)が取得した音信号に対して少なくともエコーの抑制又は除去を行う構成であればよい。
また、変形例11に係る情報端末10の処理方法は、インターホン装置として動作する情報端末で用いられる処理方法である。処理方法は、音取得ステップと、音声処理ステップと、制御処理ステップと、を備える。音取得ステップは、ユーザの音声を含む音を取得する。音声処理ステップは、音取得ステップが取得した音に対して、音声調整処理を行う。制御処理ステップは、音声処理ステップが処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理ステップは、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行う。一態様に係るプログラムは、コンピュータシステムを、変形例11に係る情報端末10又は変形例11に係る情報端末10の処理方法として機能させるためのプログラムである。
また、変形例11は、変形例1の情報端末10Aに適用してもよい。この場合、情報端末10Aの音声処理部181Aは、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されている。
(その他の変形例)
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、情報端末10と同様の機能は、処理方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る情報端末10の処理方法は、インターホン装置として動作する情報端末で用いられる処理方法である。当該処理方法は、処理ステップを含む。処理ステップは、情報端末10に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。ここで、処理ステップは、図3で示すステップS5及びステップS7に相当する。一態様に係るプログラムは、コンピュータシステムを、上述した情報端末10又は情報端末10の処理方法として機能させるためのプログラムである。
本開示における情報端末10又は情報端末10の処理方法の実行主体は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを有する。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における情報端末10又は情報端末10の処理方法の実行主体としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されていてもよいが、電気通信回線を通じて提供されてもよい。また、プログラムは、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的な記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1乃至複数の電子回路で構成される。ここでいうIC又はLSI等の集積回路は、集積の度合いによって呼び方が異なっており、システムLSI、VLSI(Very Large Scale Integration)、又はULSI(Ultra Large Scale Integration)と呼ばれる集積回路を含む。さらに、LSIの製造後にプログラムされる、FPGA(Field-Programmable Gate Array)、又はLSI内部の接合関係の再構成若しくはLSI内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。
また、情報端末10における複数の機能が、1つの筐体内に集約されていることは情報端末10に必須の構成ではなく、情報端末10の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、情報端末10の少なくとも一部の機能、例えば、情報端末10の一部の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。
(まとめ)
以上説明したように、第1の態様の情報端末(10,10A)は、インターホン装置として動作する情報端末である。情報端末(10,10A)は、情報端末(10,10A)に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。
この構成によると、ユーザの位置に応じて明瞭な通話を行うことができる。
第2の態様の情報端末(10,10A)は、第1の態様において、音取得部(13)と、音声処理部(181,181A)と、制御処理部(183)と、を備える。音取得部(13)は、ユーザの音声を含む音を取得する。音声処理部(181)は、音取得部(13)が取得した音に対して、上記距離及び上記方向のうち少なくとも一方を所定の条件として音声調整処理を行う。制御処理部(183)は、音声処理部(181)が処理した音に対する音声認識処理の結果に基づいた制御を行う。
この構成によると、ユーザの位置に応じて明瞭な通話を行うことができるとともに、ユーザが発した音声に応じた制御を行うことができる。
第3の態様の情報端末(10,10A)では、第2の態様において、所定の条件は、ユーザの情報端末(10)に対する距離を含む。音声処理部(181,181A)は、距離に応じて、音取得部(13)が取得したユーザの音声の音量を変更する。
この構成によると、情報端末(10,10A)に対するユーザの距離に応じた適切な音量を設定することができる。
第4の態様の情報端末(10,10A)では、第2又は第3の態様において、距離は、音取得部(13)が取得した音に基づいて推定される結果を含む。
この構成によると、音取得部(13)が取得した音に基づいて推定される結果に基づいて、明瞭な通話を行うことができる。
第5の態様の情報端末(10,10A)では、第2又は第3の態様において、距離は、人を検知する人検知部(19)が検知した結果に基づいて推定される結果を含む。
この構成によると、人検知部(19)が検知した結果に基づいて推定される結果に基づいて、明瞭な通話を行うことができる。
第6の態様の情報端末(10,10A)では、第2〜第5のいずれかの態様において、音声処理部(181)は、ユーザが発した音声として所定のキーワードを音取得部(13)が取得することをトリガとし、所定の条件としての情報の取得を実行する。
この構成によると、所定の条件としての情報の取得を実行するタイミングを設定することができる。
第7の態様の情報端末(10,10A)は、第2〜第6のいずれかの態様において、音声認識部(182)を、更に備える。音声認識部(182)は、音声処理部(181)が処理した音に対して音声認識処理を行う。
この構成によると、ユーザが発した音声に対して音声認識を行うことができる。具体的には、情報端末(10,10A)の音声認識部(182)は、音声処理部(181)が処理した音に対して音声認識を行うため、より適切に音声認識を行うことができる。
第8の態様の情報端末(10,10A)は、第2〜第7のいずれかの態様において、表示部(16)と、表示処理部(184)と、を更に備える。表示部(16)は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像を表示する。表示処理部(184)は、表示部(16)に画像を表示させる。表示処理部(184)は、所定の条件に応じて表示部(16)が表示する画像の表示態様を変更する。
この構成によると、ユーザは、ユーザの位置によらず、訪問者が誰であるかを容易に確認することができる。
第9の態様の情報端末(10,10A)は、第2〜第8のいずれかの態様において、音声処理部(181,181A)は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行う。
この構成によると、第三者によって扉が解除されてしまう可能性を低くすることができる。
第10の態様のインターホンシステム(1)は、第1〜第9のいずれかの態様の情報端末(10,10A)と、情報端末(10,10A)と通信するインターホン玄関装置(ロビーインターホン20、玄関子機40)と、を備える。
この構成によると、ユーザの位置に応じて明瞭な通話を行うことができる。
第11の態様の処理方法は、インターホン装置として動作する情報端末(10,10A)で用いられる処理方法である。処理方法は、処理ステップを含む。処理ステップは、情報端末(10,10A)に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。
この処理方法によると、ユーザの位置に応じて明瞭な通話を行うことができる。
第12の態様のプログラムは、コンピュータに、第11の態様の処理方法を実行させるためのプログラムである。
このプログラムによると、ユーザの位置に応じて明瞭な通話を行うことができる。
第13の態様の情報端末(10,10A)は、音取得部(13)と、音声処理部(181,181A)と、制御処理部(183)と、を備える。音取得部(13)は、ユーザの音声を含む音を取得する。音声処理部(181)は、音取得部(13)が取得した音に対して、音声調整処理を行う。制御処理部(183)は、音声処理部(181)が処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理部(181)は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されている。
この構成によると、音声処理部(181,181A)は、通信対象であるインターホン玄関装置から受け取った音声を音声認識処理での処理対象外とする処理を行うので、第三者によって扉が解除されてしまう可能性を低くすることができる。
第14の態様のインターホンシステム(1)は、第13の態様の情報端末(10,10A)と、情報端末(10,10A)と通信するインターホン玄関装置(ロビーインターホン20、玄関子機40)と、を備える。
この構成によると、第三者によって扉が解除されてしまう可能性を低くすることができる。
第15の態様の処理方法は、インターホン装置として動作する情報端末で用いられる処理方法である。処理方法は、音取得ステップと、音声処理ステップと、制御処理ステップと、を備える。音取得ステップは、ユーザの音声を含む音を取得する。音声処理ステップは、音取得ステップが取得した音に対して、音声調整処理を行う。制御処理ステップは、音声処理ステップが処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理ステップは、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行う。
この処理方法によると、第三者によって扉が解除されてしまう可能性を低くすることができる。
第16の態様のプログラムは、コンピュータに、第15の態様の処理方法を実行させるためのプログラムである。
この処理方法によると、第三者によって扉が解除されてしまう可能性を低くすることができる。