JP2021141572A

JP2021141572A - 情報端末、インターホンシステム、処理方法及びプログラム

Info

Publication number: JP2021141572A
Application number: JP2020207022A
Authority: JP
Inventors: 欣也冠野; Kinya Kanno; 隆治諸橋; Takaharu Morohashi; 剛桑野; Takeshi Kuwano
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-03-09
Filing date: 2020-12-14
Publication date: 2021-09-16

Abstract

【課題】ユーザの位置に応じて明瞭な通話を行うことができる情報端末、インターホンシステム、処理方法及びプログラムを提供する。【解決手段】情報端末１０は、インターホン装置として動作する情報端末である。情報端末１０は、情報端末１０に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。【選択図】図１

Description

本開示は、一般に情報端末、インターホンシステム、処理方法及びプログラムに関し、より詳細には通話可能に構成された情報端末、インターホンシステム、処理方法及びプログラムに関する。

従来、集合住宅等で用いられるインターホンシステムが知られている（例えば、特許文献１参照）。

特許文献１のインターホンシステムは、集合住宅の共同玄関に設置されるロビーインターホン、各住戸内に設置されるインターホン親機、及び各住戸の戸外（玄関先）に設置されるドアホン子器を備える。

このようなインターホンシステムでは、来訪者は、ロビーインターホンを用いてインターホン親機を呼び出す。この呼出に応じて住戸の住人がインターホン親機に対して所定の操作を行うことでロビーインターホンとインターホン親機との間で通話が開始される。ドアホン子器でインターホン親機を呼び出したときも同様に、呼出に応じて住戸の住人がインターホン親機に対して所定の操作を行うことでドアホン子器とインターホン親機との間で通話が開始される。

特開２００４−６４２４９号公報

ところで、インターホン親機（情報端末）は、ハンズフリーで通話が可能に構成されていることが多い。このような場合において、インターホン親機から離れた場所からでも通話を行いたいとの要望がある。

本開示は上記課題に鑑みてなされ、ユーザの位置に応じて明瞭な通話を行うことができる情報端末、インターホンシステム、処理方法及びプログラムを提供することを目的とする。

本開示の一態様に係る情報端末は、インターホン装置として動作する情報端末である。前記情報端末は、前記情報端末に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。

本開示の一態様に係るインターホンシステムは、前記情報端末と、前記情報端末と通信するインターホン玄関装置と、を備える。

本開示の一態様に係る処理方法は、インターホン装置として動作する情報端末で用いられる処理方法である。前記処理方法は、処理ステップを、含む。前記処理ステップは、前記情報端末に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。

本開示の一態様に係るプログラムは、コンピュータに、前記処理方法を実行させるためのプログラムである。

本開示によると、ユーザの位置に応じて明瞭な通話を行うことができる。

図１は、一実施形態に係る情報端末の構成を説明するブロック図である。図２は、同上の情報端末を備えるインターホンシステムのシステム構成を説明する図である。図３は、同上の情報端末の動作を説明する図である。図４Ａは、同上の情報端末に対するユーザの距離が近い場合において、同上の情報端末に表示される画像の表示態様の一例を表す図である。図４Ｂは、同上の情報端末に対するユーザの距離が遠い場合において、同上の情報端末に表示される画像の表示態様の一例を表す図である。図５は、変形例１に係る情報端末の構成を説明するブロック図である。

以下に説明する実施形態及び変形例は、本開示の一例に過ぎず、本開示は、実施形態及び変形例に限定されない。以下の実施形態及び変形例以外であっても、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。

（実施形態）
以下、本実施形態に係るインターホン装置として動作する情報端末１０を備えるインターホンシステム１について、図１〜図４Ｂを用いて説明する。

（１）概要
以下、本実施形態に係る情報端末１０について、説明する。

本実施形態に係る情報端末１０は、図２に示すように、インターホンシステム１に適用される。インターホンシステム１は、例えば、マンション等の集合住宅５に適用される。本実施形態に係るインターホンシステム１は、情報端末１０を備える。本実施形態では、インターホンシステム１は、各々がインターホン装置として動作する複数（図２では２つ）の情報端末１０を備える。インターホンシステム１は、ロビーインターホン２０（インターホン玄関装置）と、制御装置３０と、複数（図２では２つ）の玄関子機４０（インターホン玄関装置）とを、更に備える。インターホンシステム１では、複数の情報端末１０の各々とロビーインターホン２０とが制御装置３０を介して通信を行うように構成されている。また、インターホンシステム１では、複数の情報端末１０と複数の玄関子機４０とが一対一に対応している。なお、本実施形態に係るインターホンシステム１は、集合住宅５以外に、戸建住宅に適用されてもよい。あるいは、インターホンシステム１は、事務所、店舗、学校若しくは介護施設等の非住宅施設等に適用されてもよい。

複数の情報端末１０の各々は、例えば、集合住宅５に含まれる複数の住戸Ｅ２の各々に設けられている住戸端末（インターホン親機）である。各情報端末１０は、例えば、各住戸Ｅ２の内玄関に設けられている。各情報端末１０は、第２幹線６２、分岐線６３、及び分岐器５０を介して制御装置３０に接続されている。各情報端末１０は、制御装置３０を介して、ロビーインターホン２０との間で通信（例えば、通話、及び制御信号の送信等）を行うように構成されている。さらに、各情報端末１０は、接続線６４を介して対応する玄関子機４０に接続されている。各情報端末１０は、対応する玄関子機４０との間で通信（例えば、通話、及び制御信号の送信等）を行うように構成されている。

ロビーインターホン２０は、例えば、集合住宅５の共用玄関（ロビー）Ｅ１に設けられている。ロビーインターホン２０は、第１幹線６１を介して制御装置３０に接続されている。ロビーインターホン２０は、制御装置３０を介して、各情報端末１０との間で通信（例えば、通話、及び映像信号の送信等）を行うように構成されている。ロビーインターホン２０は、例えば、共用玄関Ｅ１の壁に取り付けられている。ロビーインターホン２０が映像信号を情報端末１０に送信することで、情報端末１０は、映像（画像）を表示することができる。

制御装置３０は、例えば、集合住宅５の管理室Ｅ３に設けられている。制御装置３０は、第１幹線６１を介してロビーインターホン２０に接続され、かつ第２幹線６２を介して各情報端末１０に接続されている。つまり、制御装置３０は、各情報端末１０とロビーインターホン２０との間の通信を中継するように構成されている。

複数の玄関子機４０の各々は、例えば、集合住宅５の住戸Ｅ２の外玄関に設けられている。各玄関子機４０は、接続線６４を介して対応する情報端末１０に接続されている。各玄関子機４０は、対応する情報端末１０との間で通信（例えば、通話、映像信号の送信等）を行うように構成されている。

本実施形態では、第１幹線６１、第２幹線６２、分岐線６３、及び接続線６４は、いずれもツイストペア線である。つまり、実際には、第１幹線６１、第２幹線６２、分岐線６３、及び接続線６４は２本の電線で構成されるが、図面上は１本の線で表している。第１幹線６１、第２幹線６２、分岐線６３、及び接続線６４の少なくとも１つはツイストペア線以外の電線であってもよい。

本実施形態に係る情報端末１０は、情報端末１０に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。ここで、ユーザは、例えば、住戸Ｅ２の住人である。また、受話は、情報端末１０が受け取るユーザの音声を含む。発話は、情報端末１０がユーザに対して出力する音声を含む。ユーザに対して出力する音声の送信元は、例えば、集合住宅５への訪問者であるが、ロビーインターホン２０又は玄関子機４０から各住戸Ｅ２のユーザを呼び出す者であればよく、外出先から帰宅した各住戸Ｅ２の住人（呼出対象のユーザとは異なるユーザ）等であってもよい。

本実施形態に係る情報端末１０では、情報端末１０に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。そのため、情報端末１０は、適切な音声を、通信対象の機器（ロビーインターホン２０、玄関子機４０）に出力、又はユーザに対して出力することができる。例えば、ユーザが情報端末１０から離れた位置でロビーインターホン２０から呼び出しに対応する場合、情報端末１０がユーザから受け取る音声が小さくても適切な音量に調整してロビーインターホン２０に出力することができる。

（２）構成
（２−１）情報端末
情報端末１０は、図１に示すように、第１通信部１１、第２通信部１２、音取得部１３、操作部１４、出力部１５、表示部１６、記憶部１７及び制御部１８を備える。

情報端末１０は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部１８として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。

第１通信部１１は、ロビーインターホン２０（の通信部２１）と通信するための通信インタフェースである。第１通信部１１は、第２幹線６２、分岐線６３、及び分岐器５０を介して制御装置３０に接続されている。第１通信部１１は、制御装置３０を介して、ロビーインターホン２０に対して音声信号、及び制御信号等を送信する。さらに、第１通信部１１は、制御装置３０を介して、ロビーインターホン２０から音声信号、及び映像信号等を受信する。

第２通信部１２は、玄関子機４０と通信するための通信インタフェースである。第２通信部１２は、接続線６４を介して玄関子機４０に接続されている。第２通信部１２は、玄関子機４０に対して音声信号、及び制御信号等を送信し、玄関子機４０から音声信号、及び映像信号等を受信する。

音取得部１３は、少なくともユーザの音声を含む音を取得し、取得した音に係る音情報を制御部１８に出力する。音取得部１３は、複数のマイクロホンを有している。複数のマイクロホンの各々は、指向性を有するマイクロホンである。本実施形態では、音取得部１３は、図１に示すように、２つのマイクロホン（第１マイクロホン１３１及び第２マイクロホン１３２）を有している。第１マイクロホン１３１及び第２マイクロホン１３２は、水平方向（左右方向）及び鉛直方向（上下方向）の少なくとも一方において指向性を有している。第１マイクロホン１３１及び第２マイクロホン１３２は、左右方向に沿って並べられて配置されている。第１マイクロホン１３１及び第２マイクロホン１３２は、情報端末１０の前方に位置するユーザの音声（音）を含む周囲の音を取得し、取得した音をアナログの音信号（音情報）に変換して制御部１８に出力する。

操作部１４は、ユーザ（例えば、各住戸Ｅ２の住人等）の操作を受け付けるように構成されている。操作部１４は、少なくとも通話ボタンを有している。通話ボタンは、ロビーインターホン２０、又は玄関子機４０からの呼び出しに対して、ロビーインターホン２０、又は玄関子機４０との通信（訪問者等との通話）を開始するためのボタンである。つまり、第１通信部１１が住人を呼び出すための呼出信号を受信している状態で通話ボタンが押されると、ロビーインターホン２０、又は玄関子機４０と情報端末１０との間で音声通話が可能になる。

出力部１５は、例えばスピーカである。出力部１５は、情報端末１０がロビーインターホン２０と通話可能な状態である場合には、ロビーインターホン２０から送信された音データに基づいた音（訪問者等の音声を含む）を出力する。出力部１５は、情報端末１０が玄関子機４０と通話可能な状態である場合には、玄関子機４０から送信された音データに基づいた音（訪問者等の音声を含む）を出力する。

表示部１６は、例えば、液晶ディスプレイである。表示部１６は、映像を表示するように構成されている。表示部１６は、情報端末１０がロビーインターホン２０と通話（通信）可能な状態である場合に、通信対象であるロビーインターホン２０が撮像した映像を表示する。表示部１６は、情報端末１０が玄関子機４０と通話（通信）可能な状態である場合に、通信対象である玄関子機４０が撮像した映像を表示する。なお、情報端末１０がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部１６と操作部１４とを兼ねてもよい。

記憶部１７は、読み書き可能なメモリで構成されている。記憶部１７は、例えば、フラッシュメモリである。記憶部１７は、例えば、情報端末１０とユーザとの距離を推定するための基準となる基準情報を記憶する。基準情報は、例えば、定常位置からユーザが発した音声が情報端末１０に入力された場合における信号の強度を表す入力レベルを含む。入力レベルを表す単位は、例えば［ｄＢｓｐｌ］、［ｄＢｍ］である。

制御部１８は、図１に示すように、音声処理部１８１、音声認識部１８２、制御処理部１８３、表示処理部１８４及び送出部１８５を有している。

音声処理部１８１は、音取得部１３が取得した音に対して、所定の条件に応じて音声調整処理を行う。ここで、所定の条件は、情報端末１０に対するユーザの距離及び方向のうち少なくとも一方を含む。本実施形態では、所定の条件は、情報端末１０に対するユーザの距離及び方向の双方を含む。以下、音声処理部１８１が行う音声調整処理についての具体例を記載する。

音声処理部１８１は、音取得部１３が出力したアナログの音信号を取得する。音声処理部１８１は、取得したアナログの音信号を、デジタルの音信号に変換する。また、音声処理部１８１は、音取得部１３から取得した音信号に対して所定のフィルタリング処理等を行うように構成されている。音声処理部１８１は、例えば複数のエコーキャンセラ（第１エコーキャンセラ、第２エコーキャンセラ）を含む。第１エコーキャンセラは、第１マイクロホン１３１から出力された音信号に対してエコーの抑制又は除去を行う。第２エコーキャンセラは、第２マイクロホンから出力された音信号に対してエコーの抑制又は除去を行う。

音声処理部１８１は、音取得部１３が取得した音にユーザが発した所定のキーワードを含む場合に、情報端末１０に対するユーザの距離及び方向を推定する。すなわち、音声処理部１８１は、ユーザが発した音声として所定のキーワードを音取得部１３が取得することをトリガとし、所定の条件としての情報（距離、方向）の取得（推定）を実行する。

音声処理部１８１は、音取得部１３が取得した音に係る音情報に基づいて、音声を発する人の方向を推定する。具体的には、音声処理部１８１は、第１信号と、第２信号との位相差に基づいて音声を発する人の方向を推定する。ここで、第１信号は、第１マイクロホン１３１から出力されたアナログの音信号に対するデジタルの音信号である。第２信号は、第２マイクロホン１３２から出力されたアナログの音信号に対するデジタルの音信号である。

音声処理部１８１は、方向に対する推定結果に基づいて、音取得部１３による音の取得方向を制御する。具体的には、音声処理部１８１は、第１マイクロホン１３１及び第２マイクロホン１３２の各々から入力される音声信号に対して各種演算を行うことで、所望の方向の感度を高めた音声信号に変換する。これにより、所望の方向のＳ／Ｎ比が向上する。つまり、制御部１８は、音声処理部１８１の推定結果に基づいて、各マイクロホンから入力される音に基づいて、音取得部１３による音の取得方向を制御することができる。

音声処理部１８１は、例えばノイズサプレッサを含む。音声処理部１８１は、ゲイン調整された２つの信号を含む音の信号に対してノイズの抑制又は除去を行う。

音声処理部１８１は、記憶部１７が記憶する基準情報を用いてユーザとの距離を推定する。音声処理部１８１は、音取得部１３が取得した音に係る音信号（音情報）に対する信号レベル（強度）を測定する。例えば、音声処理部１８１は、信号レベル（強度）の計測として、音取得部１３が取得した音に係る音信号の信号レベルの単位時間当たりの平均値を算出する。音声処理部１８１は、音信号の信号レベルが基準情報に含まれる入力レベル以上である場合には、情報端末１０とユーザとの距離は近いと推定する。音声処理部１８１は、音取得部１３が取得した音に係る信号（デジタルの音信号）の信号レベルが、基準情報に含まれる入力レベル未満である場合には、情報端末１０とユーザとの距離は遠いと推定する。要するに、距離には、音取得部１３が取得した音に基づいて推定される結果が含まれる。言い換えると、距離は、音取得部１３が取得した音に基づいて推定される結果を含む。また、基準情報に含まれる入力レベルは、ユーザごとに異なってもよい。

音声処理部１８１は、情報端末１０とユーザとの距離は近いと推定した場合、ユーザの音声の音量が小さくなるように音が入力されるゲインを小さくする。例えば、音声処理部１８１は、音が入力されるゲインが小さくなるように設定を変更する。

音声処理部１８１は、情報端末１０とユーザとの距離は遠いと推定した場合、ユーザの音声の音量が大きくなるように音が入力されるゲインを大きくする。例えば、音声処理部１８１は、音が入力されるゲインが大きくなるように設定を変更する。

音声処理部１８１は、音取得部１３が取得した音の信号レベルが基準情報に含まれる入力レベルと同じとなるように設定を変更する。

音声認識部１８２は、音声処理部１８１が処理した音に対して音声認識処理を行う。音声認識部１８２は、音声認識処理を行うことで、音声処理部１８１が処理した音に所定のキーワードが含まれるか否かを判断する。音声認識部１８２は、音声処理部１８１が処理した音に所定のキーワードが含まれると判断する場合には、音声処理部１８１に情報端末１０に対するユーザの距離及び方向を推定するように指示する。

音声認識部１８２は、音声処理部１８１が処理した音に所定のキーワードが含まれると判断する場合には、通信対象のインターホン玄関装置（ロビーインターホン２０、玄関子機４０）との通信（通話）を開始するよう、情報端末１０を制御する。

音声認識部１８２は、音声処理部１８１が処理した音に、インターホンシステム１における制御に係るキーワード（制御用ワード）が含まれるか否かを判断する。

制御処理部１８３は、音声認識部１８２による上記判断の結果に応じて、インターホンシステム１における制御に係る処理を行う。具体的には、制御処理部１８３は、音声処理部１８１が処理した音に制御用ワードが含まれると音声認識部１８２が判断すると、音声処理部１８１が処理した音に含まれる制御用ワードに応じた処理を行う。

例えば、情報端末１０がロビーインターホン２０と通信中に、情報端末１０は、ユーザから制御用ワードとして“ドアを開けて”を含む音声を受け取る。この場合、音声認識部１８２は、音声処理部１８１が処理した音声に制御用ワード“ドアを開けて”が含まれると判断する。制御処理部１８３は、共用玄関Ｅ１から入室するための扉の開錠を制御する。

さらに、制御処理部１８３は、ユーザから操作部１４が所定の操作を受け付けた場合に、上記扉の開錠を制御する。

表示処理部１８４は、表示部１６に通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）が撮像した画像を表示させるための処理を行う。より詳細には、表示処理部１８４は、所定の条件に応じて表示部１６が表示する画像の表示態様を変更する。

具体的には、情報端末１０とユーザとの距離が近いと音声処理部１８１が推定する場合、表示処理部１８４は、インターホン玄関装置（ロビーインターホン２０、玄関子機４０）が撮像した画像の倍率を変更することなく表示するように、表示部１６を制御する。情報端末１０とユーザとの距離が遠いと音声処理部１８１が推定する場合、表示処理部１８４は、インターホン玄関装置が撮像した画像の倍率を高くして表示、例えば訪問者の顔を拡大して表示するように、表示部１６を制御する。

また、情報端末１０に対してユーザが第１マイクロホン１３１側の方向にユーザが存在すると音声処理部１８１が推定する場合、表示処理部１８４は、訪問者の顔が表示部１６の画面の中心よりもユーザが存在すると推定された方向、つまり第１マイクロホン１３１側に表示されるように、表示部１６を制御する。情報端末１０に対してユーザが第２マイクロホン１３２側の方向にユーザが存在すると音声処理部１８１が推定する場合、表示処理部１８４は、訪問者の顔が表示部１６の画面の中心よりも第２マイクロホン１３２側に表示されるように、表示部１６を制御してもよい。

送出部１８５は、音取得部１３が取得した音に係る音データ（音情報）を、通話先の人が操作する装置に出力する。具体的には、送出部１８５は、音声処理部１８１でノイズの抑制又は除去がされた音の信号を、第１通信部１１又は第２通信部１２を介して、通信対象のインターホン玄関装置（ロビーインターホン２０、玄関子機４０）に送信する。例えば、情報端末１０がロビーインターホン２０と通信を行っている場合には、送出部１８５は、音声処理部１８１でノイズの抑制又は除去がされた音の信号を、第１通信部１１を介してロビーインターホン２０に送信する。

（２−２）ロビーインターホン
ロビーインターホン２０は、図２に示すように、通信部２１と、制御部２２と、通話部２３と、表示部２４と、操作部２５と、記憶部２６と、撮像部２７と、を備えている。

ロビーインターホン２０は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部２２として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。

通信部２１は、情報端末１０（の第１通信部１１）と通信するための通信インタフェースである。通信部２１は、第１幹線６１を介して制御装置３０（の通信部３１）に接続されている。通信部２１は、制御装置３０を介して、情報端末１０に対して音声信号、及び映像信号等を送信する。さらに、通信部２１は、制御装置３０を介して、情報端末１０から音声信号、及び制御信号等を受信する。ここで、ロビーインターホン２０からの通信信号には、情報端末１０を特定するための情報（例えば、アドレス情報等）が含まれている。そのため、この通信信号に含まれるアドレス情報と一致するアドレス情報が割り当てられた情報端末１０のみが通信信号を受信することができる。

制御部２２は、通信部２１、通話部２３、及び撮像部２７等を制御するように構成されている。

通話部２３は、スピーカ及びマイクロホンを含み、情報端末１０との間で通話可能に構成されている。

表示部２４は、例えば、液晶ディスプレイである。表示部２４は、撮像部２７が撮像した映像を表示するように構成されている。また、表示部２４は、訪問者等に対してメッセージを表示するように構成されている。メッセージは、例えば、訪問者等に発話を促すためのメッセージである。表示部２４は、例えば、「お話しください」等のメッセージを表示する。この場合において、同様の音声メッセージを通話部２３のスピーカ、又は通話部２３のスピーカとは別に設けられたスピーカから出力（報知）してもよい。また、表示部２４とスピーカとを併用してもよい。なお、情報端末１０がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部２４と操作部２５とを兼ねてもよい。

操作部２５は、ユーザ（例えば、集合住宅５への訪問者、住人等）の操作を受け付けるように構成されている。操作部２５は、例えば、複数の押ボタンスイッチ、及びタッチパネル等を有する入力インタフェースである。

記憶部２６は、読み書き可能なメモリで構成されている。記憶部２６は、例えば、フラッシュメモリである。記憶部２６は、例えば、撮像部２７で撮像された映像（画像）の映像データを記憶する。

撮像部２７は、撮像素子を有し、被写体（ユーザ）を撮像するためのカメラである。本実施形態では、撮像部２７の撮像エリア（視野）は、情報端末１０の前方に設定されている。本実施形態では、撮像部２７は動画を撮像するカメラである。さらに、本実施形態では、撮像部２７はカラー画像を撮像するカメラである。なお、撮像部２７は、静止画を撮像するカメラ（スチルカメラ）であってもよいし、モノクロ画像を撮像するカメラであってもよい。

撮像素子は、例えば、ＣＣＤ（Charge Coupled Devices）イメージセンサ、又はＣＭＯＳ（Complementary Metal-Oxide Semiconductor）イメージセンサ等の二次元イメージセンサである。撮像部２７は、被写体からの光をレンズ等の光学系によって撮像素子の撮像面（受光面）上に結像させ、撮像素子にて被写体からの光を電気信号に変換する。そして、撮像部２７は、撮像素子の出力信号を映像信号として制御部２２に出力する。

（２−３）制御装置
制御装置３０は、図２に示すように、通信部３１と、制御部３２と、記憶部３３と、を備えている。

制御装置３０は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部３２として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。

通信部３１は、各情報端末１０、及びロビーインターホン２０と通信するための通信インタフェースを含んでいる。通信部３１は、第１幹線６１を介してロビーインターホン２０に接続され、第２幹線６２を介して各情報端末１０に接続されている。つまり、通信部３１は、各情報端末１０とロビーインターホン２０との間の通信を中継するように構成されている。

制御部３２は、通信部３１を制御するように構成されている。

記憶部３３は、読み書き可能なメモリで構成されている。記憶部３３は、例えば、フラッシュメモリである。記憶部３３は、例えば、各住戸Ｅ２に割り当てられた部屋番号と、各情報端末１０に割り当てられたアドレス情報との対応関係を表す対応テーブルを記憶する。つまり、制御装置３０では、制御部３２は、対応テーブルを参照して、ロビーインターホン２０からの信号に含まれる部屋番号を対応する情報端末１０のアドレス情報に置き換えた信号を作成し、この信号を通信部３１から各情報端末１０に送信させる。そして、各情報端末１０では、制御部１８は、第１通信部１１が受信した信号に含まれるアドレス情報が、記憶部１７に記憶されているアドレス情報と一致する場合には、この信号に含まれる情報を取得する。また、各情報端末１０では、制御部１８は、第１通信部１１が受信した信号に含まれるアドレス情報が、記憶部１７に記憶されているアドレス情報と一致しない場合には、この信号に含まれる情報を破棄する。

（２−４）玄関子機
各玄関子機４０は、図２に示すように、接続線６４を介して対応する情報端末１０に接続されている。玄関子機４０は、情報端末１０に対して音声信号、及び映像信号等を送信する。さらに、玄関子機４０は、情報端末１０から音声信号、及び制御信号等を受信する。

（３）動作
ここでは、情報端末１０の動作について、図３を用いて説明する。

音声認識部１８２は、音取得部１３が取得した音に係る音情報を用いて、音取得部１３が取得した音にユーザが発した所定のキーワードが含まれるか否かを判断する（ステップＳ１）。

音取得部１３が取得した音に所定のキーワードが含まれないと音声認識部１８２が判断する場合（ステップＳ１における「Ｎｏ」）、処理は、当該判定を繰り返す。

音取得部１３が取得した音に所定のキーワードが含まれると音声認識部１８２が判断する場合（ステップＳ１における「Ｙｅｓ」）、音声処理部１８１は、情報端末１０に対するユーザの方向を推定する（ステップＳ２）。具体的には、音声処理部１８１は、第１信号と、第２信号との位相差に基づいて音声を発する人の方向を推定する。

音声処理部１８１は、音取得部１３が取得した音に係る音信号（音情報）に対する信号レベル（強度）を測定する（ステップＳ３）。音声処理部１８１は、音声処理部１８１は、音信号の信号レベルが基準情報に含まれる入力レベル以上であるか否かを判断する（ステップＳ４）。

音信号の信号レベルが基準情報に含まれる入力レベル以上であると判断する場合（ステップＳ４における「Ｙｅｓ」）、音声処理部１８１は、情報端末１０とユーザとの距離は近いと推定し、第１音声処理を行う（ステップＳ５）。具体的には、音声処理部１８１は、情報端末１０とユーザとの距離は近いと推定した場合、ユーザの音声の音量が小さくなるように音が入力されるゲインを小さくする。このとき、送出部１８５は、音量が小さくなるように音量調整された音の信号を、通信対象のインターホン玄関装置（ロビーインターホン２０、玄関子機４０）に送信する。

さらに、表示処理部１８４は、第１表示処理を行う（ステップＳ６）。具体的には、情報端末１０とユーザとの距離が近いと音声処理部１８１が推定する場合、表示処理部１８４は、インターホン玄関装置（ロビーインターホン２０、玄関子機４０）が撮像した画像の倍率を変更することなく表示するように、表示部１６を制御する。このとき、表示部１６は、ロビーインターホン２０において呼出操作を行った訪問者Ｕ１を撮像した画像Ｇ１０を、当該画像Ｇ１０の倍率を変更することなく表示する（図４Ａ参照）。

音信号の信号レベルが基準情報に含まれる入力レベル以上でない、つまり信号レベルが入力レベル未満であると判断する場合（ステップＳ４における「Ｎｏ」）、音声処理部１８１は、情報端末１０とユーザとの距離は遠いと推定し、第２音声処理を行う（ステップＳ７）。具体的には、音声処理部１８１は、情報端末１０とユーザとの距離は遠いと推定した場合、ユーザの音声の音量が大きくなるように音が入力されるゲインを大きくする。このとき、送出部１８５は、音量が大きくなるように音量調整された音の信号を、通信対象のインターホン玄関装置（ロビーインターホン２０、玄関子機４０）に送信する。

さらに、表示処理部１８４は、第２表示処理を行う（ステップＳ８）。具体的には、情報端末１０とユーザとの距離が遠いと音声処理部１８１が推定する場合、表示処理部１８４は、インターホン玄関装置が撮像した画像の倍率を高くして表示、例えば訪問者の顔を拡大して表示するように、表示部１６を制御する。このとき、表示部１６は、ロビーインターホン２０において呼出操作を行った訪問者Ｕ１を撮像した画像Ｇ１０に対して、当該画像Ｇ１０に含まれる訪問者Ｕ１の顔を拡大して表示する（図４Ｂ参照）。

音声認識部１８２は、音声処理部１８１が処理した音に対して音声認識処理を行う（ステップＳ９）。具体的には、音声認識部１８２は、音声処理部１８１が処理した音に、インターホンシステム１における制御に係るキーワード（制御用ワード）が含まれるか否かを判断する。

制御処理部１８３は、インターホンシステム１における制御が必要か否かを判断する（ステップＳ１０）。具体的には、制御処理部１８３は、音声認識部１８２の判断結果に基づいて、制御が必要であるか否かを判断する。制御処理部１８３は、音声処理部１８１が処理した音に制御用ワードが含まれると判断した場合に、制御が必要であると判断する。制御処理部１８３は、音声処理部１８１が処理した音に制御用ワードが含まれないと判断した場合に、制御が必要でないと判断する。

制御が必要であると判断する場合（ステップＳ１０における「Ｙｅｓ」）、制御処理部１８３は、音声処理部１８１が処理した音に含まれる制御用ワードに応じた処理を行う。

制御が必要でないと判断する場合（ステップＳ１０における「Ｎｏ」）、制御処理部１８３は、ステップＳ１１を実行しない。

なお、情報端末１０は、所定のキーワードが検出された以降であって、情報端末１０と通信対象であるインターホン玄関装置との間で通信中である場合には、ステップＳ５〜ステップＳ１１までの処理を実行する。

（４）利点
以上説明したように、本実施形態の情報端末１０は、インターホン装置として動作する情報端末である。情報端末１０は、情報端末１０に対するユーザの距離及び方向のうち少なくとも一方に基づいて、音取得部１３が取得した音（音声）である受話に関する音声調整処理を行う。

より詳細には、情報端末１０は、音取得部１３と、音声処理部１８１と、制御処理部１８３と、を備える。音取得部１３は、ユーザの音声を含む音を取得する。音声処理部１８１は、音取得部１３が取得した音に対して、距離及び方向のうち少なくとも一方を所定の条件として音声調整処理を行う。

この構成によると、情報端末１０に対するユーザの距離及び方向のうち少なくとも一方を用いて音声調整処理を行うので、通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）から出力される音声の音量を適切な音量とすることができる。例えば、情報端末１０に対するユーザの距離が遠くであっても、音声を調整することで近くから音声を発しているように訪問者に感じさせることができる。したがって、情報端末１０は、ユーザの位置に応じて明瞭な通話を行うことができる。

また、情報端末１０は、表示部１６と、表示処理部１８４と、を更に備える。表示部１６は、通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）が撮像した画像を表示する。表示処理部１８４は、表示部１６に画像を表示させる。表示処理部１８４は、所定の条件に応じて表示部１６が表示する画像の表示態様を変更する。

例えば、情報端末１０に対するユーザの距離が遠くである場合には、表示する画像を拡大する。これにより、ユーザは、ユーザの位置によらず、訪問者が誰であるかを容易に確認することができる。

（５）変形例
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。

以下、上記の実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。

（５−１）変形例１
上記実施形態では、情報端末１０は、取得した音に基づいて、情報端末１０に対するユーザの距離及び方向を推定する構成としたが、この構成に限定されない。

取得した音に係る音情報とは異なる情報を基に、情報端末１０に対するユーザの距離及び方向を推定してもよい。例えば、情報端末１０は、住戸Ｅ２での人（ユーザ）の有無を検知する人検知部１９（図５参照）の検知結果を基に、情報端末１０に対するユーザの距離及び方向を推定してもよい。

以下、実施形態とは異なる点を中心に説明する。なお、実施形態と同一の構成要素については、実施形態と同一の符号を付し、その説明を適宜省略する。

本変形例の情報端末１０Ａは、図５に示すように、第１通信部１１、第２通信部１２、音取得部１３、操作部１４、出力部１５、表示部１６、記憶部１７、制御部１８Ａ及び人検知部１９を備える。

情報端末１０Ａは、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部１８Ａとして機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。

人検知部１９は、例えば人感センサである。人検知部１９は、赤外線等のマイクロ波を出力し、物体に反射した反射波を受信する。

制御部１８Ａは、図５に示すように、音声処理部１８１Ａ、音声認識部１８２、制御処理部１８３、表示処理部１８４、送出部１８５及び検知処理部１８６を有する。

検知処理部１８６は、音声認識部１８２が音取得部で取得した音（音声）に所定のキーワードが含まれると判断した場合に、人検知部１９の検知結果を基に、情報端末１０に対するユーザの距離及び方向を推定する。具体的には、検知処理部１８６は、マイクロ波が出力された方向を、情報端末１０に対するユーザの方向として推定する。検知処理部１８６は、出力されたマイクロ波の位相と、受光された反射波の位相との位相差に基づいて、マイクロ波が反射した物体（ユーザ）までの距離を算出（推定）する。検知処理部１８６は、算出した距離が予め定められた基準値以下である場合には、情報端末１０に対するユーザの距離は近いと判定する。検知処理部１８６は、算出した距離が予め定められた基準値より大きい場合には、情報端末１０に対するユーザの距離は遠いと判定する。要するに、距離には、人を検知する人検知部１９が検知した結果に基づいて推定される結果が含まれる。言い換えると、距離は、人を検知する人検知部１９が検知した結果に基づいて推定される結果を含む。

音声処理部１８１Ａは、音取得部１３が取得した音に対して、所定の条件（情報端末１０に対するユーザの距離及び方向）に応じて音声調整処理を行う。

音声処理部１８１Ａは、音取得部１３が出力したアナログの音信号を取得し、デジタルの音信号に変換する。音声処理部１８１Ａは、音取得部１３から取得した音信号に対して所定のフィルタリング処理等により、音信号に対してエコーの抑制又は除去を行う。

音声処理部１８１Ａは、方向に対する検知処理部１８６の推定結果に基づいて、音取得部１３による音の取得方向を制御する。具体的には、音声処理部１８１Ａは、推定結果に基づいて、第１マイクロホン１３１から入力される音、及び第２マイクロホン１３２から入力される音をそれぞれ調整する。

音声処理部１８１Ａは、例えばノイズサプレッサを含む。音声処理部１８１は、ゲイン調整された２つの信号を含む音の信号に対してノイズの抑制又は除去を行う。

音声処理部１８１は、距離に対する検知処理部１８６の推定結果（判定結果）に基づいて、通信対象のインターホン玄関装置（ロビーインターホン２０、玄関子機４０）に出力する音の音量を調整する。例えば、情報端末１０とユーザとの距離が近いと検知処理部１８６が判断した場合には、ユーザの音声の音量が小さくなるように音が入力されるゲインを小さくする。情報端末１０とユーザとの距離が遠いと検知処理部１８６が判断した場合には、ユーザの音声の音量が大きくなるように音が入力されるゲインを小さくする。

これにより、本変形例の情報端末１０Ａは、人検知部１９の検知結果を用いた場合であっても、ユーザの位置に応じて明瞭な通話を行うことができる。

本変形例では、情報端末１０Ａは、人検知部１９を備える構成としたが、これに限定されない。人検知部１９は、情報端末１０Ａの必須の構成要素ではない。

また、人検知部１９は、人感センサとする構成としたが、これに限定されない。人検知部１９は、住戸Ｅ２における人の位置を検知するＬＰＳ（Local Positioning System）であってもよい。すなわち、人検知部１９は、住戸Ｅ２内の人（ユーザ）の情報端末１０に対する距離及び方向を検出（推定）できる構成であればよい。

（５−２）変形例２
上記実施形態では、所定の条件として、情報端末１０に対するユーザの距離及び方向の双方を含める構成としたが、この構成に限定されない。

所定の条件は、情報端末１０に対するユーザの距離及び方向のうち一方を含める構成であってもよい。つまり、所定の条件は、情報端末１０に対するユーザの距離及び方向のうち少なくとも一方を含む構成であればよい。すなわち、音声処理部１８１は、情報端末１０に対するユーザの距離及び方向のうち少なくとも一方に基づいて音声調整処理を行う構成であればよい。

（５−３）変形例３
上記実施形態では、音声処理部１８１は、音取得部１３が取得した音（ユーザの音声）、すなわち受話に対して、情報端末１０に対するユーザの距離及び方向に基づいて、音声調整を行う構成としたが、この構成に限定されない。

音声処理部１８１は、インターホン玄関装置（ロビーインターホン２０、玄関子機４０）から受け取った音声信号に基づいた音声（訪問者音声）を出力する際に、情報端末１０に対するユーザの距離及び方向の少なくとも一方に基づいて、音声調整を行ってもよい。

例えば、音声処理部１８１は、音取得部１３が取得した音に係る音信号（音情報）に対する信号レベル（強度）を基に、情報端末に対するユーザの距離が遠いか否かを判断する。音声処理部１８１は、情報端末１０に対するユーザの距離が遠いと判断する場合には、訪問者音声の音量を上げるように音声調整を行う。音声処理部１８１は、情報端末１０に対するユーザの距離が近いと判断する場合には、訪問者音声の音量を維持するよう、又は下げるように音声調整を行う。これにより、ユーザ側で聞こえる音量についても適切な音量とすることができる。

要するに、音声処理部１８１は、前記情報端末に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う構成であればよい。例えば、発話について音声調整処理を行うことで、情報端末１０の出力部１５から出力される音の音量をユーザの位置に応じてユーザが聞きやすい音量とすることができる。また、受話及び発話の双方について音声調整処理を行うことで、インターホン玄関装置（ロビーインターホン２０、玄関子機４０）から出力される音声の音量を適切な音量とするとともに、情報端末１０の出力部１５から出力される音の音量をユーザの位置に応じてユーザが聞きやすい音量とすることができる。

（５−４）変形例４
上記実施形態では、情報端末１０が、情報端末１０に対するユーザの距離及び方向に基づいて音声調整（音量の調整）を行う構成としたが、この構成に限定されない。

情報端末１０との通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）が、音量調整を行ってもよい。この場合、情報端末１０は、情報端末１０に対するユーザの距離及び方向のそれぞれの推定結果を、インターホン玄関装置に送信する。インターホン玄関装置は、推定結果を基に、インターホン玄関装置から出力するユーザの音声の音量を調整する。

（５−５）変形例５
上記実施形態では、音声処理部１８１は、ユーザが発した音声として所定のキーワードを音取得部１３が取得することをトリガとし、所定の条件としての情報（距離、方向）の取得（推定）を実行する構成とした。しかしながら、この構成に限定されない。

音声処理部１８１は、所定の条件としての情報（距離、方向）の取得（推定）を実行の開始の条件を、所定のキーワードを音取得部１３が取得することすることは必須ではない。インターホン玄関装置（ロビーインターホン２０、玄関子機４０）から呼出に係る制御信号を第１通信部１１又は第２通信部１２が受信すると、音声処理部１８１は、所定の条件としての情報（距離、方向）の取得（推定）を実行してもよい。

（５−６）変形例６
上記実施形態において、情報端末とインターホン玄関装置（ロビーインターホン２０、玄関子機４０）との通信が終了するまでの間、音声処理部１８１は、情報端末１０に対するユーザの距離及び方向の推定を繰り返し行ってもよい。

（５−７）変形例７
上記実施形態では、音取得部１３は、２つのマイクロホン（第１マイクロホン１３１、第２マイクロホン１３２）を有する構成としたが、この構成に限定されない。

音取得部１３は、１つのマイクロホン又は３つ以上のマイクロホンを有する構成であってもよい。音取得部１３が、１つのマイクロホンを有する構成は、所定の条件として情報端末１０に対するユーザの距離を推定する場合に有効である。また、音取得部１３が３つ以上のマイクロホンを有する場合には、情報端末１０に対するユーザの距離及び方向をより精度よく推定することができる。

（５−８）変形例８
上記実施形態において、音声認識部１８２は、情報端末１０の必須の構成要素ではない。音声認識部１８２は、情報端末１０とは異なる端末（例えばサーバ）が備えてもよい。この場合、情報端末１０は、音取得部１３が取得した音に係る音情報をサーバに送信する。サーバは、音声認識処理により、所定のキーワードの検知及び制御用ワードの検知を行う。具体的には、サーバは、音情報を基に、音取得部１３が取得した音に所定のキーワードが含まれるかの判断、及び音取得部１３が取得した音に制御用ワードが含まれるかを判断する。

または、所定のキーワードの検知を音声認識部１８２が行い、制御用ワードの検知をサーバが行ってもよい。

（５−９）変形例９
上記実施形態において、情報端末１０は、住戸端末（インターホン親機）とする構成としたが、この構成に限定されない。

情報端末１０は、インターホン玄関装置（ロビーインターホン２０、玄関子機４０）と通信可能に構成されている端末であればよく、例えばタブレット端末、スマートフォンであってもよい。

（５−１０）変形例１０
上記実施形態の情報端末１０が備える音声調整処理に係る機能（音取得部１３、音声処理部１８１）を、インターホン玄関装置（ロビーインターホン２０、玄関子機４０）に適用してもよい。

同様に、変形例１の情報端末１０Ａが備える音声調整処理に係る機能（音取得部１３、人検知部１９、音声処理部１８１Ａ、検知処理部１８６）を、インターホン玄関装置（ロビーインターホン２０、玄関子機４０）に適用してもよい。

（５−１１）変形例１１
上記実施形態の情報端末１０が備える音声処理部１８１は、通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されてもよい。

例えば、情報端末１０が備える音声処理部１８１は、出力部１５（スピーカ）が出力した音声が音取得部１３で入力されると、当該音声に対してエコーキャンセラによりエコーの抑制又は除去を行ってもよい。すなわち、音声処理部１８１は、出力部１５が出力した音声が音取得部１３で入力されると、当該音声をエコーキャンセラにより減衰させてもよい。出力部１５が出力した音声に対して、音声処理部１８１は減衰する処理（減衰処理）を行うので、当該音声に対して音声認識部１８２が行う音声認識処理は抑止される。すなわち、出力部１５が出力した音声に対して、音声処理部１８１が減衰処理を行うことで、当該音声を音声認識処理での処理対象外とすることができる。

または、音声処理部１８１は、出力部１５から音声が出力されているか否かを判断し、出力部１５から音声が出力されていると判断する場合には、音声認識部１８２による音声認識処理を抑止するように、音声認識部１８２を制御してもよい。音声認識部１８２による音声認識処理を抑止するように音声認識部１８２を制御する処理を行うことで、音声処理部１８１は、出力部１５が出力した音声を音声認識処理での処理対象外とすることができる。

例えば、情報端末１０がロビーインターホン２０と通信を行っている場合、ロビーインターホン２０から送信された音声が、第１マイクロホン１３１及び第２マイクロホン１３２のうち少なくとも一方のマイクロホンに入力され、音声認識処理が行われる場合がある。この場合、ロビーインターホン２０から送信された音声に共用玄関Ｅ１から入室するための扉を開錠するための制御用キーワードが含まれていると、制御処理部１８３は、音声認識処理の結果に基づいて、共用玄関Ｅ１から入室するための扉の開錠を制御する。すなわち、住戸Ｅ２のユーザの意思に関係なく、第三者（例えば訪問者）によって共用玄関Ｅ１の扉が解除されてしまう。

そこで、変形例１１の情報端末１０は、音取得部１３と、音声処理部１８１と、制御処理部１８３と、を備える。音取得部１３は、ユーザの音声を含む音を取得する。音声処理部１８１は、音取得部１３が取得した音に対して、音声調整処理を行う。制御処理部１８３は、音声処理部１８１が処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理部１８１は、通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されている。

この構成によると、音声処理部１８１は、通信対象であるインターホン玄関装置から受け取った音声を音声認識処理での処理対象外とする処理を行うので、第三者によって扉が解除されてしまう可能性を低くすることができる。

なお、変形例１１において、音取得部１３が複数のマイクロホン（第１マイクロホン１３１、第２マイクロホン１３２）を有することは必須ではない。音取得部１３は、１本のマイクロホンを有する構成であってもよい。音取得部１３が１本のマイクロホンを有する場合、音声処理部１８１がユーザの距離及び方向を推定することは必須ではない。音声処理部１８１は、音声調整処理として、音取得部１３（が有する１本マイクロホン）が取得した音信号に対して少なくともエコーの抑制又は除去を行う構成であればよい。

また、変形例１１に係る情報端末１０の処理方法は、インターホン装置として動作する情報端末で用いられる処理方法である。処理方法は、音取得ステップと、音声処理ステップと、制御処理ステップと、を備える。音取得ステップは、ユーザの音声を含む音を取得する。音声処理ステップは、音取得ステップが取得した音に対して、音声調整処理を行う。制御処理ステップは、音声処理ステップが処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理ステップは、通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）から受け取った音声を音声認識処理での処理対象外とする処理を行う。一態様に係るプログラムは、コンピュータシステムを、変形例１１に係る情報端末１０又は変形例１１に係る情報端末１０の処理方法として機能させるためのプログラムである。

また、変形例１１は、変形例１の情報端末１０Ａに適用してもよい。この場合、情報端末１０Ａの音声処理部１８１Ａは、通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されている。

（その他の変形例）
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、情報端末１０と同様の機能は、処理方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る情報端末１０の処理方法は、インターホン装置として動作する情報端末で用いられる処理方法である。当該処理方法は、処理ステップを含む。処理ステップは、情報端末１０に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。ここで、処理ステップは、図３で示すステップＳ５及びステップＳ７に相当する。一態様に係るプログラムは、コンピュータシステムを、上述した情報端末１０又は情報端末１０の処理方法として機能させるためのプログラムである。

本開示における情報端末１０又は情報端末１０の処理方法の実行主体は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを有する。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における情報端末１０又は情報端末１０の処理方法の実行主体としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されていてもよいが、電気通信回線を通じて提供されてもよい。また、プログラムは、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的な記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路（ＩＣ）又は大規模集積回路（ＬＳＩ）を含む１乃至複数の電子回路で構成される。ここでいうＩＣ又はＬＳＩ等の集積回路は、集積の度合いによって呼び方が異なっており、システムＬＳＩ、ＶＬＳＩ（Very Large Scale Integration）、又はＵＬＳＩ（Ultra Large Scale Integration）と呼ばれる集積回路を含む。さらに、ＬＳＩの製造後にプログラムされる、ＦＰＧＡ（Field-Programmable Gate Array）、又はＬＳＩ内部の接合関係の再構成若しくはＬＳＩ内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、１つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、１つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。

また、情報端末１０における複数の機能が、１つの筐体内に集約されていることは情報端末１０に必須の構成ではなく、情報端末１０の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、情報端末１０の少なくとも一部の機能、例えば、情報端末１０の一部の機能がクラウド（クラウドコンピューティング）等によって実現されてもよい。

（まとめ）
以上説明したように、第１の態様の情報端末（１０，１０Ａ）は、インターホン装置として動作する情報端末である。情報端末（１０，１０Ａ）は、情報端末（１０，１０Ａ）に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。

この構成によると、ユーザの位置に応じて明瞭な通話を行うことができる。

第２の態様の情報端末（１０，１０Ａ）は、第１の態様において、音取得部（１３）と、音声処理部（１８１，１８１Ａ）と、制御処理部（１８３）と、を備える。音取得部（１３）は、ユーザの音声を含む音を取得する。音声処理部（１８１）は、音取得部（１３）が取得した音に対して、上記距離及び上記方向のうち少なくとも一方を所定の条件として音声調整処理を行う。制御処理部（１８３）は、音声処理部（１８１）が処理した音に対する音声認識処理の結果に基づいた制御を行う。

この構成によると、ユーザの位置に応じて明瞭な通話を行うことができるとともに、ユーザが発した音声に応じた制御を行うことができる。

第３の態様の情報端末（１０，１０Ａ）では、第２の態様において、所定の条件は、ユーザの情報端末（１０）に対する距離を含む。音声処理部（１８１，１８１Ａ）は、距離に応じて、音取得部（１３）が取得したユーザの音声の音量を変更する。

この構成によると、情報端末（１０，１０Ａ）に対するユーザの距離に応じた適切な音量を設定することができる。

第４の態様の情報端末（１０，１０Ａ）では、第２又は第３の態様において、距離は、音取得部（１３）が取得した音に基づいて推定される結果を含む。

この構成によると、音取得部（１３）が取得した音に基づいて推定される結果に基づいて、明瞭な通話を行うことができる。

第５の態様の情報端末（１０，１０Ａ）では、第２又は第３の態様において、距離は、人を検知する人検知部（１９）が検知した結果に基づいて推定される結果を含む。

この構成によると、人検知部（１９）が検知した結果に基づいて推定される結果に基づいて、明瞭な通話を行うことができる。

第６の態様の情報端末（１０，１０Ａ）では、第２〜第５のいずれかの態様において、音声処理部（１８１）は、ユーザが発した音声として所定のキーワードを音取得部（１３）が取得することをトリガとし、所定の条件としての情報の取得を実行する。

この構成によると、所定の条件としての情報の取得を実行するタイミングを設定することができる。

第７の態様の情報端末（１０，１０Ａ）は、第２〜第６のいずれかの態様において、音声認識部（１８２）を、更に備える。音声認識部（１８２）は、音声処理部（１８１）が処理した音に対して音声認識処理を行う。

この構成によると、ユーザが発した音声に対して音声認識を行うことができる。具体的には、情報端末（１０，１０Ａ）の音声認識部（１８２）は、音声処理部（１８１）が処理した音に対して音声認識を行うため、より適切に音声認識を行うことができる。

第８の態様の情報端末（１０，１０Ａ）は、第２〜第７のいずれかの態様において、表示部（１６）と、表示処理部（１８４）と、を更に備える。表示部（１６）は、通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）が撮像した画像を表示する。表示処理部（１８４）は、表示部（１６）に画像を表示させる。表示処理部（１８４）は、所定の条件に応じて表示部（１６）が表示する画像の表示態様を変更する。

この構成によると、ユーザは、ユーザの位置によらず、訪問者が誰であるかを容易に確認することができる。

第９の態様の情報端末（１０，１０Ａ）は、第２〜第８のいずれかの態様において、音声処理部（１８１，１８１Ａ）は、通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）から受け取った音声を音声認識処理での処理対象外とする処理を行う。

この構成によると、第三者によって扉が解除されてしまう可能性を低くすることができる。

第１０の態様のインターホンシステム（１）は、第１〜第９のいずれかの態様の情報端末（１０，１０Ａ）と、情報端末（１０，１０Ａ）と通信するインターホン玄関装置（ロビーインターホン２０、玄関子機４０）と、を備える。

第１１の態様の処理方法は、インターホン装置として動作する情報端末（１０，１０Ａ）で用いられる処理方法である。処理方法は、処理ステップを含む。処理ステップは、情報端末（１０，１０Ａ）に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。

この処理方法によると、ユーザの位置に応じて明瞭な通話を行うことができる。

第１２の態様のプログラムは、コンピュータに、第１１の態様の処理方法を実行させるためのプログラムである。

このプログラムによると、ユーザの位置に応じて明瞭な通話を行うことができる。

第１３の態様の情報端末（１０，１０Ａ）は、音取得部（１３）と、音声処理部（１８１，１８１Ａ）と、制御処理部（１８３）と、を備える。音取得部（１３）は、ユーザの音声を含む音を取得する。音声処理部（１８１）は、音取得部（１３）が取得した音に対して、音声調整処理を行う。制御処理部（１８３）は、音声処理部（１８１）が処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理部（１８１）は、通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されている。

この構成によると、音声処理部（１８１，１８１Ａ）は、通信対象であるインターホン玄関装置から受け取った音声を音声認識処理での処理対象外とする処理を行うので、第三者によって扉が解除されてしまう可能性を低くすることができる。

第１４の態様のインターホンシステム（１）は、第１３の態様の情報端末（１０，１０Ａ）と、情報端末（１０，１０Ａ）と通信するインターホン玄関装置（ロビーインターホン２０、玄関子機４０）と、を備える。

第１５の態様の処理方法は、インターホン装置として動作する情報端末で用いられる処理方法である。処理方法は、音取得ステップと、音声処理ステップと、制御処理ステップと、を備える。音取得ステップは、ユーザの音声を含む音を取得する。音声処理ステップは、音取得ステップが取得した音に対して、音声調整処理を行う。制御処理ステップは、音声処理ステップが処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理ステップは、通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）から受け取った音声を音声認識処理での処理対象外とする処理を行う。

この処理方法によると、第三者によって扉が解除されてしまう可能性を低くすることができる。

第１６の態様のプログラムは、コンピュータに、第１５の態様の処理方法を実行させるためのプログラムである。

１インターホンシステム
１０，１０Ａ情報端末
１３音取得部
１６表示部
１９人検知部
２０ロビーインターホン（インターホン玄関装置）
４０玄関子機（インターホン玄関装置）
１８１，１８１Ａ音声処理部
１８２音声認識部
１８３制御処理部
１８４表示処理部

Claims

インターホン装置として動作する情報端末であって、
前記情報端末に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う、
情報端末。
前記ユーザの音声を含む音を取得する音取得部と、
前記音取得部が取得した音に対して、前記距離及び前記方向のうち少なくとも一方を所定の条件として前記音声調整処理を行う音声処理部と、
前記音声処理部が処理した音に対する音声認識処理の結果に基づいた制御を行う制御処理部と、を備える、
請求項１に記載の情報端末。
前記所定の条件は、前記ユーザの前記情報端末に対する前記距離を含み、
前記音声処理部は、前記距離に応じて、前記音取得部が取得した前記ユーザの音声の音量を変更する、
請求項２に記載の情報端末。
前記距離は、前記音取得部が取得した音に基づいて推定される結果を含む、
請求項２又は３に記載の情報端末。
前記距離は、人を検知する人検知部が検知した結果に基づいて推定される結果を含む、
請求項２又は３に記載の情報端末。
前記音声処理部は、前記ユーザが発した音声として所定のキーワードを前記音取得部が取得することをトリガとし、前記所定の条件としての情報の取得を実行する、
請求項２〜５のいずれか一項に記載の情報端末。
前記音声処理部が処理した音に対して音声認識処理を行う音声認識部を、更に備える、
請求項２〜６のいずれか一項に記載の情報端末。
通信対象であるインターホン玄関装置が撮像した画像を表示する表示部と、
前記表示部に前記画像を表示させるための表示処理部と、を更に備え、
前記表示処理部は、前記所定の条件に応じて前記表示部が表示する前記画像の表示態様を変更する、
請求項２〜７のいずれか一項に記載の情報端末。
前記音声処理部は、通信対象であるインターホン玄関装置から受け取った音声を前記音声認識処理での処理対象外とする処理を行う、
請求項２〜８のいずれか一項に記載の情報端末。
請求項１〜９のいずれか一項に記載の情報端末と、
前記情報端末と通信するインターホン玄関装置と、を備える、
インターホンシステム。
インターホン装置として動作する情報端末で用いられる処理方法であって、
前記情報端末に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う処理ステップを、含む、
処理方法。
コンピュータに、請求項１１に記載の処理方法を実行させるためのプログラム。