JP2020184656A

JP2020184656A - 音取得制御システム、情報端末、音取得制御方法、及びプログラム

Info

Publication number: JP2020184656A
Application number: JP2019086734A
Authority: JP
Inventors: 菊池　彰洋; Akihiro Kikuchi; 彰洋菊池; 正也花園; Masaya Hanazono; 西川　尚之; Naoyuki Nishikawa; 尚之西川; 守雄中村; Morio Nakamura; 龍司夏目; Ryuji Natsume
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2020-11-12

Abstract

【課題】インターホン装置に対する対象者の位置にかかわらず対象者の音声を取得する。【解決手段】音取得制御システム７は、制御部２２を備える。制御部２２は、対象者の顔の位置に基づいて、音を取得する音取得部２３を有するインターホン装置２の音取得部２３による音の取得方向を制御する。【選択図】図１

Description

本開示は、音取得制御システム、情報端末、音取得制御方法、及びプログラムに関する。より詳細には、本開示は、音を取得する音取得部を備える音取得制御システム、情報端末、音取得制御方法、及びプログラムに関する。

特許文献１には、玄関に設置されて居住者を呼び出して通話するための玄関子機（インターホン装置）と、宅内に設置されて玄関子機からの呼び出しに応答するための居室親機（情報端末）と、を備えるインターホンシステムが記載されている。

玄関子機は、マイクロホンアレイと、子機ＣＯＤＥＣと、位相差検出部と、到来方向推定部と、映像信号処理部と、を備える。マイクロホンアレイは、複数のマイクロホンを備える。子機ＣＯＤＥＣは、マイクロホンアレイが収音して出力する複数チャネルの音声信号をデジタル信号に変換する。位相差検出部は、居室親機に玄関子機から伝送された複数チャネルのデジタル音声信号から音声信号の位相差を検出する。到来方向推定部は、検出した位相差情報を基に音声の到来方向を推定する。映像信号処理部は、到来方向推定部の推定結果を基にモニタに表示する映像をパン・チルトする。

特開２０１６−１８９５７０号公報

ところで、特許文献１に記載のインターホンシステムでは、玄関子機に対する訪問者（対象者）の位置によっては訪問者の音声を取得できない可能性があった。

本開示の目的は、インターホン装置に対する対象者の位置にかかわらず対象者の音声を取得することができる音取得制御システム、情報端末、音取得制御方法、及びプログラムを提供することにある。

本開示の一態様に係る音取得制御システムは、制御部を備える。前記制御部は、対象者の顔の位置に基づいて、音を取得する音取得部を有するインターホン装置の前記音取得部による前記音の取得方向を制御する。

本開示の一態様に係る情報端末は、前記音取得制御システムにおける前記インターホン装置と通信可能な情報端末である。前記情報端末は、前記取得方向に関する情報を提示する提示部を備える。

本開示の一態様に係る音取得制御方法は、制御ステップを含む。前記制御ステップは、対象者の顔の位置に基づいて、音を取得する音取得部を有するインターホン装置の前記音取得部による前記音の取得方向を制御するステップである。

本開示の一態様に係るプログラムは、前記音取得制御方法を１以上のプロセッサに実行させるためのプログラムである。

本開示によれば、インターホン装置に対する対象者の位置にかかわらず対象者の音声を取得することができる、という効果がある。

図１は、一実施形態に係る音取得制御システムを適用したインターホンシステムの構成を示すブロック図である。図２は、同上の音取得制御システムの制御部及び音取得部の構成を示すブロック図である。図３は、同上の音取得制御システムの撮像部が撮像した画像の一例を示す図である。図４Ａ及び図４Ｂは、同上の音取得制御システムの音取得部による音の取得方向を説明する模式図である。図５Ａ及び図５Ｂは、同上の音取得制御システムの音取得部による音の取得方向を説明する別の模式図である。図６は、同上の音取得制御システムの動作を説明するフローチャートである。図７は、一実施形態の変形例１に係る音取得制御システムの制御部の構成を示すブロック図である。図８は、同上の音取得制御システムの音取得部による音の取得方向を説明する模式図である。

（実施形態）
（１）概要
以下、本実施形態に係る音取得制御システム７、及び音取得制御システム７を適用したインターホンシステム１０の概要について、図１を参照して説明する。

本実施形態に係る音取得制御システム７は、図１に示すように、インターホンシステム１０に適用される。インターホンシステム１０は、例えば、マンション等の集合住宅１００に適用される集合住宅用のインターホンシステムである。本実施形態に係るインターホンシステム１０は、複数（図１では２つ）の情報端末１と、インターホン装置２と、制御装置３と、複数（図１では２つ）のドアホン４と、を備えている。インターホンシステム１０では、複数の情報端末１の各々とインターホン装置２とが制御装置３を介して通信を行うように構成されている。また、インターホンシステム１０では、複数の情報端末１と複数のドアホン４とが一対一に対応している。なお、本実施形態に係るインターホンシステム１０は、集合住宅１００以外に、戸建住宅に適用されてもよい。あるいは、インターホンシステム１０は、事務所、店舗、学校若しくは介護施設等の非住宅施設等に適用されてもよい。

複数の情報端末１の各々は、例えば、集合住宅１００に含まれる複数の住戸１０１の各々に設けられている住戸端末（親機）である。各情報端末１は、例えば、各住戸１０１の内玄関に設けられている。各情報端末１は、第２幹線６２、分岐線６３、及び分岐器５を介して制御装置３に接続されている。各情報端末１は、制御装置３を介して、インターホン装置２との間で通信（例えば、通話、及び制御信号の送信等）を行うように構成されている。さらに、各情報端末１は、接続線６４を介して対応するドアホン４に接続されている。各情報端末１は、対応するドアホン４との間で通信（例えば、通話、及び制御信号の送信等）を行うように構成されている。

インターホン装置２は、例えば、集合住宅１００の共用玄関（ロビー）１０２に設けられているロビーインターホン（子機）である。インターホン装置２は、第１幹線６１を介して制御装置３に接続されている。インターホン装置２は、制御装置３を介して、各情報端末１との間で通信（例えば、通話、及び映像信号の送信等）を行うように構成されている。

制御装置３は、例えば、集合住宅１００の管理室１０３に設けられている。制御装置３は、第１幹線６１を介してインターホン装置２に接続され、かつ第２幹線６２を介して各情報端末１に接続されている。つまり、制御装置３は、各情報端末１とインターホン装置２との間の通信を中継するように構成されている。

複数のドアホン４の各々は、例えば、集合住宅１００の各住戸１０１の外玄関に設けられている。各ドアホン４は、接続線６４を介して対応する情報端末１に接続されている。各ドアホン４は、対応する情報端末１との間で通信（例えば、通話、映像信号の送信等）を行うように構成されている。

本実施形態では、第１幹線６１、第２幹線６２、分岐線６３、及び接続線６４は、いずれもツイストペア線である。つまり、実際には、第１幹線６１、第２幹線６２、分岐線６３、及び接続線６４は２本の電線で構成されるが、図面上は１本の線で表している。第１幹線６１、第２幹線６２、分岐線６３、及び接続線６４の少なくとも１つはツイストペア線以外の電線であってもよい。

本実施形態に係る音取得制御システム７は、制御部２２を備える。制御部２２は、対象者２００の顔２１０（図４Ａ参照）の位置に基づいて、音を取得する音取得部２３を有するインターホン装置２の音取得部２３による音の取得方向Ｄ１（図４Ａ参照）を制御する。対象者２００は、例えば、集合住宅１００への訪問者であるが、インターホン装置２から各住戸１０１を呼び出す者であればよく、外出先から帰宅した各住戸１０１の住人等であってもよい。本実施形態では、音取得制御システム７はインターホン装置２で構成されている。

本実施形態に係る音取得制御システム７では、対象者２００の顔２１０の位置に基づいて音取得部２３による音の取得方向Ｄ１（音取得部２３の指向性）を変更している。そのため、音取得部２３による音の取得方向Ｄ１を対象者２００の方向に向けることができ、インターホン装置２に対する対象者２００の位置にかかわらず対象者２００の音声（音）を取得することができる。

（２）構成
次に、本実施形態に係る音取得制御システム７（インターホン装置２）、及び音取得制御システム７を適用したインターホンシステム１０の構成について、図１及び図２を参照して説明する。

本実施形態に係るインターホンシステム１０は、図１に示すように、複数（図１では２つ）の情報端末１と、インターホン装置２と、制御装置３と、複数（図１では２つ）のドアホン４と、を備えている。複数の情報端末１と複数のドアホン４とは一対一に対応している。

なお、以下の説明では、複数の対象者２０１，２０２を特に区別しない場合には、複数の対象者２０１，２０２の各々を「対象者２００」ともいう。また、以下の説明では、複数の顔２１１，２１２を特に区別しない場合には、複数の顔２１１，２１２の各々を「顔２１０」ともいう。

（２．１）情報端末
情報端末１は、図１に示すように、第１通信部１１と、第２通信部１２と、制御部１３と、通話部１４と、映像処理部１５と、表示部１６と、操作部１７と、記憶部１８と、を備えている。

第１通信部１１は、インターホン装置２（の通信部２１）と通信するための通信インターフェースである。第１通信部１１は、第２幹線６２、分岐線６３、及び分岐器５を介して制御装置３に接続されている。第１通信部１１は、制御装置３を介して、インターホン装置２に対して音声信号、及び制御信号等を送信する。さらに、第１通信部１１は、制御装置３を介して、インターホン装置２から音声信号、及び映像信号等を受信する。

第２通信部１２は、ドアホン４と通信するための通信インターフェースである。第２通信部１２は、接続線６４を介してドアホン４に接続されている。第２通信部１２は、ドアホン４に対して音声信号、及び制御信号等を送信し、ドアホン４から音声信号、及び映像信号等を受信する。

制御部１３は、例えば、１以上のプロセッサ及び１以上のメモリを有するコンピュータシステムを主構成とする。そして、コンピュータシステムのメモリに記録されたプログラムを、コンピュータシステムのプロセッサが実行することにより、制御部１３の機能が実現される。プログラムは、メモリに予め記録されていてもよいし、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的記録媒体に記録されて提供されてもよい。制御部１３は、第１通信部１１、第２通信部１２、通話部１４、及び映像処理部１５等を制御するように構成されている。

通話部１４は、スピーカ及びマイクロホンを含み、インターホン装置２、及びドアホン４との間で通話可能に構成されている。

映像処理部１５は、インターホン装置２、及びドアホン４からの映像信号を受けて、信号処理により映像信号に含まれる映像を処理するように構成されている。映像処理部１５は、例えば、ＤＳＰ（Digital Signal Processor）、又はＦＰＧＡ（Field-ProgrammableGate Array）等のデバイスにて実現される。

表示部１６は、例えば、液晶ディスプレイである。表示部１６は、映像処理部１５からの映像を表示するように構成されている。また、本実施形態では、表示部１６は、音取得部２３による音の取得方向Ｄ１に関する情報を表示するように構成されている。つまり、本実施形態では、表示部１６は、音取得部２３による音の取得方向Ｄ１に関する情報を提示する提示部１９として機能する。言い換えると、情報端末１は、音取得部２３による音の取得方向Ｄ１に関する情報を提示する提示部１９を備えている。ここで、取得方向Ｄ１に関する情報は、取得方向Ｄ１を提示するように構成されていればよく、例えば、文字情報であってもよいし、画像情報であってもよい。また、提示部１９は表示部１６に限らず、例えば、通話部１４のスピーカであってもよいし、通話部１４のスピーカとは別に設けられたスピーカであってもよい。提示部１９がスピーカの場合、取得方向Ｄ１に関する情報を音声で提示することになる。さらに、提示部１９は、表示部１６とスピーカとの両方で構成されていてもよい。なお、情報端末１がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部１６と操作部１７とを兼ねてもよい。

操作部１７は、ユーザ（例えば、各住戸１０１の住人等）の操作を受け付けるように構成されている。操作部１７は、少なくとも通話ボタンを有している。通話ボタンは、インターホン装置２、又はドアホン４からの呼び出しに対して、インターホン装置２、又はドアホン４との通話を開始するためのボタンである。つまり、第１通信部１１が住人を呼び出すための呼出信号を受信している状態で通話ボタンが押されると、インターホン装置２、又はドアホン４と情報端末１との間で音声通話が可能になる。

記憶部１８は、読み書き可能なメモリで構成されている。記憶部１８は、例えば、フラッシュメモリである。記憶部１８は、例えば、インターホン装置２、及びドアホン４からの映像データを記憶する。さらに、記憶部１８は、情報端末１に割り当てられたアドレス情報（識別情報）を記憶する。

（２．２）インターホン装置
インターホン装置２は、図１に示すように、通信部２１と、制御部２２と、音取得部２３と、通話部２４と、表示部２５と、操作部２６と、記憶部２７と、撮像部２８と、を備えている。

通信部２１は、情報端末１（の第１通信部１１）と通信するための通信インターフェースである。通信部２１は、第１幹線６１を介して制御装置３（の通信部３１）に接続されている。通信部２１は、制御装置３を介して、情報端末１に対して音声信号、及び映像信号等を送信する。さらに、通信部２１は、制御装置３を介して、情報端末１から音声信号、及び制御信号等を受信する。ここで、インターホン装置２からの通信信号には、情報端末１を特定するための情報（例えば、アドレス情報等）が含まれている。そのため、この通信信号に含まれるアドレス情報と一致するアドレス情報が割り当てられた情報端末１のみが通信信号を受信することができる。

制御部２２は、例えば、１以上のプロセッサ及び１以上のメモリを有するコンピュータシステムを主構成とする。そして、コンピュータシステムのメモリに記録されたプログラムを、コンピュータシステムのプロセッサが実行することにより、制御部２２の機能が実現される。プログラムは、メモリに予め記録されていてもよいし、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的記録媒体に記録されて提供されてもよい。制御部２２は、通信部２１、音取得部２３、通話部２４、及び撮像部２８等を制御するように構成されている。

また、制御部２２は、図２に示すように、音声処理部２２１と、映像処理部２２２と、顔検出部２２３と、方向制御部２２４と、を有している。

音声処理部２２１は、音取得部２３から入力されるアナログの音信号をデジタルの音信号に変換するように構成されている。また、音声処理部２２１は、音取得部２３から入力される音信号に対して所定のフィルタリング処理等を行うように構成されている。

映像処理部２２２は、撮像部２８からの映像信号を受けて、信号処理により映像信号に含まれる映像を処理するように構成されている。映像処理部２２２は、信号処理を行った後の映像データを、通信部２１を介して情報端末１に送信する。また、映像処理部２２２は、信号処理を行った後の映像データを記憶部２７に記憶させる。

顔検出部２２３は、撮像部２８が撮像した画像Ｉ１（図３参照）における対象者２００の顔２１０を検出するように構成されている。顔検出部２２３は、例えば、顔パーツ（目、鼻、口）の位置関係から対象者２００の顔２１０を検出する。さらに、顔検出部２２３は、画像Ｉ１における顔２１０の位置を検出するように構成されている。顔検出部２２３は、検出結果として、画像Ｉ１における顔２１０の位置データを方向制御部２２４に出力する。なお、図３に示すように、画像Ｉ１に複数の顔２１０が含まれている場合には、複数の顔２１０の各々の位置データが検出結果に含まれる。

方向制御部２２４は、音取得部２３による音の取得方向Ｄ１（図４Ａ参照）を制御するように構成されている。具体的には、方向制御部２２４は、後述する第１マイクロホン２３１から入力される音のゲイン、及び後述する第２マイクロホン２３２から入力される音のゲインをそれぞれ調整するように構成されている。より具体的には、方向制御部２２４は、第１マイクロホン２３１及び第２マイクロホン２３２の各々から入力される音声信号に対して各種演算を行うことで、所望の方向の感度を高めた音声信号に変換する。これにより、所望の方向のＳ／Ｎ比が向上する。例えば、第１マイクロホン２３１から入力される音のゲインを１、第２マイクロホン２３２から入力される音のゲインを０とした場合、方向制御部２２４は、第１マイクロホン２３１から入力される音のみを出力することになる。つまり、制御部２２は、各マイクロホンから入力される音のゲインを方向制御部２２４が変えることで、音取得部２３による音の取得方向Ｄ１を制御することができる。ここで、方向制御部２２４は、顔検出部２２３の検出結果である、画像Ｉ１における顔２１０の位置データに基づいて、各マイクロホンから入力される音のゲインを調整する。言い換えると、制御部２２は、インターホン装置２の撮像部２８が撮像した画像Ｉ１における顔２１０の位置に基づいて取得方向Ｄ１を制御する。

音取得部２３は、複数のマイクロホンを有している。複数のマイクロホンの各々は、指向性を有するマイクロホンである。本実施形態では、図２に示すように、２つのマイクロホン（第１マイクロホン２３１及び第２マイクロホン２３２）を有している。第１マイクロホン２３１及び第２マイクロホン２３２は、水平方向（左右方向）及び鉛直方向（上下方向）の少なくとも一方において互いに異なる指向性を有している。第１マイクロホン２３１及び第２マイクロホン２３２は、インターホン装置２の前方に位置する対象者２００の音声（音）を含む周囲の音を取得し、取得した音をアナログの音信号に変換して制御部２２に出力する。

通話部２４は、スピーカ及びマイクロホンを含み、情報端末１との間で通話可能に構成されている。

表示部２５は、例えば、液晶ディスプレイである。表示部２５は、映像処理部２２２からの映像を表示するように構成されている。また、表示部２５は、対象者２００に対してメッセージを表示するように構成されている。つまり、本実施形態では、表示部２５は、対象者２００に対するメッセージを提示する提示部２０として機能する。メッセージは、例えば、対象者２００に発話を促すためのメッセージである。表示部２５は、例えば、「お話しください」等のメッセージを表示する。この場合において、同様の音声メッセージを通話部２４のスピーカ、又は通話部２４のスピーカとは別に設けられたスピーカから出力（報知）してもよい。また、表示部２５とスピーカとを併用してもよい。なお、インターホン装置２がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部２５と操作部２６とを兼ねてもよい。

操作部２６は、ユーザ（例えば、集合住宅１００への訪問者、住人等）の操作を受け付けるように構成されている。操作部２６は、例えば、複数の押ボタンスイッチ、及びタッチパネル等を有する入力インターフェースである。

記憶部２７は、読み書き可能なメモリで構成されている。記憶部２７は、例えば、フラッシュメモリである。記憶部２７は、例えば、撮像部２８で撮像された映像（画像）の映像データを記憶する。

撮像部２８は、撮像素子を有し、被写体（ユーザ）を撮像するためのカメラである。本実施形態では、撮像部２８の撮像エリア（視野）は、インターホン装置２の前方に設定されている。本実施形態では、撮像部２８は動画を撮像するカメラである。さらに、本実施形態では、撮像部２８はカラー画像を撮像するカメラである。なお、撮像部２８は、静止画を撮像するカメラ（スチルカメラ）であってもよいし、モノクロ画像を撮像するカメラであってもよい。

撮像素子は、例えば、ＣＣＤ（Charge Coupled Devices）イメージセンサ、又はＣＭＯＳ（Complementary Metal-Oxide Semiconductor）イメージセンサ等の二次元イメージセンサである。撮像部２８は、被写体からの光をレンズ等の光学系によって撮像素子の撮像面（受光面）上に結像させ、撮像素子にて被写体からの光を電気信号に変換する。そして、撮像部２８は、撮像素子の出力信号を映像信号として映像処理部２２２に出力する。

図３は、撮像部２８が撮像した画像Ｉ１の一例を示す図である。図３に示す例では、対象者２００は２人であるが、対象者２００は１人であってもよいし、３人以上であってもよい。図３に示す例では、制御部２２の顔検出部２２３は、画像Ｉ１から、対象者２０１の顔２１１と、対象者２０２の顔２１２と、を検出する。また、顔検出部２２３は、画像Ｉ１における顔２１１の位置と、画像Ｉ１における顔２１２の位置と、を検出する。そして、制御部２２の方向制御部２２４は、顔検出部２２３の検出結果である、画像Ｉ１における顔２１１の位置と顔２１２の位置との少なくとも一方に基づいて、音取得部２３による音の取得方向Ｄ１を制御する。言い換えると、制御部２２は、インターホン装置２の撮像部２８が撮像した画像Ｉ１に複数の対象者２００の顔２１０が含まれている場合に、複数の顔２１０のうち少なくとも１つの顔２１０の位置に基づいて取得方向Ｄ１を制御する。ここで、インターホン装置２に対する対象者２００の位置が変化した場合でも対象者２００の音声（音）を取得できるように、制御部２２は、音取得部２３による音の取得方向Ｄ１をリアルタイムに制御することが好ましい。これにより、例えば、インターホン装置２に対する対象者２００の位置が通話中に変化した場合でも、対象者２００の移動方向に取得方向Ｄ１を制御することで、対象者２００の音声（音）を取得することができる。

（２．３）制御装置
制御装置３は、図１に示すように、通信部３１と、制御部３２と、記憶部３３と、を備えている。

通信部３１は、各情報端末１、及びインターホン装置２と通信するための通信インターフェースである。通信部３１は、第１幹線６１を介してインターホン装置２に接続され、第２幹線６２を介して各情報端末１に接続されている。つまり、通信部３１は、各情報端末１とインターホン装置２との間の通信を中継するように構成されている。

制御部３２は、例えば、１以上のプロセッサ及び１以上のメモリを有するコンピュータシステムを主構成とする。そして、コンピュータシステムのメモリに記録されたプログラムを、コンピュータシステムのプロセッサが実行することにより、制御部３２の機能が実現される。プログラムは、メモリに予め記録されていてもよいし、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的記録媒体に記録されて提供されてもよい。制御部３２は、通信部３１を制御するように構成されている。

記憶部３３は、読み書き可能なメモリで構成されている。記憶部３３は、例えば、フラッシュメモリである。記憶部３３は、例えば、各住戸１０１に割り当てられた部屋番号と、各情報端末１に割り当てられたアドレス情報との対応関係を表す対応テーブルを記憶する。つまり、制御装置３では、制御部３２は、対応テーブルを参照して、インターホン装置２からの通信信号に含まれる部屋番号を対応する情報端末１のアドレス情報に置き換えた通信信号を作成し、この通信信号を通信部３１から各情報端末１に送信させる。そして、各情報端末１では、制御部１３は、第１通信部１１が受信した通信信号に含まれるアドレス情報が、記憶部１８に記憶されているアドレス情報と一致する場合には、この通信信号に含まれる情報を取得する。また、各情報端末１では、制御部１３は、第１通信部１１が受信した通信信号に含まれるアドレス情報が、記憶部１８に記憶されているアドレス情報と一致しない場合には、この通信信号に含まれる情報を破棄する。

（２．４）ドアホン
各ドアホン４は、図１に示すように、接続線６４を介して対応する情報端末１に接続されている。ドアホン４は、情報端末１に対して音声信号、及び映像信号等を送信する。さらに、ドアホン４は、情報端末１から音声信号、及び制御信号等を受信する。

（３）動作
（３．１）動作例１
本実施形態に係る音取得制御システム７の動作例１について、図４Ａ及び図４Ｂを参照して説明する。図４Ａは対象者２００が１人の場合を示し、図４Ｂは対象者２００が複数（図４Ｂでは２人）の場合を示している。図４Ａ及び図４Ｂでは、音取得制御システム７を構成するインターホン装置２が共用玄関１０２の壁面Ｗ１に取り付けられている。

図４Ａに示すように、対象者２００が１人であり、かつ対象者２００がインターホン装置２の正面に位置している場合を想定する。この場合、制御部２２は、画像Ｉ１における対象者２００の顔２１０の位置に基づいて、音取得部２３による音の取得方向Ｄ１を、対象者２００が位置しているインターホン装置２の正面方向に制御する。言い換えると、制御部２２は、対象者２００の顔２１０の位置に基づいて、音取得部２３による音の取得方向Ｄ１を制御する。具体的には、制御部２２の方向制御部２２４は、顔検出部２２３の検出結果に基づいて、音取得部２３による音の取得方向Ｄ１がインターホン装置２の正面方向となるように、音取得部２３の各マイクロホンから入力される音のゲインを調整する。この場合において、制御部２２は、インターホン装置２から対象者２００の顔２１０までの距離Ｌ１に基づいて、音取得部２３が取得する音のゲインを制御することが好ましい。例えば、距離Ｌ１が短い場合には、対象者２００から音取得部２３までの距離も短くなるため、制御部２２は、音取得部２３が取得する音のゲインを小さくする。また、距離Ｌ１が長い場合には、対象者２００から音取得部２３までの距離も長くなるため、音取得部２３が取得する音のゲインを大きくする。これにより、インターホン装置２から対象者２００までの距離Ｌ１の長さにかかわらず、ほぼ一定の大きさの音声（音）を取得することができる。また、インターホン装置２から対象者２００までの距離Ｌ１が長い場合でも、音取得部２３が取得する音のゲインを大きくすることで、対象者２００からの音声（音）を確実に取得することができる。

図４Ｂに示すように、対象者２００が複数であり、かつ複数の対象者２００がインターホン装置２の左寄りに位置している場合を想定する。この場合、制御部２２は、画像Ｉ１における対象者２０１の顔２１１の位置、及び対象者２０２の顔２１２の位置に基づいて、領域Ｒ１の中心方向に取得方向Ｄ１を制御する。つまり、制御部２２は、画像Ｉ１における複数の対象者２０１，２０２の顔２１１，２１２の位置から求められる代表方向（ここでは領域Ｒ１の中心方向）に取得方向Ｄ１を制御する。領域Ｒ１は、対象者２０１の顔２１１及び対象者２０２の顔２１２の両方を含む領域である。具体的には、制御部２２の方向制御部２２４は、顔検出部２２３の検出結果に基づいて、音取得部２３による音の取得方向Ｄ１が領域Ｒ１の中心方向となるように、音取得部２３の各マイクロホンから入力される音のゲインを調整する。このように、複数の対象者２０１，２０２の顔２１１，２１２を含む領域Ｒ１の中心方向に取得方向Ｄ１を制御することで、複数の対象者２０１，２０２の音声（音）をより確実に取得することができる。

ここで、図４Ｂに示す例では、領域Ｒ１の中心方向は、鉛直方向（紙面に垂直な方向）から見たときの領域Ｒ１を２等分する方向である。また、本開示でいう「代表方向」は、画像Ｉ１における複数の顔２１０の位置から求められる方向であり、領域Ｒ１の中心方向は一例である。例えば、複数の対象者２００のうち１人の対象者２００が発話している場合には、この対象者２００の方向を代表方向としてもよい。つまり、制御部２２は、画像Ｉ１における複数の顔２１０のうち口元が動いている顔２１０の方向に取得方向Ｄ１を制御してもよい。この場合において、制御部２２は、画像Ｉ１における複数の顔２１０のうち、インターホン装置２の提示部２０（表示部２５）がメッセージを提示した後に口元が動いている顔２１０の方向に取得方向Ｄ１を制御してもよい。これらの構成によれば、音取得部２３による音の取得方向Ｄ１を、発話している対象者２００の方向に向けることができるので、対象者２００の音声（音）をより確実に取得することができる。

動作例１に係る音取得制御システム７では、制御部２２は、図４Ａ及び図４Ｂに示すように、音取得部２３による音の取得方向Ｄ１を水平方向（左右方向）に制御することができる。言い換えると、制御部２２は、水平方向に取得方向Ｄ１を制御することができる。例えば、発話中の対象者２００の位置を音声だけで推定する場合には、マイクロホンの数が多い方が推定精度を高めることができる。これに対して、動作例１に係る音取得制御システム７では、発話中の対象者２００の位置を画像Ｉ１から推定できるので、マイクロホンの数が少なくても取得方向（収音方向）Ｄ１を制御することができる。また、例えば、インターホン装置２の左右方向から騒音が発生している場合に、騒音に対する音声レベルを向上させることもできる。

ところで、制御部２２は、画像Ｉ１における対象者２００の顔２１０の大きさ、位置、及び個数の少なくとも１つに基づいて、音取得部２３による音の取得範囲（図４Ｂでは領域Ｒ１）を変更することが好ましい。

まず、画像Ｉ１における対象者２００の顔２１０の個数に基づいて、音取得部２３による音の取得範囲を設定する場合を想定する。例えば、対象者２００が２人の場合、制御部２２は、２人の対象者２００の顔２１０が音の取得範囲に含まれるように、音取得部２３による音の取得範囲を設定する。図４Ｂに示す例では、取得範囲は領域Ｒ１に設定される。一方、対象者２００が１人の場合、制御部２２は、１人の対象者２００の顔２１０が含まれるように取得範囲を設定する。この場合、取得範囲に含まれる顔２１０が１つであることから、対象者２００が２人の場合に比べて取得範囲が小さくなる。

また、画像Ｉ１における顔２１０の大きさに基づいて、音取得部２３による音の取得範囲を設定する場合を想定する。この場合、画像Ｉ１における顔２１０の大きさが大きくなるほどインターホン装置２に近づいていることになるため、制御部２２は取得範囲を小さくする。一方、画像Ｉ１における顔２１０の大きさが小さくなるほどインターホン装置２から離れていることになるため、制御部２２は取得範囲を大きくする。

また、画像Ｉ１における顔２１０の位置に基づいて、音取得部２３による音の取得範囲を設定する場合を想定する。この場合、画像Ｉ１における中央寄りの位置に顔２１０があればインターホン装置２に近づいていることになるため、制御部２２は取得範囲を小さくする。一方、画像Ｉ１における外縁寄りの位置に顔２１０があればインターホン装置２から離れていることになるため、制御部２２は取得範囲を大きくする。

（３．２）動作例２
本実施形態に係る音取得制御システム７の動作例２について、図５Ａ及び図５Ｂを参照して説明する。図５Ａはインターホン装置２が共用玄関１０２の壁面Ｗ１に取り付けられている場合を示し、図５Ｂはインターホン装置２が共用玄関１０２に設けられた取付台８の取付面Ｍ１に取り付けられている場合を示している。図５Ａ及び図５Ｂでは、対象者２００が１人であるが、対象者２００は複数であってもよい。

図５Ａに示す例では、制御部２２は、画像Ｉ１における対象者２００の顔２１０の位置に基づいて、音取得部２３による音の取得方向Ｄ１を、インターホン装置２の正面に位置する対象者２００の方向に制御する。具体的には、制御部２２の方向制御部２２４は、顔検出部２２３の検出結果に基づいて、音取得部２３による音の取得方向Ｄ１が対象者２００の正面方向となるように、音取得部２３の各マイクロホンから入力される音のゲインを調整する。

図５Ｂに示す例では、制御部２２は、画像Ｉ１における対象者２００の顔２１０の位置に基づいて、音取得部２３による音の取得方向Ｄ１を対象者２００の正面方向に制御する。具体的には、制御部２２の方向制御部２２４は、顔検出部２２３の検出結果に基づいて、音取得部２３による音の取得方向Ｄ１が対象者２００の正面方向となるように、音取得部２３の各マイクロホンから入力される音のゲインを調整する。ここで、図５Ｂに示す例では、インターホン装置２が取り付けられる取付台８の取付面Ｍ１は、水平面（地表面）に対して傾斜角度θ１だけ傾斜している。そのため、各マイクロホンから入力される音のゲインを、図５Ａと同様に調整した場合には、音取得部２３による音の取得方向Ｄ１は、インターホン装置２の撮像部２８の撮像方向Ｐ１と平行な方向になる。そこで、方向制御部２２４は、取得方向Ｄ１が撮像部２８の撮像方向Ｐ１に対して角度θ２だけ下側を向くように、各マイクロホンから入力される音のゲインを調整する。なお、角度θ２は、９０度から傾斜角度θ１を引いた値である。

この場合において、例えば、傾斜角度θ１が１０度よりも小さければ、制御部２２は、傾斜角度θ１を考慮しないで、画像Ｉ１における対象者２００の顔２１０の位置のみに基づいて取得方向Ｄ１を制御する。一方、傾斜角度θ１が１０度を超えていれば、制御部２２は、傾斜角度θ１と、画像Ｉ１における対象者２００の顔２１０の位置とに基づいて取得方向Ｄ１を制御する。

動作例２に係る音取得制御システム７では、制御部２２は、図５Ａ及び図５Ｂに示すように、音取得部２３による音の取得方向Ｄ１を鉛直方向（上下方向）に制御することができる。言い換えると、制御部２２は、鉛直方向に取得方向Ｄ１を制御することができる。例えば、発話中の対象者２００の位置を音声だけで推定する場合には、マイクロホンの数が多い方が推定精度を高めることができる。これに対して、動作例２に係る音取得制御システム７では、発話中の対象者２００の位置を画像Ｉ１から推定できるので、マイクロホンの数が少なくても取得方向（収音方向）Ｄ１を制御することができる。また、例えば、インターホン装置２の上下方向から騒音が発生している場合に、騒音に対する音声レベルを向上させることもできる。

ところで、図５Ｂに示す例では、インターホン装置２は、水平面（地表面）に対する傾斜角度がθ１である取付面Ｍ１に取り付けられている。そして、方向制御部２２４は、水平面に対する取付面Ｍ１の傾斜角度θ１と、画像Ｉ１における顔２１０の位置とに基づいて、各マイクロホンからの音のゲインを調整している。この場合において、制御部２２は、インターホン装置２が取り付けられる取付面Ｍ１の傾斜角度θ１の代わりに、撮像部２８の撮像方向Ｐ１を用いてもよい。言い換えると、制御部２２は、インターホン装置２が取り付けられる取付面Ｍ１の傾斜角度θ１、及びインターホン装置２の撮像部２８の撮像方向Ｐ１の少なくとも一方と顔２１０の位置とに基づいて取得方向Ｄ１を制御すればよい。撮像部２８の撮像方向Ｐ１を用いた場合、方向制御部２２４は、取得方向Ｄ１が撮像方向Ｐ１に対して角度θ２だけ下側を向くように、各マイクロホンから入力される音のゲインを調整する。

ところで、制御部２２は、ユーザ（例えば、住人等）が情報端末１の操作部１７を操作することにより、音取得部２３による音の取得方向Ｄ１を変更するように構成されていてもよい。この構成によれば、例えば、顔検出部２２３が顔２１０を誤検出し、対象者２００の音声（音）が十分に聞き取れない場合に、取得方向Ｄ１を変更することにより対象者２００の音声を聞き取りやすくすることができる。

（３．３）全体動作
次に、音取得制御システム７の全体動作について、図６を参照して説明する。

撮像部２８は、インターホン装置２の正面に位置している対象者２００を撮像する（第１ステップＳ１）。制御部２２の顔検出部２２３は、撮像部２８が撮像した画像Ｉ１から対象者２０１，２０２の顔２１１，２１２を検出する（第２ステップＳ２）。また、顔検出部２２３は、画像Ｉ１における顔２１１，２１２の位置データを検出する（第３ステップＳ３）。そして、制御部２２の方向制御部２２４は、顔検出部２２３の検出結果である、画像Ｉ１における顔２１１，２１２の位置データに基づいて、各マイクロホンから入力される音のゲインを調整する（第４ステップＳ４）。これにより、制御部２２は、音取得部２３による音の取得方向Ｄ１を制御することができる。本実施形態では、第４ステップＳ４が制御ステップである。

（４）変形例
上述の実施形態は、本開示の様々な実施形態の一つに過ぎない。上述の実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、音取得制御システム７と同様の機能は、音取得制御方法、コンピュータプログラム、又はコンピュータプログラムを記録した非一時的記録媒体等で具現化されてもよい。

一態様に係る音取得制御方法は、制御ステップ（第４ステップＳ４）を含む。制御ステップは、対象者２００の顔２１０の位置に基づいて、音を取得する音取得部２３を有するインターホン装置２の音取得部２３による音の取得方向Ｄ１を制御するステップである。一態様に係るプログラムは、上述の音取得制御方法を１以上のプロセッサに実行させるためのプログラムである。

以下、上述の実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。

本開示における音取得制御システム７は、例えば、制御部２２に、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における音取得制御システム７としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路（ＩＣ）又は大規模集積回路（ＬＳＩ）を含む１ないし複数の電子回路で構成される。ここでいうＩＣ又はＬＳＩ等の集積回路は、集積の度合いによって呼び方が異なっており、システムＬＳＩ、ＶＬＳＩ（Very Large Scale Integration）、又はＵＬＳＩ（UltraLarge Scale Integration）と呼ばれる集積回路を含む。さらに、ＬＳＩの製造後にプログラムされる、ＦＰＧＡ（Field-Programmable Gate Array）、又はＬＳＩ内部の接合関係の再構成若しくはＬＳＩ内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、１つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、１つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、１以上のプロセッサ及び１以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む１ないし複数の電子回路で構成される。

また、音取得制御システム７の複数の構成要素が、１つの筐体内に集約されていることは音取得制御システム７に必須の構成ではなく、音取得制御システム７の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、音取得制御システム７の少なくとも一部の機能（例えば、制御部２２）がクラウド（クラウドコンピューティング）等によって実現されてもよい。

（４．１）変形例１
以下、変形例１に係る音取得制御システム７について、図７及び図８を参照して説明する。変形例１に係る音取得制御システム７では、制御部２２Ａが抑制部２２５を有している点で上述の実施形態に係る音取得制御システム７と異なっている。なお、それ以外の構成については上述の実施形態に係る音取得制御システム７と同様であり、同一の構成要素には同一の符号を付して説明を省略する。

変形例１に係る音取得制御システム７は、通信部２１と、制御部２２Ａと、音取得部２３と、通話部２４と、表示部２５（提示部２０）と、操作部２６と、記憶部２７と、撮像部２８と、を備えている。制御部２２Ａは、図７に示すように、音声処理部２２１、映像処理部２２２、顔検出部２２３、及び方向制御部２２４の他、抑制部２２５を有している。

抑制部２２５は、画像Ｉ１における顔２１０の位置に基づいて設定された取得方向Ｄ１以外の方向から音取得部２３が取得した音を抑制するように構成されている。具体的には、抑制部２２５は、取得方向Ｄ１から音取得部２３が取得した音に比べて、取得方向Ｄ１以外の方向から音取得部２３が取得した音のゲインを小さくする。これにより、取得方向Ｄ１以外の方向から音取得部２３が取得した音を抑制することができる。

例えば、図８に示すように、共用玄関１０２の壁面Ｗ１に取り付けられているインターホン装置２の正面に対象者２００が位置している場合を想定する。また、例えば、音取得部２３が３つのマイクロホン（第１マイクロホン、第２マイクロホン、第３マイクロホン）を有している場合を想定する。第１マイクロホンは、取得方向Ｄ１の方向に指向性を有するマイクロホンである。第２マイクロホンは、領域Ｒ２の方向に指向性を有するマイクロホンである。第３マイクロホンは、領域Ｒ３の方向に指向性を有するマイクロホンである。

この場合、制御部２２は、音取得部２３による音の取得方向Ｄ１をインターホン装置２の正面方向に制御する。また、制御部２２の抑制部２２５は、取得方向Ｄ１以外の方向を含む領域Ｒ２，Ｒ３から音取得部２３が取得する音を抑制する。具体的には、制御部２２は、第１マイクロホンのゲインに対して第２マイクロホン及び第３マイクロホンのゲインを小さくする。これにより、領域Ｒ２，Ｒ３からの音について抑制することができる。このように、取得方向Ｄ１以外の方向からの不要な音を抑制することで、取得方向Ｄ１からの音声の音声レベルを相対的に向上させることができ、これにより情報端末１側では対象者２００の音声が聞き取りやすくなる。

（４．２）その他の変形例
以下、その他の変形例を列挙する。

音取得部２３は、例えば、ビームフォーミングによって音の取得方向Ｄ１を変更するように構成されていてもよい。また、音取得部２３は、複数のマイクロホンのうち、選択するマイクロホンを切り替えることによって音の取得方向Ｄ１を変更するように構成されていてもよい。さらに、音取得部２３は、マイクロホンの向きを切り替えることによって音の取得方向Ｄ１を変更するように構成されていてもよい。

また、音取得部２３は、音の取得方向Ｄ１を連続的に変更するように構成されていてもよいし、段階的に変更するように構成されていてもよい。

上述の実施形態では、制御部２２がインターホン装置２に含まれているが、制御部２２は音取得制御システム７に含まれていればよく、インターホン装置２に含まれていなくてもよい。つまり、音取得制御システム７は、インターホン装置２で構成されていなくてもよい。

上述の実施形態では、音取得部２３が２つのマイクロホン（第１マイクロホン２３１、第２マイクロホン２３２）を有しているが、音取得部２３は３つ以上のマイクロホンを有していてもよい。これにより、音取得部２３による音の取得方向Ｄ１の調整範囲を拡げることができると共に、取得方向Ｄ１をより細かく調整することができる。

上述の実施形態では、インターホン装置２がロビーインターホンであるが、インターホン装置２はロビーインターホンに限らず、例えば、住戸端末（親機）であってもよい。この場合、住戸端末には、内蔵のカメラ、又は外付けのカメラが設けられていてもよい。さらに、インターホン装置２は、例えば、ドアホンであってもよいし、管理室親機が設けられている場合には管理室親機であってもよい。インターホン装置２が管理室親機の場合、管理室親機には、内蔵のカメラ、又は外付けのカメラが設けられていてもよい。

（まとめ）
以上説明したように、第１の態様に係る音取得制御システム（７）は、制御部（２２；２２Ａ）を備える。制御部（２２；２２Ａ）は、対象者（２００）の顔（２１０）の位置に基づいて、音を取得する音取得部（２３）を有するインターホン装置（２）の音取得部（２３）による音の取得方向（Ｄ１）を制御する。

この態様によれば、対象者（２００）の顔（２１０）の位置に基づいて音取得部（２３）による音の取得方向（Ｄ１）を変更しているので、インターホン装置（２）に対する対象者（２００）の位置にかかわらず対象者（２００）の音声を取得することができる。

第２の態様に係る音取得制御システム（７）では、第１の態様において、制御部（２２；２２Ａ）は、インターホン装置（２）の撮像部（２８）が撮像した画像（Ｉ１）における顔（２１０）の位置に基づいて取得方向（Ｄ１）を制御する。

この態様によれば、撮像部（２８）が撮像した画像（Ｉ１）に基づいて、音取得部（２３）による音の取得方向（Ｄ１）を制御することができる。

第３の態様に係る音取得制御システム（７）では、第１又は２の態様において、制御部（２２；２２Ａ）は、水平方向（左右方向）に取得方向（Ｄ１）を制御する。

この態様によれば、音取得部（２３）による音の取得方向（Ｄ１）を水平方向に制御することができる。

第４の態様に係る音取得制御システム（７）では、第１〜３のいずれかの態様において、制御部（２２；２２Ａ）は、鉛直方向（上下方向）に取得方向（Ｄ１）を制御する。

この態様によれば、音取得部（２３）による音の取得方向（Ｄ１）を鉛直方向に制御することができる。

第５の態様に係る音取得制御システム（７）では、第１〜４のいずれかの態様において、制御部（２２；２２Ａ）は、インターホン装置（２）が取り付けられる取付面（Ｍ１）の傾斜角度（θ１）、及びインターホン装置（２）の撮像部（２８）の撮像方向（Ｐ１）の少なくとも一方と顔（２１０）の位置とに基づいて取得方向（Ｄ１）を制御する。

この態様によれば、インターホン装置（２）が斜めに取り付けられている場合でも、対象者（２００）がいる方向に取得方向（Ｄ１）を制御することができる。

第６の態様に係る音取得制御システム（７）では、第１〜５のいずれかの態様において、制御部（２２；２２Ａ）は、インターホン装置（２）の撮像部（２８）が撮像した画像（Ｉ１）に複数の対象者（２００）の顔（２１０）が含まれている場合に、複数の顔（２１０）のうち少なくとも１つの顔（２１０）の位置に基づいて取得方向（Ｄ１）を制御する。

この態様によれば、複数の対象者（２００）がいる場合でも、複数の対象者（２００）がいる方向に取得方向（Ｄ１）を制御することができる。

第７の態様に係る音取得制御システム（７）では、第６の態様において、制御部（２２；２２Ａ）は、画像（Ｉ１）における複数の顔（２１０）の位置から求められる代表方向に取得方向（Ｄ１）を制御する。

この態様によれば、複数の対象者（２００）の音声（音）を確実に取得することができる。

第８の態様に係る音取得制御システム（７）では、第６の態様において、制御部（２２；２２Ａ）は、画像（Ｉ１）における複数の顔（２１０）のうち口元が動いている顔（２１０）の方向に取得方向（Ｄ１）を制御する。

この態様によれば、発話中の対象者（２００）の方向に取得方向（Ｄ１）を制御することで、対象者（２００）の音声（音）を確実に取得することができる。

第９の態様に係る音取得制御システム（７）では、第８の態様において、制御部（２２；２２Ａ）は、画像（Ｉ１）における複数の顔（２１０）のうちインターホン装置（２）の提示部（２０）がメッセージを提示した後に口元が動いている顔（２１０）の方向に取得方向（Ｄ１）を制御する。

第１０の態様に係る音取得制御システム（７）では、第１〜９のいずれかの態様において、制御部（２２；２２Ａ）は、インターホン装置（２）から顔（２１０）までの距離（Ｌ１）に基づいて、音取得部（２３）が取得する音のゲインを制御する。

この態様によれば、インターホン装置（２）から離れた場所にいる対象者（２００）の音声についても音声レベルを向上させることができる。

第１１の態様に係る音取得制御システム（７）では、第１〜１０のいずれかの態様において、制御部（２２Ａ）は、顔（２１０）の位置に基づいた取得方向（Ｄ１）以外の方向から音取得部（２３）が取得した音を抑制する。

この態様によれば、取得方向（Ｄ１）以外の方向からの不要な音を抑制することで、取得方向（Ｄ１）からの音声の音声レベルを相対的に向上させることができる。

第１２の態様に係る音取得制御システム（７）では、第１〜１１のいずれかの態様において、制御部（２２）は、インターホン装置（２）と通信可能な情報端末（１）が受け付けた操作情報に基づいて取得方向（Ｄ１）を変更する。

この態様によれば、対象者（２００）の顔（２１０）の位置を誤検出した場合に、音取得部（２３）による音の取得方向（Ｄ１）を変更することができる。

第１３の態様に係る音取得制御システム（７）では、第１〜１２のいずれかの態様において、制御部（２２；２２Ａ）は、取得方向（Ｄ１）をリアルタイムに制御する。

この態様によれば、音取得部（２３）による音の取得方向（Ｄ１）をリアルタイムに制御することができる。

第１４の態様に係る音取得制御システム（７）では、第１〜１３のいずれかの態様において、制御部（２２；２２Ａ）は、インターホン装置（２）の撮像部（２８）が撮像した画像（Ｉ１）における顔（２１０）の大きさ、位置、及び個数の少なくとも１つに基づいて音の取得範囲（Ｒ１）を変更する。

この態様によれば、画像（Ｉ１）における顔（２１０）の位置等に基づいて音取得部（２３）による音の取得範囲（Ｒ１）を自動的に変更することができる。

第１５の態様に係る情報端末（１）は、第１〜１４のいずれかの態様に係る音取得制御システム（７）におけるインターホン装置（２）と通信可能な情報端末（１）である。情報端末（１）は、取得方向（Ｄ１）に関する情報を提示する提示部（２０）を備える。

この態様によれば、取得方向（Ｄ１）に関する情報を提示部（２０）に提示することで、所望の音声が聞き取れているかを情報端末（１）の利用者に知らせることができる。

第１６の態様に係る音取得制御方法は、制御ステップ（第４ステップＳ４）を含む。制御ステップは、対象者（２００）の顔（２１０）の位置に基づいて、音を取得する音取得部（２３）を有するインターホン装置（２）の音取得部（２３）による音の取得方向（Ｄ１）を制御するステップである。

第１７の態様に係るプログラムは、第１６の態様に係る音取得制御方法を１以上のプロセッサに実行させるためのプログラムである。

第２〜１４の態様に係る構成については、音取得制御システム（７）に必須の構成ではなく、適宜省略可能である。

１情報端末
２インターホン装置
２０提示部
２２，２２Ａ制御部
２３音取得部
２８撮像部
７音取得制御システム
２００対象者
２１０顔
Ｄ１取得方向
Ｉ１画像
Ｌ１距離
Ｍ１取付面
Ｐ１撮像方向
Ｒ１領域（取得範囲）
Ｓ４第４ステップ（制御ステップ）
θ１傾斜角度

Claims

対象者の顔の位置に基づいて、音を取得する音取得部を有するインターホン装置の前記音取得部による前記音の取得方向を制御する制御部を備える、
音取得制御システム。
前記制御部は、前記インターホン装置の撮像部が撮像した画像における前記顔の位置に基づいて前記取得方向を制御する、
請求項１に記載の音取得制御システム。
前記制御部は、水平方向に前記取得方向を制御する、
請求項１又は２に記載の音取得制御システム。
前記制御部は、鉛直方向に前記取得方向を制御する、
請求項１〜３のいずれか１項に記載の音取得制御システム。
前記制御部は、前記インターホン装置が取り付けられる取付面の傾斜角度、及び前記インターホン装置の撮像部の撮像方向の少なくとも一方と前記顔の位置とに基づいて前記取得方向を制御する、
請求項１〜４のいずれか１項に記載の音取得制御システム。
前記制御部は、前記インターホン装置の撮像部が撮像した画像に複数の前記対象者の前記顔が含まれている場合に、前記複数の顔のうち少なくとも１つの顔の位置に基づいて前記取得方向を制御する、
請求項１〜５のいずれか１項に記載の音取得制御システム。
前記制御部は、前記画像における前記複数の顔の位置から求められる代表方向に前記取得方向を制御する、
請求項６に記載の音取得制御システム。
前記制御部は、前記画像における前記複数の顔のうち口元が動いている顔の方向に前記取得方向を制御する、
請求項６に記載の音取得制御システム。
前記制御部は、前記画像における前記複数の顔のうち前記インターホン装置の提示部がメッセージを提示した後に口元が動いている顔の方向に前記取得方向を制御する、
請求項８に記載の音取得制御システム。
前記制御部は、前記インターホン装置から前記顔までの距離に基づいて、前記音取得部が取得する音のゲインを制御する、
請求項１〜９のいずれか１項に記載の音取得制御システム。
前記制御部は、前記顔の位置に基づいた前記取得方向以外の方向から前記音取得部が取得した音を抑制する、
請求項１〜１０のいずれか１項に記載の音取得制御システム。
前記制御部は、前記インターホン装置と通信可能な情報端末が受け付けた操作情報に基づいて前記取得方向を変更する、
請求項１〜１１のいずれか１項に記載の音取得制御システム。
前記制御部は、前記取得方向をリアルタイムに制御する、
請求項１〜１２のいずれか１項に記載の音取得制御システム。
前記制御部は、前記インターホン装置の撮像部が撮像した画像における前記顔の大きさ、位置、及び個数の少なくとも１つに基づいて前記音の取得範囲を変更する、
請求項１〜１３のいずれか１項に記載の音取得制御システム。
請求項１〜１４のいずれか１項に記載の音取得制御システムにおける前記インターホン装置と通信可能な情報端末であって、
前記取得方向に関する情報を提示する提示部を備える、
情報端末。
対象者の顔の位置に基づいて、音を取得する音取得部を有するインターホン装置の前記音取得部による前記音の取得方向を制御する制御ステップを含む、
音取得制御方法。
請求項１６に記載の音取得制御方法を１以上のプロセッサに実行させるためのプログラム。