JP2024072183A

JP2024072183A - 情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラム

Info

Publication number: JP2024072183A
Application number: JP2022182904A
Authority: JP
Inventors: 貴洋野上; 剛桑野; 元希青木
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2024-05-27

Abstract

【課題】音声認識の機能に関する改善を図ること。【解決手段】情報端末１０は、音声認識部１８２と、制御処理部１８３と、通信部（第１通信部１１）と、を備える。音声認識部１８２は、マイクロホン１３１に入力された音声に基づいて音声認識を行う。制御処理部１８３は、音声認識部１８２で音声認識された制御コマンドに基づく制御を行う。通信部は、他の端末との通話を含む通信を行う。音声認識部１８２で音声認識される制御コマンドの種類は、自機の動作状態に応じて設定されている。【選択図】図１

Description

本開示は、一般に、情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラムに関する。より詳細には、本開示は、他の端末との通話を含む通信機能を有した情報端末、情報端末を備えるインターホンシステム、情報端末と通信する音声認識システム、情報端末の制御方法、音声認識システムの制御方法、及びプログラムに関する。

特許文献１には、集合住宅等で用いられるインターホンシステムが開示されている。特許文献１のインターホンシステムは、集合住宅の共同玄関に設置されるロビーインターホン、各住戸内に設置されるインターホン親機、及び各住戸の戸外（玄関先）に設置されるドアホン子器を備える。

このようなインターホンシステムでは、来訪者は、ロビーインターホンを用いてインターホン親機を呼び出す。この呼出に応じて住戸の住人がインターホン親機に対して所定の操作を行うことでロビーインターホンとインターホン親機との間で通話が開始される。ドアホン子器でインターホン親機を呼び出したときも同様に、呼出に応じて住戸の住人がインターホン親機に対して所定の操作を行うことでドアホン子器とインターホン親機との間で通話が開始される。

特開２００４－６４２４９号公報

ところで、所定の操作として住戸の住人が発した音声を基に音声認識を行うシステムが存在する。情報端末（例えばインターホン親機）やインターホンシステムにて音声認識を利用する場合、音声認識の処理速度や精度の向上といった音声認識の機能に関する改善が望まれている。

本開示は上記事由に鑑みてなされ、音声認識の機能に関する改善を図ることができる、情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラムを提供することを目的とする。

本開示の一態様の情報端末は、音声認識部と、制御処理部と、通信部と、を備える。前記音声認識部は、マイクロホンに入力された音声に基づいて音声認識を行う。前記制御処理部は、前記音声認識部で音声認識された制御コマンドに基づく制御を行う。前記通信部は、他の端末との通話を含む通信を行う。前記情報端末では、前記音声認識部で音声認識される前記制御コマンドの種類は、自機の動作状態に応じて設定されている。

本開示の一態様のインターホンシステムは、上記の情報端末と、前記他の端末と、を備える。

本開示の一態様の音声認識システムは、情報端末と通信する通信部と、音声認識部と、を備える。前記音声認識部は、マイクロホンに入力された音声を前記情報端末から前記通信部で受信すると、前記音声に対する音声認識を行う。前記音声認識部は、前記情報端末の制御処理部が行う制御に関する制御コマンドについてのコマンド音声認識を行う。前記音声認識部で音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている。

本開示の一態様の制御方法は、情報端末を制御する制御方法である。前記制御方法は、音声認識ステップと、制御処理ステップと、通信ステップと、を含む。前記音声認識ステップでは、マイクロホンに入力された音声に基づいて音声認識処理を行う。前記制御処理ステップでは、前記音声認識ステップにて音声認識された制御コマンドに基づく制御を行う。前記通信ステップでは、他の端末との通話を含む通信を行う。前記音声認識ステップで音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている。

本開示の一態様の制御方法は、音声認識システムを制御する制御方法である。前記制御方法は、情報端末と通信する通信ステップと、音声認識ステップと、を含む。前記音声認識ステップでは、マイクロホンに入力された音声を前記情報端末から前記通信ステップにて受信すると、前記音声に対する音声認識処理を行う。前記音声認識ステップでは、前記情報端末の制御処理部が行う制御に関する制御コマンドについてのコマンド音声認識を行う。前記音声認識ステップで音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている。

本開示の一態様のプログラムは、１以上のプロセッサに、上記のいずれかの制御方法を実行させるためのプログラムである。

本開示によれば、音声認識の機能に関する改善を図ることができる、という利点がある。

図１Ａは、一実施形態に係る情報端末の構成を説明するブロック構成図である。図１Ｂは、同上の情報端末の操作部の構成を説明するブロック構成図である。図２は、同上の情報端末を備えるインターホンシステムの構成を説明するブロック構成図である。図３は、同上の情報端末における通話関連に関する動作例（動作例１）に関するフローチャートである。図４は、同上の動作例（動作例１）を説明する概念図である。図５Ａ及び図５Ｂは、同上の情報端末における所定の動作（防犯セットの動作）に関する動作例（動作例２）を説明する概念図である。図６は、同上の情報端末における所定の動作（ドアモニタ確認の動作）に関する動作例（動作例３）を説明する概念図である。図７は、同上の情報端末における所定の動作（録画再生の動作）に関する動作例（動作例４）を説明する概念図である。図８は、同上の情報端末における所定の動作（エアコン制御の動作）に関する動作例（動作例５）を説明する概念図である。図９は、同上の情報端末における所定の動作（シーン制御の動作）に関する動作例（動作例６）を説明する概念図である。図１０は、同上の情報端末を備えるインターホンシステムの変形例１の構成を説明するブロック構成図である。図１１は、同上の情報端末を備えるインターホンシステムの変形例２の構成を説明するブロック構成図である。

以下に説明する実施形態及び変形例は、本開示の一例に過ぎず、本開示は、実施形態及び変形例に限定されない。以下の実施形態及び変形例以外であっても、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。

（実施形態）
以下、本実施形態に係る情報端末１０を備えるインターホンシステム１について、図１Ａ～図９を用いて説明する。情報端末１０は、例えばインターホン装置として動作する。

（１）概要
以下、本実施形態に係る情報端末１０について説明する。

本実施形態に係る情報端末１０は、図２に示すように、インターホンシステム１に適用される。インターホンシステム１は、例えば、マンション等の集合住宅５に適用される。本実施形態に係るインターホンシステム１は、情報端末１０を備える。本実施形態では、インターホンシステム１は、各々がインターホン装置として動作する複数（図２では２つ）の情報端末１０を備える。インターホンシステム１は、ロビーインターホン２０（インターホン玄関装置）と、制御装置３０と、複数（図２では２つ）の玄関子機４０（インターホン玄関装置；図２参照）とを、更に備える。言い換えると、インターホンシステム１は、情報端末１０と、他の端末（ロビーインターホン２０及び／又は玄関子機４０）と、を備える。

インターホンシステム１では、複数の情報端末１０の各々とロビーインターホン２０とが制御装置３０を介して通信を行うように構成されている。また、インターホンシステム１では、複数の情報端末１０と複数の玄関子機４０とが一対一に対応している。なお、本実施形態に係るインターホンシステム１は、集合住宅５以外に、戸建住宅に適用されてもよい。あるいは、インターホンシステム１は、事務所、店舗、学校若しくは介護施設等の非住宅施設等に適用されてもよい。

言い換えると、インターホンシステム１は、施設、又は集合施設に適用されてもよい。「施設」は、「住宅」であれば、戸建住宅、又は集合住宅５の住戸に対応し、「非住宅」であれば、事務所、店舗、学校若しくは介護施設等に対応し得る。また、「集合施設」は、複数の住戸（専有部）が集まった集合住宅５でもよいし、複数の事務所や店舗（専有部）が集まった非住宅の集合施設でもよいし、例えば下層階が非住宅の集合施設で上層階が集合住宅である複合施設でもよい。

複数の情報端末１０の各々は、例えば、集合住宅５に含まれる複数の住戸Ｅ２の各々に設けられている住戸端末（インターホン親機）である。各情報端末１０は、例えば、各住戸Ｅ２内の居室等に設けられている居室親機としての機能をする住宅情報盤であることを想定する。

各情報端末１０は、第２幹線６２、分岐線６３、及び分岐器５０を介して制御装置３０に接続されている。各情報端末１０は、制御装置３０を介して、ロビーインターホン２０との間で通信（例えば、通話、及び制御信号の送信等）を行うように構成されている。さらに、各情報端末１０は、接続線６４を介して対応する玄関子機４０に接続されている。各情報端末１０は、対応する玄関子機４０との間で通信（例えば、通話、及び制御信号の送信等）を行うように構成されている。

ロビーインターホン２０は、例えば、集合住宅５の共用玄関（ロビー）Ｅ１に設けられている。ロビーインターホン２０は、第１幹線６１を介して制御装置３０に接続されている。ロビーインターホン２０は、制御装置３０を介して、各情報端末１０との間で通信（例えば、通話、及び映像信号の送信等）を行うように構成されている。ロビーインターホン２０は、例えば、共用玄関Ｅ１の壁に取り付けられている。ロビーインターホン２０が映像信号を情報端末１０に送信することで、情報端末１０は、映像（画像）を表示することができる。

要するに、本実施形態に係る情報端末１０は、通信部（第１通信部１１，第３通信部１９；図１Ａ参照）を備える。通信部（第１通信部１１，第３通信部１９）は、他の端末（ここでは、ロビーインターホン２０，玄関子機４０に相当）との通話を含む通信を行う。

制御装置３０は、例えば、集合住宅５の管理室Ｅ３に設けられている。制御装置３０は、第１幹線６１を介してロビーインターホン２０に接続され、かつ第２幹線６２を介して各情報端末１０に接続されている。つまり、制御装置３０は、各情報端末１０とロビーインターホン２０との間の通信を中継するように構成されている。

複数の玄関子機４０の各々は、例えば、集合住宅５の住戸Ｅ２の外玄関に設けられている。各玄関子機４０は、接続線６４を介して対応する情報端末１０に接続されている。各玄関子機４０は、対応する情報端末１０との間で通信（例えば、通話、映像信号の送信等）を行うように構成されている。

本実施形態では、第１幹線６１、第２幹線６２、分岐線６３、及び接続線６４は、いずれもツイストペア線である。つまり、実際には、第１幹線６１、第２幹線６２、分岐線６３、及び接続線６４は２本の電線で構成されるが、図面上は１本の線で表している。第１幹線６１、第２幹線６２、分岐線６３、及び接続線６４の少なくとも１つはツイストペア線以外の電線であってもよい。

本実施形態に係る情報端末１０は、住戸Ｅ２内の住人（以下では、単に「ユーザ」と呼ぶこともある）の音声を取得し、取得した音声に対して音声認識を施す。すなわち、情報端末１０は、図１Ａに示すように、音声認識部１８２を備える。音声認識部１８２は、マイクロホン１３１に入力された音声に基づいて音声認識を行う。マイクロホン１３１は、情報端末１０自身に設けられていることを想定する。

情報端末１０は、音声認識の結果に基づいて、インターホンシステム１の操作に関する制御を行う。言い換えると、情報端末１０は、図１Ａに示すように、制御処理部１８３を更に備える。制御処理部１８３は、音声認識部１８２の音声認識結果に基づく制御を行う。具体的には、制御処理部１８３は、音声認識部１８２で音声認識された制御コマンド（例えば音声認識に成功した制御コマンド）に基づく制御を行う。

要するに、情報端末１０は、音声操作が可能に構成されている。例えば、情報端末１０は、住戸Ｅ２内のユーザの音声に、共用玄関Ｅ１に設けられた玄関扉２００（扉）の開閉に係る制御を行うための制御コマンドのキーワード（コマンドワード）が含まれていると判断（音声認識の成功）すると、コマンドワードに応じた制御を行う。具体的には、情報端末１０は、制御コマンドとして「解錠して！」を、音声認識部１８２の音声認識により検出すると、玄関扉２００（図２参照）を開くための電気錠２０１の解錠制御を行う。ここで、玄関扉２００は、電気錠２０１（図２参照）で開閉されるように構成されている。

ところで、インターホン装置又はインターホンシステムにて音声認識を利用する場合、音声認識の処理速度又は精度の向上、また、ユーザの利便性の向上といった音声認識の機能に関する改善が望まれている。

そこで、本開示の一形態に係る情報端末１０では、音声認識部１８２は、第１方式、又は第１方式の音声認識よりも簡易な第２方式で音声認識を行うように構成される。音声認識部１８２は、待機状態において第１方式で音声認識を行い、他の端末（ロビーインターホン２０又は玄関子機４０）との通話状態において第２方式で音声認識を行う。つまり、情報端末１０の音声認識部１８２は、第１方式の音声認識と、第２方式の音声認識とを、待機状態と通話状態とで使い分ける。上記の一形態では、他の端末（ロビーインターホン２０又は玄関子機４０）との通話状態においては、第１方式の音声認識よりも簡易な第２方式で音声認識が行われる。そのため、通話状態における音声認識に関する処理速度が向上する可能性が高くなり、ユーザの利便性が向上し得る。結果的に、情報端末１０には、音声認識の機能に関する改善を図れる、という利点がある。

なお、「待機状態」は、他の端末との通話状態でもなく、他の端末から情報端末１０の呼出を受けている呼出状態でもなく、さらに、所定の動作モードを実行している状態でもない状態を意味する。詳細は後述するが、「所定の動作モード」とは、一例として、防犯セットの動作モード、ドアモニタ確認の動作モード、及び録画再生の動作モード等である。言い換えると、「待機状態」は、例えば、主に、音声認識部１８２（特に、トリガー音声認識を行う第１音声認識部１８２１）、及びマイクロホン１３１のみがアクティブである状態を意味する。

また、本開示の一形態に係る制御方法は、情報端末１０を制御する制御方法である。制御方法は、音声認識ステップと、制御処理ステップと、通信ステップと、を含む。音声認識ステップでは、マイクロホン１３１に入力された音声に基づいて音声認識処理を行う。制御処理ステップでは、音声認識ステップの音声認識結果に基づく制御を行う。通信ステップでは、他の端末（ロビーインターホン２０，玄関子機４０）との通話を含む通信を行う。音声認識処理は、第１方式、又は第１方式の音声認識よりも簡易な第２方式で音声認識を行う。音声認識処理は、待機状態において第１方式で音声認識を行い、他の端末との通話状態において第２方式で音声認識を行う。上記の一形態に係る制御方法には、音声認識の機能に関する改善を図れる、という利点がある。この制御方法は、コンピュータシステム（情報端末１０）上で用いられる。つまり、この制御方法は、プログラムでも具現化可能である。本開示の一態様に係るプログラムは、上記の一形態に係る制御方法を１以上のプロセッサに実行させるためのプログラムである。プログラムは、コンピュータで読み取り可能な非一時的記録媒体に記録されていてもよい。

また、本開示の別の一形態に係る情報端末１０では、音声認識部１８２で音声認識される制御コマンドの種類は、自機の動作状態に応じて設定されている。そのため、情報端末１０の各動作状態において、音声認識部１８２がマイクロホン１３１に入力された音声にどの制御コマンド（コマンドワード）が含まれているかを音声識別する際に、全ての制御コマンドを参照の対象にして検索する可能性を低減できる。その結果、音声認識の処理速度又は精度が向上し得る。結果的に、上記別の一形態の情報端末１０には、音声認識の機能に関する改善を図れる、という利点がある。

また、本開示の別の一形態に係る制御方法は、情報端末１０を制御する制御方法である。制御方法は、音声認識ステップと、制御処理ステップと、通信ステップと、を含む。音声認識ステップでは、マイクロホン１３１に入力された音声に基づいて音声認識処理を行う。制御処理ステップでは、音声認識ステップにて音声認識された制御コマンド（例えば音声認識に成功した制御コマンド）に基づく制御を行う。通信ステップでは、他の端末（ロビーインターホン２０，玄関子機４０）との通話を含む通信を行う。音声認識ステップで音声認識される制御コマンドの種類は、情報端末１０の動作状態に応じて設定されている。上記の別の一形態に係る制御方法には、音声認識の機能に関する改善を図れる、という利点がある。この制御方法は、コンピュータシステム（情報端末１０）上で用いられる。つまり、この制御方法は、プログラムでも具現化可能である。本開示の別の一態様に係るプログラムは、上記の別の一形態に係る制御方法を１以上のプロセッサに実行させるためのプログラムである。プログラムは、コンピュータで読み取り可能な非一時的記録媒体に記録されていてもよい。

なお、本実施形態では一例として、情報端末１０が住戸端末（インターホン親機）であり、本開示で言う「他の端末」は、ロビーインターホン２０、又は玄関子機４０であることを想定する。しかし、「他の端末」は、施設の管理人室（ここでは例えば管理室Ｅ３）に設置される管理人室親機であってもよい。また、情報端末１０は、住戸端末（インターホン親機）に限定されない。情報端末１０は、例えば、管理人室親機であってもよく、その場合、「他の端末」は、住戸端末（インターホン親機）、又はロビーインターホン２０であってもよい。また、情報端末１０は、ロビーインターホン２０、又は玄関子機４０であってもよい。

以下では、特に断り無く単に「他の端末」と呼ぶ場合は、ロビーインターホン２０、又は玄関子機４０であることを意味する。

（２）構成
（２－１）情報端末
情報端末１０は、図１Ａに示すように、第１通信部１１、第２通信部１２、音取得部１３、操作部１４、音出力部１５、表示部１６、記憶部１７、処理部１８、及び第３通信部１９を備える。

情報端末１０（例えば処理部１８）は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが情報端末１０として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。

第１通信部１１（通信部）は、ロビーインターホン２０（の通信部２１；図２参照）と通信するための通信インタフェースである。すなわち、第１通信部１１は、他の端末（ロビーインターホン２０）との通話を含む通信を行う。第１通信部１１は、第２幹線６２、分岐線６３、及び分岐器５０を介して制御装置３０に接続されている。第１通信部１１は、制御装置３０を介して、ロビーインターホン２０に対して音声信号、及び制御信号等を送信する。さらに、第１通信部１１は、制御装置３０を介して、ロビーインターホン２０から呼出信号、音声信号、及び映像信号等を受信する。

第２通信部１２は、外部（ここでは、サーバ７０）と通信するための通信インタフェースである。第２通信部１２は、ネットワークＮＴ１を介してサーバ７０に接続されている。第２通信部１２は、各種情報をサーバ７０から受信してよい。また、制御装置３０が、ゲートウェイ等を介して、ネットワークＮＴ１及びサーバ７０に接続され、情報端末１０が、分岐線６３、制御装置３０を介してサーバ７０に接続されてもよい。

第３通信部１９（通信部）は、玄関子機４０と通信するための通信インタフェースである。すなわち、第３通信部１９は、他の端末（玄関子機４０）との通話を含む通信を行う。第３通信部１９は、接続線６４を介して玄関子機４０に接続されている。第３通信部１９は、玄関子機４０に対して音声信号、及び制御信号等を送信し、玄関子機４０から呼出信号、音声信号、及び映像信号等を受信する。

情報端末１０は、ロビーインターホン２０及び玄関子機４０との通信状態等に応じて、少なくとも３つの動作状態を取り得る。本実施形態の情報端末１０が取り得る動作状態は、呼出状態、通話状態、及び待機状態を含む。本実施形態の情報端末１０が取り得る動作状態は、更に、モード動作状態を含む。呼出状態は、ロビーインターホン２０又は玄関子機４０から呼出信号を受信して呼び出しを受けている状態である。通話状態は、ロビーインターホン２０又は玄関子機４０と通話可能に通信を確立している状態である。モード動作状態は、所定の動作モードを実行している状態である。所定の動作モードは、上述の通り、防犯セットの動作モード、ドアモニタ確認の動作モード、及び録画再生の動作モード等である。待機状態は、通話状態でもなく、呼出状態でもなく、モード動作状態でもない状態である。

後述するエアコン等の機器制御の動作、及びシーン制御の動作について、情報端末１０にとっては、外部に制御を指示する指示信号を送信する瞬時的な動作であり、これらの動作は、実行している状態が比較的長い間（例えば１分以上）維持される可能性は低い。しかし、エアコン等の機器制御の動作、及びシーン制御の動作についても、情報端末１０にとって動作を実行している状態が比較的長い場合には、上記のモード動作状態に相当してもよい。例えば、シーン制御が、録画再生の動作モードの実行を含む場合（後述する「動作例６」）、シーン制御（録画再生）の動作モードも、上記の所定の動作モードであってもよい。

音取得部１３は、少なくともユーザの音声を含む音を取得し、取得した音に係る音情報（音声データ）を処理部１８に出力する。音取得部１３は、マイクロホン１３１を有している（図１Ａ参照）。音取得部１３は、マイクロホン１３１に入力された、情報端末１０の前方に位置するユーザの音声（音）を含む周囲の音をアナログの音信号（音情報）に変換して処理部１８に出力する。

音出力部１５は、スピーカ１５１を有する。スピーカ１５１は、情報端末１０がロビーインターホン２０と通話可能な状態（通話状態）である場合には、ロビーインターホン２０から送信された音声信号（音データ）に基づいた音（訪問者等の音声を含む）を出力する。スピーカ１５１は、情報端末１０が玄関子機４０と通話可能な状態（通話状態）である場合には、玄関子機４０から送信された音声信号（音データ）に基づいた音（訪問者等の音声を含む）を出力する。また、スピーカ１５１は、情報端末１０の状況に応じて、例えば記憶部１７に記憶されている種々の音声メッセージや電子音を出力する。

図１Ａでは、マイクロホン１３１は２個図示されている。すなわち、音取得部１３は、２個のマイクロホン１３１（第１マイクロホン１３１１、第２マイクロホン１３１２）を有する。

第１マイクロホン１３１１、及び第２マイクロホン１３１２は、例えば、情報端末１０の正面から見て左右の上部にそれぞれ配置されている。特に、第１マイクロホン１３１１は、第２マイクロホン１３１２よりも、スピーカ１５１から離れた位置にある。言い換えると、第１マイクロホン１３１１は、遠端のマイクである。

本実施形態の情報端末１０は、例えば、通話用の音声データとして、他の端末との通話時に、第１マイクロホン１３１１に入力されたユーザの音声を利用する。第１マイクロホン１３１１に入力された音声は、主に、通話用の音声処理が実行されて他の端末に送信される。つまり、第２マイクロホン１３１２ではなく、遠端の第１マイクロホン１３１１の音声を通話用の音声データに利用することで、スピーカ１５１から出力される（訪問者の）音声がマイクロホン１３１に回り込むことを抑制している。

一方、本実施形態の情報端末１０は、例えば、音声認識用の音声データとして、第１マイクロホン１３１１、及び第２マイクロホン１３１２に入力されたユーザの音声を利用する。特に、処理部１８は、２個のマイクロホン１３１を利用して、受音方向の指向性を高めるビームフォーミング（Beamforming）に関する処理を実行する機能を有している。処理部１８は、第１マイクロホン１３１１、及び第２マイクロホン１３１２から入力されるユーザの音声から、ユーザが情報端末１０に対して左右どちらの方向から発話しているかを推定する。そして、処理部１８は、その推定結果に基づき、特定の方向からの音声信号に対する感度を上げる処理を実行する。

操作部１４は、ユーザの操作を受け付けるように構成されている。操作部１４は、図１Ｂに示すように、応答操作部１４１（通話操作部）、終了操作部１４２、及び解錠操作部１４３を有している。操作部１４は、その他にも、表示部１６の画面にホーム画面を表示させるためのボタン（ホーム操作部）等を更に有している。

言い換えると、情報端末１０は、他の端末からの情報端末１０の呼出に対する通話応答をする応答操作を受け付ける応答操作部１４１を備える。応答操作部１４１は、ロビーインターホン２０、又は玄関子機４０からの呼び出しに対して、ロビーインターホン２０、又は玄関子機４０との通信（訪問者等との通話）を開始するための操作部（ボタン）である。つまり、例えば、第１通信部１１が住人を呼び出すための呼出信号を受信している状態（呼出状態）で応答操作部１４１が操作されると、ロビーインターホン２０と情報端末１０との間で音声通話が可能になる。

また、言い換えると、情報端末１０は、終了操作部１４２、及び解錠操作部１４３の少なくとも一方（本実施形態では両方）を更に備える。終了操作部１４２は、他の端末との通話を終了する終了操作を受け付ける。解錠操作部１４３は、情報端末１０が設置された施設（ここでは集合住宅５）で入退するための扉（ここでは共用玄関Ｅ１に設けられた玄関扉２００；図２参照）に設けられた電気錠２０１を解錠する解錠操作を受け付ける。つまり、例えば、第１通信部１１がロビーインターホン２０と通話（通信）をしている状態（通話状態）において、終了操作部１４２が操作されると、ロビーインターホン２０との音声通話が終了する。また、例えば、第１通信部１１がロビーインターホン２０と通話（通信）をしている状態（通話状態）において、解錠操作部１４３が操作されると、情報端末１０から制御装置３０を介して電気錠２０１に解錠を行わせるための解錠信号が送信される。その結果、電気錠２０１が解錠されて、訪問者は、玄関扉２００を開けて共用玄関Ｅ１より先に進入することができる。本実施形態では、解錠操作部１４３が操作されて電気錠２０１が解錠されても、情報端末１０は、ロビーインターホン２０との音声通話を自動的に終了しないことを想定するが、電気錠２０１の解錠に応じて音声通話を自動的に終了してもよい。また、ロビーインターホン２０が、通信部２１とは別の通信部（電気錠通信部）を有していて、電気錠通信部が電気錠２０１と接続されていてもよい。この場合、情報端末１０が解錠制御を行うと、ロビーインターホン２０から電気錠２０１へ解錠信号が出力されて、電気錠２０１が解錠される。

本実施形態では一例として、応答操作部１４１、終了操作部１４２、解錠操作部１４３及びホーム操作部は、情報端末１０の筐体前面の表示部１６の周囲に配置された、静電容量式のタッチセンサによって実現されている。すなわち、ユーザは、応答操作部１４１、終了操作部１４２、解錠操作部１４３及びホーム操作部に対して指先で軽くタッチするだけで、操作入力が受け付けられる。ただし、応答操作部１４１、終了操作部１４２、解錠操作部１４３及びホーム操作部は、タッチセンサによって実現されることに限定されず、これらの少なくとも一部が押し釦式のスイッチによって実現されてもよい。

表示部１６は、例えば、液晶ディスプレイである。表示部１６は、映像を表示するように構成されている。表示部１６は、情報端末１０がロビーインターホン２０と通話（通信）可能な状態である場合に、通信対象であるロビーインターホン２０が撮像した映像を表示する。表示部１６は、情報端末１０が玄関子機４０と通話（通信）可能な状態である場合に、通信対象である玄関子機４０が撮像した映像を表示する。なお、情報端末１０がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが、表示部１６と、例えば操作部１４の一部の機能とを兼ねてもよい。また、表示部１６は、ホーム画面、設定画面、及び各動作状態に応じた画面を表示する。

記憶部１７は、第１記憶部１７１、及び第２記憶部１７２を含む。第１記憶部１７１、及び第２記憶部１７２は、それぞれ読み書き可能なメモリで構成されている。第１記憶部１７１、及び第２記憶部１７２は、それぞれ例えばフラッシュメモリである。記憶部１７は、例えば、音声認識で使用する辞書ファイル（トリガー辞書Ｄ０、コマンド辞書Ｄ１；図１Ａ参照）を記憶している。辞書ファイルは、サーバ７０からダウンロードされて記憶されてもよい。辞書ファイルは、音声認識部１８２が音声認識可能な言語（日本語、英語等）の種類、同一言語における表現方法（方言、アクセント等）、同一言語における発音主体（男性、女性、子供、高齢者等）のうち、少なくとも１つに係る情報に基づく辞書ファイルを含む。以下、音声認識部１８２が音声認識可能な言語の種類、同一言語における表現方法、同一言語における発音主体のうち少なくとも１つに基づいた辞書ファイルを、言語情報に基づく辞書ファイルという。なお、記憶部１７は、辞書ファイル以外にも、表示部１６に表示させる画面の情報、音声メッセージの情報、及び各種の設定情報等を記憶している。

トリガー辞書Ｄ０は、トリガーワードを含む辞書である。トリガーワードとは、制御コマンドのコマンドワードの検出のトリガーとなる所定のキーワードである。コマンド辞書Ｄ１は、制御コマンドのコマンドワードを含む辞書である。コマンド辞書Ｄ１は、図１Ａに示すように、第１辞書Ｄ１１、及び第２辞書Ｄ１２を含む。

本実施形態では、トリガーワードは、情報端末１０又は辞書ファイルを提供する側（例えば情報端末１０を製造する者）で予め決められたキーワードとして設定されている。トリガーワードは、例えば、情報端末１０の商品名、又はその略称等であり、比較的少ない文字数であることが望ましい。トリガーワードは、情報端末１０のユーザが、情報端末１０の設定画面にて個人で適宜、好みのワードに設定可能でもよい。なお、図４等では、例えば、住人が発話する「〇〇、応答して！」のうち、「〇〇」が、トリガーワードに該当し、「〇〇」に続く「応答して！」が制御コマンドのコマンドワードに該当する。

本実施形態では一例として、トリガー辞書Ｄ０は第１記憶部１７１に記憶されていて、コマンド辞書Ｄ１（第１辞書Ｄ１１及び第２辞書Ｄ１２）は、第２記憶部１７２に記憶されている。

処理部１８は、図１Ａに示すように、音声処理部１８１、音声認識部１８２、制御処理部１８３、表示処理部１８４、及び通話処理部１８５を有している。

音声処理部１８１は、第１マイクロホン１３１１から入力されて音取得部１３が出力したアナログの音信号を音声通話用に取得し、デジタルの音信号に変換する。また、音声処理部１８１は、第１マイクロホン１３１１から入力して音取得部１３から取得した音信号に対して、フィルタリング処理等を行うように構成されている。音声処理部１８１は、例えばエコーキャンセラを含む。エコーキャンセラは、マイクロホン１３１から出力された音信号に対してエコーの抑制又は除去を行う。また、音声処理部１８１は、第１マイクロホン１３１１及び第２マイクロホン１３１２から入力されて音取得部１３が出力した音信号を音声識別用に取得し、上述したビームフォーミング処理を行うように構成されている。

音声認識部１８２は、マイクロホン１３１（本実施形態では、第１マイクロホン１３１１及び第２マイクロホン１３１２）に入力された音声に基づいて音声認識を行う。言い換えると、音声認識部１８２は、音取得部１３が取得した音声に基づいた音声認識処理を行う。音声認識部１８２は、音声処理部１８１が処理した音に対して、記憶部１７が記憶している辞書ファイル（トリガー辞書Ｄ０、コマンド辞書Ｄ１）を用いた音声認識処理を行う。

本実施形態の音声認識部１８２は、第１方式、又は第１方式の音声認識よりも簡易な第２方式で音声認識を行う。音声認識部１８２は、待機状態において第１方式で音声認識を行い、他の端末との通話状態において第２方式で音声認識を行う。

ここで、「第１方式」は、マイクロホン１３１に入力された音声にトリガーワードが含まれているか否かについてトリガー音声認識を行い、トリガーワードが含まれている場合に、コマンド音声認識を行う方式である。コマンド音声認識は、制御処理部１８３が行う制御に関する制御コマンドについての音声認識であり、すなわち、どのコマンドワードが含まれているか否かについて認識する。

一方、「第２方式」は、マイクロホン１３１に入力された音声に対してトリガー音声認識を行わずにコマンド音声認識を行う方式である。要するに、第２方式は、トリガー音声認識の処理を省略するため、その分、第１方式よりも「簡易」な方式と言える。

さらに本実施形態では、「第１方式」は、制御処理部１８３が、待機状態において行う所定の制御に関する制御コマンド（第１制御コマンド）についての音声認識（第１コマンド音声認識）を、第１辞書Ｄ１１に基づいて行う方式である。ここで言う「所定の制御」とは、主に、後述する通話関連「以外」に関する制御である。

一方、「第２方式」は、制御処理部１８３が、通話状態において行う特定の制御に関する制御コマンド（第２制御コマンド）についての音声認識（第２コマンド音声認識）を、第２辞書Ｄ１２に基づいて行う方式である。ここで言う「特定の制御」とは、主に、後述する通話関連に関する制御である。

つまり、本実施形態では、待機状態と、通話状態とで、音声認識に利用する辞書ファイルを、第１辞書Ｄ１１と第２辞書Ｄ１２とで変更している。

そして、第１辞書Ｄ１１に登録されている第１制御コマンドの数は、第２辞書Ｄ１２に登録されている第２制御コマンドの数よりも多く設定されている。要するに、第２方式は、登録されているコマンドワードの数が第１辞書Ｄ１１よりも少ない第２辞書Ｄ１２内を参照（検索）するため、その分、第１方式よりも「簡易」な方式と言える。

つまり、音声認識部１８２は、情報端末１０とロビーインターホン２０（又は玄関子機４０）との間で通信中（通話状態）だけではなく、情報端末１０の待機状態においても、音声認識処理が実行可能に構成されている。

さらに、音声認識部１８２は、他の端末からの呼出状態、及び上述したモード動作状態においても、音声認識処理を実行可能に構成されている。

要するに、情報端末１０は、他の端末と通話中でない状態であっても、マイクロホン１３１から受音可能な状態である。

ここで、音声認識部１８２は、トリガー音声認識を行う第１音声認識部１８２１と、コマンド音声認識を行う第２音声認識部１８２２と、を有する（図１Ａ参照）。つまり、本実施形態では、トリガーワードに関する音声認識処理を行う部位（回路）と、コマンドワードに関する音声認識処理を行う部位（回路）とが分けて実装されている。情報端末１０は、待機状態では、主にトリガー音声認識を行う第１音声認識部１８２１と音取得部１３がアクティブな状態（起動状態、つまり電力を消費している状態）にあり、トリガーワードを含む音声がマイクロホン１３１に入力されることを監視している。逆に言えば、情報端末１０の待機状態では、コマンド音声認識を行う第２音声認識部１８２２、及び制御処理部１８３（以下、「第２音声認識部１８２２等」とも呼ぶ）は、非アクティブな状態（非起動状態、つまり電力を消費していない状態、又は電力消費を抑えたスリープ状態）にある。

第１音声認識部１８２１は、トリガー辞書Ｄ０を参照（検索）するトリガー音声認識により、音声処理部１８１が処理した音を監視し、トリガーワードが含まれるか否かを判断する。そして、第１音声認識部１８２１が、トリガーワードが含まれていると判断すると（トリガーワードの検出）、情報端末１０は、第２音声認識部１８２２等をアクティブな状態にし、制御コマンドを音声認識可能な状態にする。

例えば、制御処理部１８３が行う制御に関する制御コマンドとして、応答コマンド（例えば「応答して」というコマンドワード）が設定されている。応答コマンドは、他の端末からの情報端末１０の呼出に対する通話応答をするためのコマンドである。本実施形態では、ユーザは、応答コマンドの直前に、トリガーワードを発話する必要がある。情報端末１０は、トリガーワードが含まれていると判断すると、第２音声認識部１８２２等をアクティブな状態にし、応答コマンドを音声認識可能な状態になる。

なお、トリガーワードの検出以外に、ロビーインターホン２０又は玄関子機４０から呼出を受けたり、操作部１４や表示部１６へのタッチ操作を受け付けたりしても、情報端末１０は、第２音声認識部１８２２等をアクティブな状態にしてもよい。

第２音声認識部１８２２は、第１辞書Ｄ１１又は第２辞書Ｄ１２を参照（検索）するコマンド音声認識により、音声処理部１８１が処理した音を監視し、コマンドワードが含まれるか否かを判断する。そして、第２音声認識部１８２２が、あるコマンドワードが含まれていると判断すると（コマンドワードの検出）、そのコマンドワード（制御コマンド）を、制御処理部１８３に出力する。

第２音声認識部１８２２は、待機状態において第１音声認識部１８２１によりトリガーワードが含まれていることが認識されるまで、無効状態である。つまり、本実施形態では、トリガー音声認識、及びコマンド音声認識を行う部位（処理回路）を分け、トリガーワードが含まれていることが認識されるまで、第２音声認識部１８２２を無効状態にしている。そして、第２音声認識部１８２２は、待機状態においてトリガーワードが含まれていることが認識されると、コマンド音声認識可能な状態（有効状態）になる。そのため、音声認識部１８２の処理速度の向上を図れる。また、第２音声認識部１８２２の消費電力を抑制できる。

ここで言う第２音声認識部１８２２の「無効状態」とは、第２音声認識部１８２２が非アクティブな状態であり、電力を消費していない状態、又は電力消費を抑えたスリープ状態を想定する。しかし、第２音声認識部１８２２の「無効状態」は、第２音声認識部１８２２がアクティブな状態であるけれども、コマンド音声認識の処理を休止している状態であってもよい。

待機状態において、トリガーワードが含まれていることが認識されるまで第２音声認識部１８２２が無効状態であることにも例外がある。例えば、直接操作部１４へのタッチ操作によってユーザから制御要求を受け付けた場合には、第２音声認識部１８２２は、トリガーワード無しでもコマンド音声認識可能な状態（有効状態）になり得る。

制御処理部１８３は、音声認識部１８２の音声認識結果に基づく制御を行う。言い換えると、制御処理部１８３は、音声認識部１８２で音声認識された制御コマンド（例えば音声認識に成功した制御コマンド）に基づく制御を行う。ここでは、制御処理部１８３は、第２音声認識部１８２２から取得した音声認識結果（制御コマンド）に対応付けされている制御を実行する。また、制御処理部１８３は、音声認識に成功したこと又は失敗したことを、音又は表示（例えば電子音や音声メッセージの出力、表示灯の点灯又は点滅による表示、或いは表示部１６の画面からのメッセージ表示等）にて報知する。

要するに、情報端末１０は、待機状態では、トリガー辞書Ｄ０を参照してトリガーワードを検出すると、第２音声認識部１８２２等を非アクティブからアクティブに切り替え、第１辞書Ｄ１１を参照してコマンドワードの音声認識をする（第１方式）。そして、情報端末１０は、通話状態では、第２辞書Ｄ１２を参照してコマンドワードの音声認識だけをする（第２方式）。なお、情報端末１０は、呼出を受けると第１辞書Ｄ１１から第２辞書Ｄ１２に切り替える。そして、情報端末１０は、呼出状態では、トリガーワードを検出すると、第２音声認識部１８２２等を非アクティブからアクティブに切り替え、第２辞書Ｄ１２を参照してコマンドワードの音声認識をする。それ以降は、情報端末１０は、第１方式から第２方式に切り替えて音声認識をする。つまり、参照先を第１辞書Ｄ１１から第２辞書Ｄ１２に切り替えるタイミング、第２音声認識部１８２２等を非アクティブからアクティブに切り替えるタイミング、及び第１方式から第２方式に切り替えるタイミングは異なる。ただし、これらの３つのタイミングのうちの少なくとも２つが同じでもよい。

他の端末からの呼出に対して応答コマンド（制御コマンド）が音声認識されると（音声認識の成功）、制御処理部１８３は、他の端末との通信（通話）を開始するように情報端末１０の動作を制御する。例えば、制御処理部１８３は、情報端末１０とロビーインターホン２０（又は玄関子機４０）との間で通話が行えるよう通信を確立するために第１通信部１１（又は第３通信部１９）を制御する。

音声認識部１８２は、情報端末１０と他の端末との間の通信（通話）が終了するまで、又は玄関扉２００（図２参照）の電気錠２０１が解錠されるまで、第２方式でコマンド音声認識のみをする。つまり、音声認識部１８２は、通信（通話）が終了するまで、又は電気錠２０１が解錠されるまで、トリガー音声認識を行わない。

なお、音声認識部１８２は、第２方式で音声認識する状態において、マイクロホン１３１への音声入力が無いまま所定時間（例えば数分）が経過すると、自動的に第１方式で音声認識する状態に切り替わる。その際には、情報端末１０は、他の端末との通話状態も同時に自動的に終了する。そのため、ユーザの音声入力が無くても第１方式への切り替えが実現されるため、第２方式のまま放置される可能性が低減し、ユーザの利便性が向上し、音声認識の機能に関する改善を図れる。

通話処理部１８５は、音取得部１３が取得した通話用の音データ（音情報）を通話先の人が操作する装置に出力する。情報端末１０は、例えば、通話用の音声データとして、他の端末との通話時に、第１マイクロホン１３１１に入力されたユーザの音声を利用する。第１マイクロホン１３１１に入力された音声は、主に、通話処理部１８５において通話用の音声処理が実行されて、通話中の他の端末に送信される。つまり、第２マイクロホン１３１２ではなく、遠端の第１マイクロホン１３１１の音声を通話用の音声データに利用することで、スピーカ１５１から出力される（訪問者の）音声がマイクロホン１３１に回り込むことを抑制している。具体的には、通話処理部１８５は、音声処理部１８１でノイズの抑制又は除去がされた音の信号を、第１通信部１１（又は第３通信部１９）を介して、ロビーインターホン２０（又は玄関子機４０）に送信する。例えば、情報端末１０がロビーインターホン２０と通信を行っている場合には、通話処理部１８５は、音声処理部１８１でノイズの抑制又は除去がされた音データの信号を、第１通信部１１を介してロビーインターホン２０に送信する。

表示処理部１８４は、表示部１６に通信対象であるインターホン玄関装置（ロビーインターホン２０、玄関子機４０）が撮像した画像を表示させるための処理を行う。また、表示処理部１８４は、ホーム画面、設定画面、及び各動作状態に応じた画面を表示させるための処理を行う。

ここで具体的な制御コマンド（コマンドワード）と、各制御コマンドに対応付けされている制御イベント（操作イベント）との一覧を下記の表１に示す。制御コマンドは、操作イベントに対応付けされて記憶部１７に記憶されている。表１の右端の「辞書」の欄は、対応するコマンドワードが登録されている辞書を示す。

表１に示すコマンドワード等は単なる一例であり、これらに限定されない。表１から、第２辞書Ｄ１２のコマンドワード数が、第１辞書Ｄ１１のコマンドワード数よりも少ないことが容易に理解できる。また、表１から、第２辞書Ｄ１２のコマンドワードに対応付けられている操作イベントは、インターホン制御関連に絞られ、特にその中でも「通話」に関連性の高い操作イベントに絞られていることが容易に理解できる。逆に、第１辞書Ｄ１１のコマンドワードに対応付けられている操作イベントは、インターホン装置以外の機器制御、シーン制御、及び、インターホン制御の中でも「通話」とは関連性の低い機能制御の操作イベントに絞られていることが容易に理解できる。なお、以下では、「通話」に関連性の高い操作イベントのことを、「通話関連の操作イベント」と呼ぶこともがある。通話関連の操作イベントとは、他の端末からの呼出の受信、通話応答、通話切断（通話終了）、及び玄関扉２００（図２参照）の電気錠２０１の解錠等に関する操作イベントを含む。

情報端末１０では、表１の制御コマンドの音声入力（音声操作）によって実行される動作制御は、操作部１４又は表示部１６へのタッチ操作入力によっても実行可能となっている。

制御処理部１８３は、表１に示されるような制御コマンドを含む音声が入力されて第２音声認識部１８２２で音声認識されると（音声認識の成功）、対応する操作イベントを特定し、対象機器（自機も含む）を制御する。操作イベントがインターホン制御関連であれば、制御の対象機器は、自機（情報端末１０）、又は玄関扉２００（図２参照）の電気錠２０１となる。

例えば、情報端末１０がロビーインターホン２０と通信中（通話中）に、情報端末１０は、ユーザから制御コマンドとして「終了して」というコマンドワードを含む音声を受け取る（音声入力）。この場合、第２音声認識部１８２２が、音声処理部１８１が処理した音声に「終了して」というコマンドワードが含まれると判断する。制御処理部１８３は、自機とロビーインターホン２０と通話を切断する動作を制御する。

或いは、音声入力ではなく、制御処理部１８３は、ユーザから終了操作部１４２がタッチ操作を受け付けた場合にも、上記通話を切断する動作を制御する。

また、例えば、情報端末１０がロビーインターホン２０と通信中（通話中）に、情報端末１０は、ユーザから制御コマンドとして「解錠して」というコマンドワードを含む音声を受け取る（音声入力）。この場合、第２音声認識部１８２２が、音声処理部１８１が処理した音声に「解錠して」というコマンドワードが含まれると判断する。制御処理部１８３は、共用玄関Ｅ１から入室するための玄関扉２００の電気錠２０１の解錠動作を制御する。例えば、制御処理部１８３は、共用玄関Ｅ１から入室するための玄関扉２００の電気錠が解錠動作を行うように制御装置３０を制御する。

或いは、音声入力ではなく、制御処理部１８３は、ユーザから解錠操作部１４３がタッチ操作を受け付けた場合にも、上記玄関扉２００の電気錠２０１の解錠を制御する。

また、情報端末１０は、インターホン機能以外にも、火災を検知した場合に火災警報を実行するための防災機能、不審者の侵入を検知した場合に警報を実行するための防犯機能、各種の生活情報を提示する機能を有している。また、情報端末１０は、外部（ここではサーバ７０）と通信するための通信機能を有している。例えば、表１に示す「防犯セット」は、上記の防犯機能を利用して警戒モードをオンにする設定（セット）を意味する。

なお、機器制御やシーン制御に関して、例えば、情報端末１０が、各住戸Ｅ２内に設置されているＨＥＭＳ（Home Energy Management System）のコントローラと通信可能に接続されていることが想定される。ＨＥＭＳのコントローラは、表１に示されるような電気機器（エアコン、照明装置、空気清浄機、レンジフード等）を制御可能に接続されている。要するに、機器制御やシーン制御に関して、制御の対象機器は、ＨＥＭＳのコントローラが制御可能な電気機器となり得る。情報端末１０は、機器制御やシーン制御に関する制御コマンドを音声入力で受け付けると、ＨＥＭＳのコントローラを介して、対応する電気機器を制御可能である。

言い換えれば、情報端末１０は、トリガーワードを発話し、その後連続して（例えば、コンマ数秒～数秒以内に）コマンドワードを発話する第１パターンと、コマンドワードを単独で発話する第２パターンとをユーザが使い分けし易いような構成を有している。そして、情報端末１０は、機器制御、シーン制御、及び、インターホン制御の中でも通話関連以外の操作イベント（防犯セットや録画再生等の操作イベント）について、第１パターンによる音声操作を受け付けた場合に、その制御を実行する。一方、情報端末１０は、インターホン制御関連の中でも通話関連の操作イベントについては、第１パターンでも第２パターンでも音声操作を受け付けた場合に、その制御を実行する。言い換えると、通話関連の操作イベントについては、たとえトリガーワードが含まれていても、情報端末１０がトリガー音声認識を実行しないだけで、その後に正しいコマンドワードが含まれていれば、その制御を実行する。ただし、通話状態で、ユーザが第１パターンで音声操作を行うと、トリガーワードが通話の相手（例えば、訪問者）に知れ渡る可能性が高く、セキュリティ性が低下し得る。また、通話の相手にとっても、通話中にトリガーワードが唐突に聞こえると不自然であり、違和感を覚え得る。そのため、情報端末１０の取扱いとして、ユーザには、通話状態ではコマンドワードを単独で発話する第２パターンによる音声操作が推奨される。なお、音声認識部１８２は、通話状態であってもトリガー音声認識の処理を行ってもよく、トリガーワードを検出すると、情報端末１０は、表示部１６に、通話中にはトリガーワードの発話を控えることを示すメッセージを表示してもよい。

また本実施形態では、音声認識部１８２で音声認識される制御コマンドは、複数の動作状態間で同じワードで設定されているコマンドワードを含む。表１の例で言えば、「終了して」というコマンドワードが、通話状態（及び呼出状態）と所定の動作を実行中のモード動作状態とで同じワードで設定されている。この「終了して」というコマンドワードは、第１辞書Ｄ１１にも第２辞書Ｄ１２にも登録されている（表１参照）。制御処理部１８３は、音声認識部１８２で音声認識された制御コマンドが同じワードであっても、自機（情報端末１０）の動作状態に応じて異なる制御を行う。具体的には、例えば「終了して」というコマンドワードは、ユーザが発話したときの情報端末１０の動作状態によって制御内容が異なる。情報端末１０は、通話状態で「終了して」というコマンドワードの音声認識に成功すると通話を切断する制御を行うが、ドアモニタ確認の動作を実行中の状態で「終了して」というコマンドワードの音声認識に成功するとドアモニタ確認の動作を終了する制御を行う。また、情報端末１０は、録画再生の動作を実行中の状態で「終了して」というコマンドワードの音声認識に成功すると録画再生の動作を終了する制御を行う。このように、複数の動作状態間で同じワードで設定されていることで、ユーザが覚える制御コマンドのコマンドワードを減らすことができ、ユーザの利便性が向上する。

情報端末１０は、操作部１４又は表示部１６へのタッチ操作により設定画面を開くことで、音声認識で参照する辞書ファイル（トリガー辞書Ｄ０、コマンド辞書Ｄ１）、及び対応する制御イベント（操作イベント）を変更可能に構成されている。また、情報端末１０は、音声認識可能な言語の種類（日本語、英語等）の追加、同一言語における表現方法（方言等）の追加、及び同一言語における発音主体（男性、女性、子供、高齢者等）の追加のうち少なくとも１つが可能であることが好ましい。また、情報端末１０は、例えば、辞書ファイルに関する更新データをサーバ７０からダウンロードして、記憶部１７内の辞書ファイルを更新してもよい。

（２－２）ロビーインターホン
ロビーインターホン２０は、図２に示すように、通信部２１と、制御部２２と、通話部
２３と、表示部２４と、操作部２５と、記憶部２６と、撮像部２７と、を備えている。

ロビーインターホン２０は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部２２として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。

通信部２１は、情報端末１０（の第１通信部１１）と通信するための通信インタフェースである。通信部２１は、第１幹線６１を介して制御装置３０（の通信部３１）に接続されている。通信部２１は、制御装置３０を介して、情報端末１０に対して呼出信号、音声信号、及び映像信号等を送信する。さらに、通信部２１は、制御装置３０を介して、情報端末１０から音声信号、及び制御信号等を受信する。ここで、ロビーインターホン２０からの通信信号には、情報端末１０を特定するための情報（例えば、アドレス情報等）が含まれている。そのため、この通信信号に含まれるアドレス情報と一致するアドレス情報が割り当てられた情報端末１０のみが通信信号を受信することができる。

制御部２２は、通信部２１、通話部２３、及び撮像部２７等を制御するように構成されている。

通話部２３は、スピーカ及びマイクロホンを含み、情報端末１０との間で通話可能に構成されている。

表示部２４は、例えば、液晶ディスプレイである。表示部２４は、撮像部２７が撮像した映像を表示するように構成されている。また、表示部２４は、訪問者等に対してメッセージを表示するように構成されている。メッセージは、例えば、訪問者等に発話を促すためのメッセージである。表示部２４は、例えば、「お話しください」等のメッセージを表示する。この場合において、同様の音声メッセージを通話部２３のスピーカ、又は通話部２３のスピーカとは別に設けられたスピーカから出力（報知）してもよい。また、表示部２４とスピーカとを併用してもよい。なお、ロビーインターホン２０がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部２４と操作部２５とを兼ねてもよい。

操作部２５は、例えば、集合住宅５への訪問者、住人等の操作を受け付けるように構成されている。操作部２５は、例えば、複数の押ボタンスイッチ、及びタッチパネル等を有する入力インタフェースである。

記憶部２６は、読み書き可能なメモリで構成されている。記憶部２６は、例えば、フラッシュメモリである。記憶部２６は、例えば、撮像部２７で撮像された映像（画像）の映像データを記憶する。

撮像部２７は、撮像素子を有し、被写体（訪問者等）を撮像するためのカメラである。本実施形態では、撮像部２７の撮像エリア（視野）は、ロビーインターホン２０の前方に設定されている。本実施形態では、撮像部２７は動画を撮像するカメラである。さらに、本実施形態では、撮像部２７はカラー画像を撮像するカメラである。なお、撮像部２７は、静止画を撮像するカメラ（スチルカメラ）であってもよいし、モノクロ画像を撮像するカメラであってもよい。

撮像素子は、例えば、ＣＣＤ（Charge Coupled Devices）イメージセンサ、又はＣＭＯＳ（Complementary Metal-Oxide Semiconductor）イメージセンサ等の二次元イメージセンサである。撮像部２７は、被写体からの光をレンズ等の光学系によって撮像素子の撮像面（受光面）上に結像させ、撮像素子にて被写体からの光を電気信号に変換する。そして、撮像部２７は、撮像素子の出力信号を映像信号として制御部２２に出力する。

（２－３）制御装置
制御装置３０は、図２に示すように、通信部３１と、制御部３２と、記憶部３３と、を備えている。

制御装置３０は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部３２として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。

通信部３１は、各情報端末１０、及びロビーインターホン２０と通信するための通信インタフェースを含んでいる。通信部３１は、第１幹線６１を介してロビーインターホン２０に接続され、第２幹線６２を介して各情報端末１０に接続されている。つまり、通信部３１は、各情報端末１０とロビーインターホン２０との間の通信を中継するように構成されている。さらに、通信部３１は、玄関扉２００の電気錠２０１に接続され、電気錠２０１と通信可能に構成されている。

制御部３２は、通信部３１を制御するように構成されている。制御部３２は、情報端末１０からの指示により、玄関扉２００の電気錠２０１の解錠動作を制御する。例えば、制御部３２は、解錠を指示する解錠信号を電気錠２０１に通信部３１を介して出力する。

記憶部３３は、読み書き可能なメモリで構成されている。記憶部３３は、例えば、フラッシュメモリである。記憶部３３は、例えば、各住戸Ｅ２に割り当てられた部屋番号と、各情報端末１０に割り当てられたアドレス情報との対応関係を表す対応テーブルを記憶する。つまり、制御装置３０では、制御部３２は、対応テーブルを参照して、ロビーインターホン２０からの信号に含まれる部屋番号を対応する情報端末１０のアドレス情報に置き換えた信号を作成し、この信号を通信部３１から各情報端末１０に送信させる。そして、各情報端末１０では、処理部１８は、第１通信部１１が受信した信号に含まれるアドレス情報が、記憶部１７に記憶されているアドレス情報と一致する場合には、この信号に含まれる情報を取得する。また、各情報端末１０では、処理部１８は、第１通信部１１が受信した信号に含まれるアドレス情報が、記憶部１７に記憶されているアドレス情報と一致しない場合には、この信号に含まれる情報を破棄する。

なお、本実施形態では、通信部３１が電気錠２０１と接続されている構成としたが、この構成に限定されない。制御装置３０は、通信部３１とは別の通信部を有し、当該別の通信部が電気錠２０１と接続される構成であってもよい。

（２－４）玄関子機
各玄関子機４０は、図２に示すように、接続線６４を介して対応する情報端末１０に接続されている。玄関子機４０は、情報端末１０に対して呼出信号、音声信号、及び映像信号等を送信する。さらに、玄関子機４０は、情報端末１０から音声信号、及び制御信号等を受信する。

（３）動作
情報端末１０の動作について動作例１～６を挙げ図３～図９を参照しながら説明する。

（３－１）動作例１
以下、インターホン制御の操作イベントの中でも「通話関連」の操作イベントに関する情報端末１０の動作の例（動作例１）について図３及び図４を参照しながら説明する。

図３は、動作例１に関するフローチャートである。図４は、待機状態から、呼出を受け（呼出着信）、通話応答（応答）、通話中、電気錠２０１の解錠（解錠）、通話の終了（終話）、再び待機状態に戻る一連の情報端末１０の動作を、表示部１６の画面と共に左から順に時系列で並べた概念図である。また、図４の上段は、ユーザが制御を要求する際の情報端末１０に対する操作手段（手段）が、操作部１４（又は表示部１６）へのタッチ操作（図４では「ボタン」と表記）の場合の情報端末１０の動作を示す。一方、図４の下段は、操作手段（手段）が、マイクロホン１３１への音声操作（図４では「音声」と表記）の場合の情報端末１０の動作を示す。図３は、音声操作の場合のフローチャートである。

先ず、図４中の「待受ｏｒＨｏｍｅ」は、情報端末１０が待機状態であることを示す。待機状態では、情報端末１０は、電力消費を抑えるために表示部１６の明かりを落とした待受画面、又は表示部１６にホーム画面（図４では「Ｈｏｍｅ」と表記）を表示している。

待機状態で、例えばロビーインターホン２０から呼出の着信があると（呼出着信）、情報端末１０は、ユーザに呼出の着信を知らせるための着信音をスピーカ１５１から鳴動させる。さらに情報端末１０は、表示部１６に着信状態（呼出状態）であることを示す着信画面を表示する。なお、情報端末１０は、呼出の着信が発生したタイミングで、音声認識で参照する辞書を第１辞書Ｄ１１から、通話関連の操作イベントに対応するコマンドワードが登録されている第２辞書Ｄ１２に切り替える。

ここでユーザは、情報端末１０の呼出状態において、応答操作部１４１（図４では「通話釦」と表記）へタッチ操作することで、呼出に対して応答することができる。つまり、情報端末１０は、呼出状態（他の端末から呼出信号を受信している状態）において、応答操作部１４１へのタッチ操作を受け付けると、呼出状態から通話状態に切り替えてロビーインターホン２０を操作する者との通話を可能にする（応答）。情報端末１０は、表示部１６に表示されている着信画面を通話画面に変更する（画面遷移）。

一方、ユーザは、情報端末１０の呼出状態において、マイクロホン１３１への音声操作をすることでも、呼出に対して応答することができる。図４に示すように、ユーザは、呼出状態において「〇〇、応答して！」というトリガーワード、及びコマンドワード（応答コマンド）を発話する。情報端末１０は、第１音声認識部１８２１が「〇〇」というトリガーワードの音声認識に成功すると、第２音声認識部１８２２等をアクティブな状態にする。さらに、情報端末１０は、第２音声認識部１８２２が続いて発話された「応答して！」の音声認識に成功すると、呼出状態から通話状態に切り替えてロビーインターホン２０を操作する者との通話を可能にする（応答）。その際、第２音声認識部１８２２は、第２辞書Ｄ１２を参照して音声認識するため、音声認識処理の処理速度が速い。情報端末１０は、応答コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、「ピッ」という電子音をスピーカ１５１から出力する。なお、情報端末１０は、トリガーワードを検出してから規定時間（例えば３秒）以内に有効なコマンドワードを検出できなかった場合、「コマンドを認識できませんでした」という音声メッセージを出力する。この場合、例えば、情報端末１０は、第２音声認識部１８２２等を非アクティブな状態に戻す。

ここでは一例として、情報端末１０は、呼出状態から通話状態に切り替わったタイミングで、音声認識の方式を、第１方式から第２方式に切り替える。言い換えると、音声認識部１８２は、（第１方式で音声認識する状態において）応答操作部１４１への応答操作を受け付けることにより、第２方式で音声認識する状態に切り替わる。また、音声認識部１８２は、第１方式で音声認識する状態において、応答コマンドを音声認識することにより（応答コマンドの音声認識に成功）、第２方式で音声認識する状態に切り替わる。このように、応答操作部１４１への応答操作又は応答コマンドの発話によって第２方式への切り替えが実現されるため、ユーザの利便性が向上する。

ここで図３のフローチャートを参照する。情報端末１０は、通話中（通話状態）か否かを判定していて（ステップＳＴ１）、通話中であれば（ステップＳＴ１：Ｙｅｓ）、コマンドワード待ちである（ステップＳＴ２）。一方、情報端末１０は、待機状態や呼出状態等のように通話中でなければ（ステップＳＴ１：Ｎｏ）、トリガーワード待ちである（ステップＳＴ３）。情報端末１０は、トリガーワードの音声認識に成功すれば、つまりトリガーワードの認証に成功すれば（認証ＯＫ？；ステップＳＴ４：Ｙｅｓ）、コマンドワード待ちになる（ステップＳＴ２）。情報端末１０は、通話中でないときはトリガーワードの音声認識に成功しない限り、つまりトリガーワードの認証に失敗すれば（認証ＯＫ？；ステップＳＴ４：Ｎｏ）、元のステップＳＴ１に戻る。なお、このフローチャートは、説明を分かり易くするために音声操作のみを考慮した場合の処理の流れを示しており、タッチ操作が加わるとこの限りではない。

通話中の間、表示部１６からは通話画面が表示される。通話中、ユーザが、訪問者を玄関扉２００より先に招き入れるために、解錠操作部１４３（図４では「解錠釦」と表記）へタッチ操作することで、電気錠２０１を解錠することができる。つまり、情報端末１０は、通話状態において、解錠操作部１４３へのタッチ操作を受け付けると、制御装置３０を介して電気錠２０１の解錠制御を実行する（解錠）。情報端末１０は、表示部１６に表示されている通話画面上に、電気錠２０１の解錠制御が実行されたことを示すメッセージの表示を行う。

一方、ユーザは、情報端末１０の通話状態において、マイクロホン１３１への音声操作をすることでも、電気錠２０１を解錠することができる。図４に示すように、ユーザは、通話状態において「解錠して！」というコマンドワード（解錠コマンド）を発話する。解錠コマンドは、情報端末１０が設置された施設（集合住宅５）で入退するための扉（玄関扉２００）に設けられた電気錠２０１を解錠するためのコマンドである。情報端末１０は、第２音声認識部１８２２が発話された「解錠して！」の音声認識に成功すると、制御装置３０を介して電気錠２０１の解錠制御を実行する（解錠）。その際も、第２音声認識部１８２２は、第２辞書Ｄ１２を参照して音声認識するため、音声認識処理の処理速度が速い。情報端末１０は、解錠コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、電気錠の解錠を連想させるような解錠音をスピーカ１５１から出力する。

図４の例では、情報端末１０は、電気錠２０１の解錠後も通話状態を維持している。ユーザは、通話状態を終えるために終了操作部１４２（図４では「終了釦」と表記）へタッチ操作することで、終話することができる。つまり、情報端末１０は、通話状態（他の端末と音声通話をしている状態）において、終了操作部１４２へのタッチ操作を受け付けると、ロビーインターホン２０との通話の切断制御を実行する（終話）。情報端末１０は、表示部１６に表示されている通話画面を待受画面（又はホーム画面）に変更する（画面遷移）。なお、情報端末１０は、電気錠２０１の解錠により、自動的にロビーインターホン２０との通話の切断制御を実行してもよい。

一方、ユーザは、情報端末１０の通話状態において、マイクロホン１３１への音声操作をすることでも、終話することができる。図４に示すように、ユーザは、通話状態において「終了して！」というコマンドワード（終了コマンド）を発話する。終了コマンドは、他の端末との通話を終了するためのコマンドである。情報端末１０は、第２音声認識部１８２２が発話された「終了して！」の音声認識に成功すると、ロビーインターホン２０との通話の切断制御を実行する（終話）。その際も、第２音声認識部１８２２は、第２辞書Ｄ１２を参照して音声認識するため、音声認識処理の処理速度が速い。情報端末１０は、終了コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、「ピッ」という電子音と「終了しました」という音声メッセージとをスピーカ１５１から出力する。

このように制御処理部１８３が行う制御に関する制御コマンドとして、終了コマンドと、解錠コマンドとの少なくとも一方（ここでは両方）が設定されている。

動作例１では、情報端末１０は、終話を実行したタイミングで、音声認識で参照する辞書を第２辞書Ｄ１２から、通話関連の操作イベント以外の操作イベントに対応するコマンドワードが登録されている第１辞書Ｄ１１に切り替える。また、情報端末１０は、終話を実行したタイミングで、音声認識の方式を、第２方式から第１方式に切り替える。さらに情報端末１０は、終話を実行したタイミングで、第２音声認識部１８２２等を非アクティブな状態にする。

言い換えると、音声認識部１８２は、他の端末との通話状態において、終了操作部１４２への終了操作を受け付けることにより、第１方式で音声認識する状態に切り替わる。また、音声認識部１８２は、他の端末との通話状態において、終了コマンドを音声認識することにより（終了コマンドの音声認識に成功）、第１方式で音声認識する状態に切り替わる。このように、終了操作部１４２への終了操作又は終了コマンドの発話によって第１方式への切り替えが実現されるため、ユーザの利便性が向上する。

ただし、情報端末１０は、電気錠２０１の解錠により、自動的に通話の切断制御を実行してもよい。この場合、音声認識部１８２は、他の端末との通話状態において、解錠操作部１４３への解錠操作を受け付けることにより、第１方式で音声認識する状態に切り替わってよい。また、音声認識部１８２は、他の端末との通話状態において、解錠コマンドを音声認識することにより（解錠コマンドの音声認識に成功）、第１方式で音声認識する状態に切り替わってよい。このように、解錠操作部１４３への解錠操作又は解錠コマンドの発話によって第１方式への切り替えが実現されるため、ユーザの利便性が向上する。

動作例１では、第２辞書Ｄ１２から第１辞書Ｄ１１への切り替えタイミング、第２方式から第１方式への切り替えタイミング、及び第２音声認識部１８２２等の非アクティブへの切り替えタイミングが全て同じである。しかし、これらのタイミングの一部又は全部が異なってもよい。また、例えば、これらのタイミングの少なくとも１つが、解錠を実行したタイミングと同じでもよい。

この動作例１では、着信から終話までの一連の動作の流れとして、操作部１４へのタッチ操作のみが行われる場合（図４の上段）と、マイクロホン１３１への音声操作のみが行われる場合（図４の下段）とを説明した。しかし、情報端末１０は、通話応答をタッチ操作で解錠を音声操作で終了をタッチ操作でといったように、又は通話応答を音声操作で解錠をタッチ操作で終了を音声操作でといったように、タッチ操作と音声操作とが混在した使い方も対応可能である。

この動作例１では、音声認識部１８２は、他の端末から情報端末１０の呼出を受けている呼出状態において、第１方式で音声認識する。言い換えると、ユーザは、呼出状態において応答コマンドを発話する前に「〇〇」というトリガーワードを発話する必要がある。

しかし、音声認識部１８２は、他の端末との通話状態に加えて、他の端末から情報端末１０の呼出を受けている呼出状態においても、第２方式で音声認識してもよい。例えば、情報端末１０は、呼出の着信が発生したタイミングで、第２方式で音声認識する状態に切り替わってよい。この場合、ユーザは、呼出状態において、通話応答する際にトリガーワードを発話せずに応答コマンドのみを発話するだけでよくなる。

情報端末１０は、呼出状態において、表示部１６の着信画面上にて、ロビーインターホン２０の撮像部２７で撮像される訪問者の映像をリアルタイムで表示させている。ユーザは、表示部１６の着信画面上に映し出されている訪問者を見て訪問販売員や見知らぬ者であることが分かったり、或いは手の離せない用事があったりして、通話応答に応じたくなく呼出をキャンセルしたい場合がある。この場合、情報端末１０は、呼出状態において、例えば、終了操作部１４２へのタッチ操作、又は終了コマンドの音声操作によって、呼出のキャンセルを実行する。なお、情報端末１０で呼出のキャンセルが実行された場合、ロビーインターホン２０では、訪問者に不信感を与えないように、例えば、ユーザが外出中のため応答がなかった等の取り次ぎに失敗した旨を音声又は画面で自動通知され得る。

また、ユーザは、呼出状態において、表示部１６の着信画面上に映し出されている訪問者を見て家族や知人であることが分かった場合、その者との通話を省略して電気錠２０１を解錠して玄関扉２００より先に招き入れたい場合もある。この場合、情報端末１０は、呼出状態において、例えば、電気錠２０１を解錠する解錠操作部１４３へのタッチ操作、又は解錠コマンドの音声操作によって、電気錠２０１の解錠と同時に、呼出のキャンセルを実行する。

呼出の着信が発生したタイミングで、第２方式で音声認識する状態に切り替わっていたとしても、音声認識部１８２は、呼出がキャンセルされることにより、第１方式で音声認識する状態に切り替わってよい。

（３－２）動作例２
以下、インターホン制御の操作イベントの中でも「通話関連」以外の操作イベントに対応する「防犯セット」（表１参照）に関する情報端末１０の動作の例（動作例２）について図５Ａ、図５Ｂを参照しながら説明する。

図５Ａは、待機状態から防犯セットを実行するまでの一連の情報端末１０の動作を、表示部１６の画面と共に左から順に時系列で並べた概念図である。

図５Ｂは、防犯セットの実行中の状態（以下、「警戒状態」と呼ぶ）から防犯セットを解除するまでの一連の情報端末１０の動作を、表示部１６の画面と共に左から順に時系列で並べた概念図である。警戒状態は、モード動作状態の１つである。

図５Ａ、図５Ｂの上段は、図４の上段と同様に、ユーザが制御を要求する際の情報端末１０に対する操作手段が、操作部１４（又は表示部１６）へのタッチ操作の場合の情報端末１０の動作を示す。一方、図５Ａ、図５Ｂの下段は、図４の下段と同様に、操作手段がマイクロホン１３１への音声操作の場合の情報端末１０の動作を示す。

先ず、図５Ａ中の「待受」は、情報端末１０が待機状態であることを示す。待機状態では、情報端末１０の表示部１６の画面は、例えば待受画面となっている。

ユーザは、情報端末１０の待機状態において、操作部１４の１つであるホーム操作部（図５Ａでは「ホーム釦」と表記）へタッチ操作することで、ホーム画面を呼び出す（立ち上げる）ことができる。ホーム画面では、種々の動作制御を要求するためのメニューが表示されている。例えば、ユーザは、ホーム画面上で「防犯セット」と表示されている画面領域（図５Ａでは「防犯釦」と表記）をタッチ操作することで、防犯セットの動作を実行させることができる。つまり、情報端末１０は、待機状態において「防犯セット」の実行開始を要求するタッチ操作を受け付けると、待機状態からモード動作状態の１つである警戒状態に切り替わる。

一方、ユーザは、情報端末１０の待機状態において、マイクロホン１３１への音声操作をすることでも、防犯セットの動作を実行させることができる。図５Ａに示すように、ユーザは、待機状態において「〇〇、警戒セットして」というトリガーワード、及びコマンドワード（制御コマンド）を発話する。情報端末１０は、第１音声認識部１８２１が「〇〇」というトリガーワードの音声認識に成功すると、第２音声認識部１８２２等をアクティブな状態にする。さらに、情報端末１０は、第２音声認識部１８２２が続いて発話された「警戒セットして」の音声認識に成功すると、待機状態から警戒状態に切り替える。なお、音声認識部１８２は、警戒状態の間、待機状態と同様に、参照する辞書について第１辞書Ｄ１１を維持して音声認識する。また、音声認識部１８２は、警戒状態の間、待機状態と同様に、トリガー音声認識を行いトリガーワードが含まれている場合にコマンド音声認識を行う第１方式で音声認識する。情報端末１０は、防犯セットの制御コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、「＊＊秒後に警戒状態に入ります・・・」という音声メッセージをスピーカ１５１から出力する。

情報端末１０は、警戒状態の間、例えば図５Ｂに示すように、「防犯予備警報」と示す画面を表示部１６に表示させる。情報端末１０は、警戒状態の間、住戸Ｅ２の窓等に設置されているセンサからの検知信号を監視し、窓等からの不審者の侵入を検知した場合に警報を実行する。この防犯セットは、例えば、ユーザが就寝する前、又は外出する前にセットされ得る。

その後、ユーザは、警戒状態において、ホーム操作部（図５Ｂでは「ホーム釦」と表記）へタッチ操作することで、ホーム画面を呼び出す（立ち上げる）ことができる。例えば、ユーザは、ホーム画面上で「防犯セットの解除」と表示されている画面領域（図５Ｂでは「防犯釦」と表記）をタッチ操作することで、防犯セットの動作を解除することができる。つまり、情報端末１０は、警戒状態において実行中の「防犯セット」の解除を要求するタッチ操作を受け付けると、警戒状態を解除し、元の待機状態に戻る。

一方、ユーザは、警戒状態において、マイクロホン１３１への音声操作をすることでも、防犯セットの動作を解除することができる。図５Ｂに示すように、ユーザは、警戒状態において「〇〇、警戒セット解除して」というトリガーワード、及びコマンドワード（制御コマンド）を発話する。第２音声認識部１８２２等は、警戒状態の間アクティブな状態が維持されてもよいし、警戒状態の間であっても次のトリガーワードの音声認識に成功するまでは、一旦非アクティブな状態に戻っていてもよい。第１音声認識部１８２１がトリガーワードの音声認識に成功し、第２音声認識部１８２２が「警戒セット解除して」の音声認識に成功すると、警戒状態から待機状態に切り替えて、表示部１６からホーム画面を表示させる。情報端末１０は、防犯セットを解除する制御コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、「警戒状態を解除しました」という音声メッセージをスピーカ１５１から出力する。なお、情報端末１０は、ホーム画面を表示開始してから一定時間何も操作入力を受け付けなければ待受画面になる。

このように動作例２では、情報端末１０は、音声認識の方式及び辞書の切り替えを行わず、第１方式及び第１辞書Ｄ１１のまま音声認識を行う。

動作例２でも、情報端末１０は、タッチ操作で防犯セットの動作を実行させて音声操作で動作を解除したり、音声操作で防犯セットの動作を実行させてタッチ操作で動作を解除したりといった、タッチ操作と音声操作とが混在した使い方も対応可能である。

（３－３）動作例３
以下、インターホン制御の操作イベントの中でも「通話関連」以外の操作イベントに対応する「ドアモニタ確認」（表１参照）に関する情報端末１０の動作の例（動作例３）について図６を参照しながら説明する。なお、ここで言うドアモニタ確認とは、例えば、玄関子機４０のドアモニタ（撮像部）で撮像されたリアルタイムの映像を情報端末１０の表示部１６の画面で確認することである。

図６は、待機状態からドアモニタ確認の動作を実行し、ドアモニタ確認の動作を実行中の状態（以下、「モニタ確認状態」と呼ぶ）を終了するまでの一連の情報端末１０の動作を、表示部１６の画面と共に左から順に時系列で並べた概念図である。モニタ確認状態は、モード動作状態の１つである。

図６の上段は、図４の上段と同様に、ユーザが制御を要求する際の情報端末１０に対する操作手段が、操作部１４（又は表示部１６）へのタッチ操作の場合の情報端末１０の動作を示す。一方、図６の下段は、図４の下段と同様に、操作手段がマイクロホン１３１への音声操作の場合の情報端末１０の動作を示す。

先ず、図６中の「待受」は、情報端末１０が待機状態であることを示す。待機状態では、情報端末１０の表示部１６の画面は、例えば待受画面となっている。

ユーザは、情報端末１０の待機状態において、操作部１４の１つであるホーム操作部（図６では「ホーム釦」と表記）へタッチ操作することで、ホーム画面を呼び出す（立ち上げる）ことができる。例えば、ユーザは、ホーム画面上で、ドアモニタの映像表示を開始することを示す画像領域（図６では再生マーク）をタッチ操作することで、ドアモニタ確認の動作を実行させることができる。つまり、情報端末１０は、待機状態において「ドアモニタ確認」の実行開始を要求するタッチ操作を受け付けると、待機状態からモード動作状態の１つであるモニタ確認状態に切り替わる。

一方、ユーザは、情報端末１０の待機状態において、マイクロホン１３１への音声操作をすることでも、ドアモニタ確認の動作を実行させることができる。図６に示すように、ユーザは、待機状態において「〇〇、ドアモニタを見せて！」というトリガーワード、及びコマンドワード（制御コマンド）を発話する。情報端末１０は、第１音声認識部１８２１が「〇〇」というトリガーワードの音声認識に成功すると、第２音声認識部１８２２等をアクティブな状態にする。さらに、情報端末１０は、第２音声認識部１８２２が続いて発話された「ドアモニタを見せて」の音声認識に成功すると、待機状態からモニタ確認状態に切り替える。なお、音声認識部１８２は、モニタ確認状態の間、待機状態と同様に、参照する辞書について第１辞書Ｄ１１を維持して音声認識する。また、音声認識部１８２は、モニタ確認状態の間、待機状態と同様に、トリガー音声認識を行いトリガーワードが含まれている場合にコマンド音声認識を行う第１方式で音声認識する。情報端末１０は、ドアモニタ確認の制御コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、「ピッ」という電子音をスピーカ１５１から出力する。

情報端末１０は、モニタ確認状態の間（図６の「再生中」）、玄関子機４０のドアモニタで撮像されているリアルタイムの映像を表示部１６に表示させる（図６では「モニタ画面」と表記）。

その後、ユーザは、モニタ確認状態において、例えば（通話の終了操作も受け付け可能な）終了操作部１４２（図６では「終了釦」と表記）へタッチ操作することで、ドアモニタ確認の動作を終了させることができる。つまり、情報端末１０は、モニタ確認状態において実行中の「ドアモニタ確認」の終了を要求するタッチ操作を受け付けると、モニタ確認を終了し、元の待機状態に戻る。

一方、ユーザは、モニタ確認状態において、マイクロホン１３１への音声操作をすることでも、ドアモニタ確認の動作を終了させることができる。図６に示すように、ユーザは、モニタ確認状態において「〇〇、終了して！」というトリガーワード、及びコマンドワード（制御コマンド）を発話する。第２音声認識部１８２２等は、モニタ確認状態の間アクティブな状態が維持されてもよいし、モニタ確認状態の間であっても次のトリガーワードの音声認識に成功するまでは、一旦非アクティブな状態に戻っていてもよい。第１音声認識部１８２１がトリガーワードの音声認識に成功し、第２音声認識部１８２２が「終了して」の音声認識に成功すると、モニタ確認状態を終了して待機状態に切り替えて待受画面にする。情報端末１０は、ドアモニタ確認を終了する制御コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、「ピッ」という電子音と「終了しました」という音声メッセージとをスピーカ１５１から出力する。

このように動作例３でも、情報端末１０は、音声認識の方式及び辞書の切り替えを行わず、第１方式及び第１辞書Ｄ１１のまま音声認識を行う。

動作例３でも、情報端末１０は、タッチ操作でドアモニタ確認の動作を実行させて音声操作で動作を終了したり、音声操作でドアモニタ確認の動作を実行させてタッチ操作で動作を終了したりといった、タッチ操作と音声操作とが混在した使い方も対応可能である。

（３－４）動作例４
以下、インターホン制御の操作イベントの中でも「通話関連」以外の操作イベントに対応する「録画再生」（表１参照）に関する情報端末１０の動作の例（動作例４）について図７を参照しながら説明する。なお、ここで言う録画再生とは、例えば、ロビーインターホン２０にて情報端末１０の呼出を行った訪問者の、撮像部２７で撮像された映像の録画と、訪問者から用件を伝えるための録音メッセージとを再生することである。

図７は、待機状態から録画再生の動作を実行し、録画再生の動作を実行中の状態（以下、「録画再生状態」と呼ぶ）を終了するまでの一連の情報端末１０の動作を、表示部１６の画面と共に左から順に時系列で並べた概念図である。録画再生状態は、モード動作状態の１つである。

図７の上段は、図４の上段と同様に、ユーザが制御を要求する際の情報端末１０に対する操作手段が、操作部１４（又は表示部１６）へのタッチ操作の場合の情報端末１０の動作を示す。一方、図７の下段は、図４の下段と同様に、操作手段がマイクロホン１３１への音声操作の場合の情報端末１０の動作を示す。

先ず、図７中の「待受」は、情報端末１０が待機状態であることを示す。待機状態では、情報端末１０の表示部１６の画面は、例えば待受画面となっている。

ユーザは、情報端末１０の待機状態において、操作部１４の１つであるホーム操作部（図７では「ホーム釦」と表記）へタッチ操作することで、ホーム画面を呼び出す（立ち上げる）ことができる。例えば、ユーザは、ホーム画面上で、録画再生を開始することを示す画像領域（図７では再生マーク）をタッチ操作することで、録画再生の動作を実行させることができる。つまり、情報端末１０は、待機状態において「録画再生」の実行開始を要求するタッチ操作を受け付けると、待機状態からモード動作状態の１つである録画再生状態に切り替わる。

一方、ユーザは、情報端末１０の待機状態において、マイクロホン１３１への音声操作をすることでも、録画再生の動作を実行させることができる。図７に示すように、ユーザは、待機状態において「〇〇、録画再生して」というトリガーワード、及びコマンドワード（制御コマンド）を発話する。情報端末１０は、第１音声認識部１８２１が「〇〇」というトリガーワードの音声認識に成功すると、第２音声認識部１８２２等をアクティブな状態にする。さらに、情報端末１０は、第２音声認識部１８２２が続いて発話された「録画再生して」の音声認識に成功すると、待機状態から録画再生状態に切り替える。なお、音声認識部１８２は、録画再生状態の間、待機状態と同様に、参照する辞書について第１辞書Ｄ１１を維持して音声認識する。また、音声認識部１８２は、録画再生状態の間、待機状態と同様に、トリガー音声認識を行いトリガーワードが含まれている場合にコマンド音声認識を行う第１方式で音声認識する。情報端末１０は、録画再生の制御コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、「未読の情報があります。録画を再生します。」という音声メッセージをスピーカ１５１から出力する。

情報端末１０は、録画再生状態の間（図７の「再生中」）、録画されていた訪問者の映像と録音されていた訪問者の音声とを表示部１６とスピーカ１５１とから出力させる（図７では「再生画面」と表記）。

その後、ユーザは、録画再生状態において、再生が終わると（又は再生中に）、例えば（通話の終了操作も受け付け可能な）終了操作部１４２（図７では「終了釦」と表記）へタッチ操作することで、録画再生の動作を終了させることができる。つまり、情報端末１０は、録画再生状態において実行中の「録画再生」の終了を要求するタッチ操作を受け付けると、録画再生状態を終了し、元の待機状態に戻る。

一方、ユーザは、録画再生状態において、マイクロホン１３１への音声操作をすることでも、録画再生の動作を終了させることができる。図７に示すように、ユーザは、録画再生状態において「〇〇、終了して！」というトリガーワード、及びコマンドワード（制御コマンド）を発話する。第２音声認識部１８２２等は、録画再生状態の間アクティブな状態が維持されてもよいし、録画再生状態の間であっても次のトリガーワードの音声認識に成功するまでは、一旦非アクティブな状態に戻っていてもよい。第１音声認識部１８２１がトリガーワードの音声認識に成功し、第２音声認識部１８２２が「終了して」の音声認識に成功すると、録画再生状態を終了して待機状態に切り替えて待受画面にする。情報端末１０は、録画再生を終了する制御コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、「ピッ」という電子音と「終了しました」という音声メッセージとをスピーカ１５１から出力する。

このように動作例４でも、情報端末１０は、音声認識の方式及び辞書の切り替えを行わず、第１方式及び第１辞書Ｄ１１のまま音声認識を行う。

動作例４でも、情報端末１０は、タッチ操作で録画再生の動作を実行させて音声操作で動作を終了したり、音声操作で録画再生の動作を実行させてタッチ操作で動作を終了したりといった、タッチ操作と音声操作とが混在した使い方も対応可能である。

（３－５）動作例５
以下、インターホン制御ではなくて機器制御の操作イベントに対応する「エアコン」（表１参照）に関する情報端末１０の動作の例（動作例５）について図８を参照しながら説明する。なお、ここで言うエアコンとは、住戸Ｅ２内に設置されていてＨＥＭＳのコントローラを介して制御可能な複数の機器の１つである。

図８は、待機状態からエアコン制御の動作（例えばエアコンをオンにして稼働させる制御の動作）を実行するまでの一連の情報端末１０の動作を、表示部１６の画面と共に左から順に時系列で並べた概念図である。なお、動作例５では、エアコンを止める（稼働停止）制御動作については説明を省略する。

図８の上段は、図４の上段と同様に、ユーザが制御を要求する際の情報端末１０に対する操作手段が、操作部１４（又は表示部１６）へのタッチ操作の場合の情報端末１０の動作を示す。一方、図８の下段は、図４の下段と同様に、操作手段がマイクロホン１３１への音声操作の場合の情報端末１０の動作を示す。

先ず、図８中の「待受」は、情報端末１０が待機状態であることを示す。待機状態では、情報端末１０の表示部１６の画面は、例えば待受画面となっている。

ユーザは、情報端末１０の待機状態において、操作部１４の１つであるホーム操作部（図８では「ホーム釦」と表記）へタッチ操作することで、ホーム画面を呼び出す（立ち上げる）ことができる。例えば、ユーザは、ホーム画面上で、機器制御の操作を開始することを示す画像領域（図８では「操作する」と表記された領域）をタッチ操作する。すると、表示部１６には、制御対象の機器を選択する画面（図８では「機器コントロール画面」と表記）が表示される。ユーザは、機器コントロール画面上で、「エアコン」と示す画像領域をタッチ操作することで、エアコン制御の動作を実行させることができる。つまり、情報端末１０は、待機状態において「エアコン制御の動作」の実行開始を要求するタッチ操作を受け付けると、エアコン制御のための動作を実行する。具体的には、情報端末１０は、ＨＥＭＳのコントローラに対して指定のエアコンを稼働させるための指示信号を送信する。ＨＥＭＳのコントローラは、指示信号を受信すると、指定のエアコンを稼働させるように制御する（オン制御）。

一方、ユーザは、情報端末１０の待機状態において、マイクロホン１３１への音声操作をすることでも、エアコン制御の動作を実行させることができる。図８に示すように、ユーザは、待機状態において「〇〇、エアコンをつけて」というトリガーワード、及びコマンドワード（制御コマンド）を発話する。情報端末１０は、第１音声認識部１８２１が「〇〇」というトリガーワードの音声認識に成功すると、第２音声認識部１８２２等をアクティブな状態にする。さらに、情報端末１０は、第２音声認識部１８２２が続いて発話された「エアコンをつけて」の音声認識に成功すると、エアコン制御の動作を実行させ、再び待機状態になる。なお、音声認識部１８２は、エアコン制御の動作に関しても、参照する辞書について第１辞書Ｄ１１を維持して音声認識する。また、音声認識部１８２は、エアコン制御の動作に関しても、トリガー音声認識を行いトリガーワードが含まれている場合にコマンド音声認識を行う第１方式で音声認識する。図８では図示を省略しているが、情報端末１０は、エアコン制御の動作の制御コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、「ピッ」という電子音をスピーカ１５１から出力することが好ましい。

このように動作例５でも、情報端末１０は、音声認識の方式及び辞書の切り替えを行わず、第１方式及び第１辞書Ｄ１１のまま音声認識を行う。

（３－６）動作例６
以下、インターホン制御ではなくてシーン制御の「帰宅時の操作」イベントに関する情報端末１０の動作の例（動作例６）について図９を参照しながら説明する。なお、ここでは、帰宅時の操作イベントに対応するコマンドワード「ただいま」が、動作例４で説明した「録画再生」の動作の実行に対応付けされていることを想定する。言い換えると、ユーザが「ただいま」という制御コマンドを発話すると、情報端末１０は、動作例４で説明した「録画再生」の動作を実行する。つまり、情報端末１０は、待機状態においてシーン制御の実行開始を要求するタッチ操作を受け付けると、待機状態からモード動作状態の１つである録画再生状態に切り替わる。

ここでは詳細な説明は省略するが、表１に示すシーン制御の各コマンドワードが、情報端末１０のどのような動作に対応するかについては、シーン番号と共に設定されていて、情報端末１０の記憶部１７に記憶されている。ユーザは、情報端末１０の表示部１６の設定画面上にてシーン制御に関する設定内容を適宜変更可能である。

図９は、待機状態からシーン制御の動作（ここでは、録画再生の動作）を実行するまでの一連の情報端末１０の動作を、表示部１６の画面と共に左から順に時系列で並べた概念図である。

図９の上段は、図４の上段と同様に、ユーザが制御を要求する際の情報端末１０に対する操作手段が、操作部１４（又は表示部１６）へのタッチ操作の場合の情報端末１０の動作を示す。なお、図９の上段は、動作例４の説明で参照した図７の上段の「待受」から「再生中」までの流れと共通である。そのため、ここでの操作部１４（又は表示部１６）へのタッチ操作による録画再生の動作の実行については説明を省略する。

図９の下段は、図４の下段と同様に、操作手段がマイクロホン１３１への音声操作の場合の情報端末１０の動作を示す。

先ず、図９中の「待受」は、情報端末１０が待機状態であることを示す。待機状態では、情報端末１０の表示部１６の画面は、例えば待受画面となっている。

ユーザは、情報端末１０の待機状態において、マイクロホン１３１への音声操作をすることでも、シーン制御の動作を実行させることができる。図９に示すように、ユーザは、待機状態において「〇〇、ただいま！」というトリガーワード、及びコマンドワード（制御コマンド）を発話する。情報端末１０は、第１音声認識部１８２１が「〇〇」というトリガーワードの音声認識に成功すると、第２音声認識部１８２２等をアクティブな状態にする。さらに、情報端末１０は、第２音声認識部１８２２が続いて発話された「ただいま」の音声認識に成功すると、「ただいま」（帰宅時の操作イベント）に対応付けされているシーン制御として、録画再生の動作を実行する。情報端末１０は、シーン制御の制御コマンドの入力を受け付けたこと（つまり、音声入力の成功）をユーザに知らせるために、「おかえりなさい。未読の情報があります。録画を再生します。」という音声メッセージをスピーカ１５１から出力する。なお、図９の例では、情報端末１０は、「シーン＊（シーン制御番号）を設定しますか」という問いのメッセージをスピーカ１５１から出力している。これに対して、ユーザは、「はい」又は「いいえ」（表１の「その他」を参照）を発話して応答することで、情報端末１０は、シーン制御番号の設定変更を受け付けることができる。要するに、情報端末１０は、所定のタイミングで（或いは任意の操作を受け付けたタイミングで）、ユーザに問い合わせのメッセージを出力することで、対話式による各種の設定情報の変更を受け付けることができる。

また、帰宅時の操作イベントに対応するコマンドワード「ただいま」には、録画再生以外にも、例えば、照明機器を点灯させたり（オン制御）、エアコンを稼働させたり（オン制御）することにも対応付けされ得る。この場合、情報端末１０は、「ただいま」に対応付けされているシーン制御として、ＨＭＥＳのコントローラに、それらのオン制御も行うように指示信号を送信する。表示部１６の画面には、照明機器及びエアコンの制御結果を表示しないが、表示してもよい。

このように動作例６でも、情報端末１０は、音声認識の方式及び辞書の切り替えを行わず、第１方式及び第１辞書Ｄ１１のまま音声認識を行う。

（４）第１方式、及び第２方式に関する利点
上述した通り、本実施形態の情報端末１０では、他の端末との通話状態においては、第１方式の音声認識よりも簡易な第２方式で音声認識が行われる。そのため、通話状態における音声認識に関する処理速度が向上する可能性が高くなり、ユーザの利便性が向上し得る。結果的に、情報端末１０には、音声認識の機能に関する改善を図れる、という利点がある。

また、他の端末との通話状態において、トリガー音声認識を行わない第２方式で音声認識が行われるため、ユーザは、通話状態においてトリガーワードを発話する必要がなくなり、ユーザのストレスが低減され得る。結果的に、ユーザの利便性が向上し得る。また、トリガーワードは、ユーザ以外の者に知れ渡るとセキュリティ性の低下が懸念されるが、情報端末１０では、他の端末との通話状態においてトリガーワードが不要である。そのため、通話中にユーザが発話したトリガーワードが、通話の相手に聞こえてしまう可能性が低減する。結果的に、セキュリティ性の低下も抑制し得る。また、通話中に、ユーザが唐突にトリガーワードを発話すると、通話の相手にとっても違和感を覚えるが、情報端末１０では、他の端末との通話状態においてトリガーワードが不要であるため、そのような違和感の発生も抑制し得る。

また、本実施形態の情報端末１０では、第１方式の音声認識よりも簡易な第２方式が、辞書に登録されている制御コマンドの数の違いによって実現されるため、より簡単な構成で通話状態における音声認識に関する処理速度が向上し得る。

（５）制御コマンドと動作状態
ところで、上記の動作例１～６及び表１等からも理解出来るように、本実施形態では、音声認識部１８２で音声認識される制御コマンドの種類は、自機（情報端末１０）の動作状態に応じて設定されている。そのため、自機（情報端末１０）の各動作状態において、音声認識部１８２がマイクロホン１３１に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、全ての制御コマンドを参照の対象にして検索する可能性を低減できる。よって、音声認識に関する処理速度が向上し得る。

また、どの動作状態でも全ての制御コマンドを参照の対象にして検索すると、音声認識に関する識別率が低下する可能性がある。例えば、ユーザが正しいコマンドワードを発話しているにも関わらず、音声認識部１８２が音声認識に失敗する可能性が増え得る。しかし、本実施形態の情報端末１０では、そのような識別率の低下を抑制できる。

このように情報端末１０によれば、音声認識の処理速度又は精度が向上し得る。結果的に、情報端末１０には、音声認識の機能に関する改善を図れる、という利点がある。

具体的には、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、呼出に対する通話応答をするための応答コマンドを含む。しかし、動作状態が待機状態である場合に音声認識される制御コマンドの種類は、応答コマンドを含まない。そのため、待機状態に対しては、音声認識部１８２がマイクロホン１３１に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、呼出に対する応答コマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、動作状態に応じて、使用する第１辞書Ｄ１１と第２辞書Ｄ１２とを切り替えることにより、待機状態である場合に応答コマンドが検索対象とならないようにしている。

また、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、電気錠２０１を解錠するための解錠コマンドを含む。しかし、動作状態が待機状態である場合に音声認識される制御コマンドの種類は、解錠コマンドを含まない。そのため、待機状態に対しては、音声認識部１８２がマイクロホン１３１に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、電気錠２０１の解錠コマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、動作状態に応じて、使用する第１辞書Ｄ１１と第２辞書Ｄ１２とを切り替えることにより、待機状態である場合に解錠コマンドが検索対象とならないようにしている。

また、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、呼出をキャンセルするためのキャンセルコマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、キャンセルコマンドを含まない。そのため、待機状態に対しては、音声認識部１８２がマイクロホン１３１に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、呼出のキャンセルコマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。ここで言う呼出の「キャンセルコマンド」とは、例えば、通話の終了コマンドや、電気錠２０１を解錠するための解錠コマンドに相当し得る。或いは、呼出をキャンセルするための専用のコマンド（例えば「呼出を止めて」）であってもよい。本実施形態では、動作状態に応じて、使用する第１辞書Ｄ１１と第２辞書Ｄ１２とを切り替えることにより、待機状態である場合に呼出のキャンセルコマンドが検索対象とならないようにしている。

また、動作状態が他の端末との通話状態である場合に音声認識される制御コマンドの種類は、電気錠２０１を解錠するための解錠コマンドを含む。しかし、動作状態が待機状態である場合に音声認識される制御コマンドの種類は、解錠コマンドを含まない。そのため、待機状態に対しては、音声認識部１８２がマイクロホン１３１に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、電気錠２０１の解錠コマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、動作状態に応じて、使用する第１辞書Ｄ１１と第２辞書Ｄ１２とを切り替えることにより、待機状態である場合に解錠コマンドが検索対象とならないようにしている。

また、動作状態が他の端末との通話状態である場合に音声認識される制御コマンドの種類は、通話を終了するための終了コマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、その終了コマンドを含まない。そのため、待機状態に対しては、音声認識部１８２がマイクロホン１３１に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、通話の終了コマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、動作状態に応じて、使用する第１辞書Ｄ１１と第２辞書Ｄ１２とを切り替えることにより、待機状態である場合に通話の終了コマンドが検索対象とならないようにしている。

また、動作状態が所定の動作モードを実行している状態である場合に音声認識される制御コマンドの種類は、所定の動作モードを開始する開始コマンドを含まず、実行中の所定の動作モードを解除する解除コマンドを含む。所定の動作モードとは、上述の通り、防犯セットの動作モード、ドアモニタ確認の動作モード、及び録画再生の動作モード等である。これらの開始コマンドは、表１で言えば、それぞれ「警戒セットして」、「ドアモニタを見せて」、及び「録画再生して」等である。そのため、所定の動作モードを実行しているモード動作状態に対しては、音声認識部１８２がマイクロホン１３１に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、所定の動作モードの開始コマンドが検索対象に設定されていない。例えば、既に防犯セットの動作を実行中の警戒状態に対しては、入力された音声にどの制御コマンドが含まれているかを音声識別する際に、防犯セットの開始コマンド（警戒セットして）が検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、第１辞書Ｄ１１の中で、所定の動作モードを実行中の状態である場合に、その開始コマンドが検索対象とならないようにしている。

また、動作状態が待機状態である場合に音声認識される制御コマンドの種類は、上記の所定の動作モードを解除する解除コマンドを含まず、上記の所定の動作モードを開始する開始コマンドを含む。所定の動作モードとは、上述の通り、防犯セットの動作モード、ドアモニタ確認の動作モード、及び録画再生の動作モード等である。これらの解除コマンドは、表１で言えば、それぞれ「警戒セット解除して」、「終了して」、及び「終了して」等である。そのため、待機状態に対しては、音声認識部１８２がマイクロホン１３１に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、所定の動作モードの解除コマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、第１辞書Ｄ１１の中で、待機状態である場合に、所定の動作モードを解除する解除コマンドが検索対象とならないようにしている。

（６）変形例
（６－１）変形例１
以下、本変形例（変形例１）に係る情報端末１０、及びインターホンシステム１について図１０を参照しながら説明する。なお、変形例１に係る情報端末１０、及びインターホンシステム１について、上記実施形態に係る情報端末１０、及びインターホンシステム１と実質的共通する構成要素については、同じ参照符号を付してそれらの詳細な説明を省略することもある。

変形例１に係るインターホンシステム１は、音声認識システムＡ１を更に備える点で上記実施形態に係るインターホンシステム１と相違する。音声認識システムＡ１は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが音声認識システムＡ１として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。

変形例１では、図１０に示すように、音声認識システムＡ１の機能が、外部のサーバ７０に設けられている。サーバ７０は、１又は複数台のサーバ装置から構成され、また、そのようなサーバ装置がクラウドシステムを構成し得る。

図１０では、便宜上、インターホンシステム１のうちある住戸Ｅ２に設置されている情報端末１０、及び、情報端末１０がネットワークＮＴ１を介して通信可能に接続されているサーバ７０のみを図示する。

変形例１に係る情報端末１０は、図１０に示すように、第１通信部１１、第２通信部１２、音取得部１３、操作部１４、音出力部１５、表示部１６、記憶部１７、処理部１８、及び第３通信部１９を備える。処理部１８は、音声処理部１８１、音声認識部１８２、制御処理部１８３、表示処理部１８４、及び通話処理部１８５を備える。音声認識部１８２は、マイクロホン１３１に入力された音声に基づいて音声認識を行う。第１通信部１１は、他の端末（ここではロビーインターホン２０）との通話を含む通信を行う。

第２通信部１２は、音声認識システムＡ１と通信を行う。音声認識システムＡ１は、制御処理部１８３が行う制御に関する制御コマンドについてのコマンド音声認識を行う音声認識システムＡ１と通信を行う。第３通信部１９は、他の端末（ここでは玄関子機４０）との通話を含む通信を行う。

変形例１に係る情報端末１０は、第１モードと、第２モードとを有する。第１モードでは、マイクロホン１３１に入力された音声にトリガーワードが含まれているか否かについてトリガー音声認識を音声認識部１８２にて行う。また第１モードでは、トリガーワードが含まれている場合に、コマンド音声認識を行わせるために音声認識システムＡ１と通信を行う。第２モードでは、トリガー音声認識を音声認識部１８２にて行わずに、コマンド音声認識を行わせるために音声認識システムＡ１と通信を行う。情報端末１０は、待機状態において第１モードで動作し、他の端末との通話状態において第２モードで動作する。

音声認識システムＡ１は、図１０に示すように、通信部Ａ１１と、音声認識部Ａ１２と、記憶部Ａ１３と、を備える。通信部Ａ１１は、１又は複数の施設（集合住宅５等）に導入されている複数の情報端末１０（の第２通信部１２）の各々と個別に通信するための通信インタフェースを有する。音声認識部Ａ１２は、通信部Ａ１１にて情報端末１０から制御コマンド（コマンドワード）を含み得る音声データを受信すると、コマンド音声認識の処理を実行する。音声認識システムＡ１は、音声認識部Ａ１２による音声認識結果を、通信部Ａ１１から音声データの送信元である情報端末１０に返信する。

記憶部Ａ１３は、上記実施形態に係る情報端末１０の記憶部１７に代わって、コマンド辞書Ｄ１（第１辞書Ｄ１１及び第２辞書Ｄ１２）を記憶している。なお、情報端末１０の記憶部１７は、上記実施形態と同様に、トリガー辞書Ｄ０を記憶している。

要するに、変形例１に係る情報端末１０の音声認識部１８２は、上記実施形態に係る情報端末１０におけるトリガー音声認識とコマンド音声認識のうち、トリガー音声認識の機能だけを有している。そして、上記実施形態に係る情報端末１０におけるコマンド音声認識の機能が、情報端末１０の外部システム（音声認識システムＡ１）に設けられている。

変形例１に係る情報端末１０は、トリガー音声認識を自機（ローカル）で行い、コマンド音声認識を音声認識システムＡ１に行わせる。そのため、情報端末１０の処理負荷を抑えることができる。

また、変形例１に係る情報端末１０も、上記実施形態に係る情報端末１０と同様に、通話状態においてトリガー音声認識を行わないため、音声認識に関する処理速度が向上する可能性が高くなり、ユーザの利便性が向上し得る。また、セキュリティ性の低下も抑制し得る。結果的に、変形例１に係る情報端末１０にも、音声認識の機能に関する改善を図れる、という利点がある。

なお、変形例１では、音声認識システムＡ１は、情報端末１０に入力される音声にコマンドワードが含まれているか否かをほぼ常時監視する可能性が高くなる。その結果、情報端末１０と音声認識システムＡ１との間での音声データに関する通信量等が増加し得る。この点を考慮すると、変形例１では、ある程度コマンド音声認識を行わせるタイミングや、コマンド音声認識の対象となる音声を絞ることが好ましい。具体的には、情報端末１０も、ある特定の状態（例えば待機状態）に関してはコマンド音声認識を行えるように構成されることが好ましい。

変形例１に係る情報端末１０と同様の機能は、制御方法でも具現化され得る。制御方法は、音声認識ステップと、制御処理ステップと、第１通信ステップと、第２通信ステップと、を含む。音声認識ステップでは、マイクロホン１３１に入力された音声に基づいて音声認識処理を行う。第１通信ステップでは、他の端末との通話を含む通信を行う。第２通信ステップでは、制御処理ステップにて行う制御に関する制御コマンドについてのコマンド音声認識を行う音声認識システムと通信を行う。情報端末１０は、第１モードと、第２モードと、を有する。第１モードでは、マイクロホン１３１に入力された音声にトリガーワードが含まれているか否かについてトリガー音声認識を音声認識ステップにて行う。また第１モードでは、トリガーワードが含まれている場合に、コマンド音声認識を行わせるために音声認識システムＡ１と通信を第２通信ステップにて行う。第２モードでは、トリガー音声認識を音声認識ステップにて行わずに、コマンド音声認識を行わせるために音声認識システムＡ１と通信を第２通信ステップにて行う。制御方法では、待機状態において第１モードで動作し、他の端末との通話状態において第２モードで動作するように情報端末１０を制御する。上記の制御方法にも、音声認識の機能に関する改善を図れる、という利点がある。この制御方法は、コンピュータシステム（情報端末１０）上で用いられる。つまり、この制御方法は、プログラムでも具現化可能である。変形例１に係るプログラムは、上記の制御方法を１以上のプロセッサに実行させるためのプログラムである。プログラムは、コンピュータで読み取り可能な非一時的記録媒体に記録されていてもよい。

（６－２）変形例２
以下、本変形例（変形例２）に係る情報端末１０、及びインターホンシステム１について図１１を参照しながら説明する。なお、変形例２に係る情報端末１０、及びインターホンシステム１について、上記実施形態及び変形例１に係る情報端末１０、及びインターホンシステム１と実質的共通する構成要素については、同じ参照符号を付してそれらの詳細な説明を省略することもある。

変形例２は、上記の変形例１の更なる変形例である。変形例２に係るインターホンシステム１も、上記の変形例１と同様に音声認識システムＡ１を更に備える。ただし、変形例２に係る音声認識システムＡ１が、コマンド音声認識の機能だけでなくトリガー音声認識の機能も有する点で、上記の変形例１に係る音声認識システムＡ１と相違する。言い換えれば、変形例２に係る情報端末１０は、いずれの音声認識の機能も有さない点で、上記の変形例１に係る情報端末１０と相違する。

図１１では、便宜上、インターホンシステム１のうちある住戸Ｅ２に設置されている情報端末１０、及び、情報端末１０がネットワークＮＴ１を介して通信可能に接続されているサーバ７０のみを図示する。

変形例２に係る音声認識システムＡ１は、情報端末１０と通信する通信部Ａ１１と、音声認識部Ａ１２と、記憶部Ａ１３と、を備える。

音声認識部Ａ１２は、マイクロホン１３１に入力された音声を情報端末１０から通信部Ａ１１で受信すると、音声に対する音声認識を行う。音声認識部Ａ１２は、通信部Ａ１１にて情報端末１０から、トリガーワード及び／又は制御コマンド（コマンドワード）を含み得る音声データを受信すると、トリガー音声認識及び／又はコマンド音声認識の処理を実行し得る。言い換えると、音声認識部Ａ１２は、情報端末１０の制御処理部１８３が行う制御に関する制御コマンドについてのコマンド音声認識を行う。音声認識システムＡ１は、音声認識部Ａ１２による音声認識結果を、通信部Ａ１１から音声データの送信元である情報端末１０に返信する。

記憶部Ａ１３は、トリガー辞書Ｄ０、及びコマンド辞書Ｄ１を記憶している。

ここで、変形例２に係る音声認識部Ａ１２は、第１モードと、第２モードと、を有する。第１モードでは、マイクロホン１３１に入力された音声にトリガーワードが含まれているか否かについてトリガー音声認識を行う。また第１モードでは、トリガーワードが含まれている場合に、情報端末１０の制御処理部１８３が行う制御に関する制御コマンドについてのコマンド音声認識を行う。第２モードでは、トリガー音声認識を行わずに、コマンド音声認識を行う。音声認識システムＡ１は、情報端末１０の待機状態において第１モードで動作し、情報端末１０が他の端末（ロビーインターホン２０，玄関子機４０）との通話状態において第２モードで動作する。つまり、音声認識システムＡ１は、情報端末１０から音声データだけでなく、音声入力された時点（現在）の情報端末１０の動作状態に関する情報も受信する。例えば、情報端末１０は、呼出状態時に音声入力された場合、ユーザの音声データと、自機が呼出状態であることを示す情報とを音声認識システムＡ１に送信する。音声認識システムＡ１は、受信した情報端末１０の動作状態に基づいて、第１モードで動作するか、第２モードで動作するかを決定する。なお、音声認識部Ａ１２で音声認識される制御コマンドの種類は、情報端末１０の動作状態に応じて設定されている。

変形例２に係る音声認識部Ａ１２においても、トリガー音声認識の処理を実行する部位（回路、又はサーバ装置）と、コマンド音声認識の処理を実行する部位（回路、又はサーバ装置）とが分かれていてもよい。

一方、変形例２に係る情報端末１０は、図１１に示すように、上記実施形態及び変形例１に係る情報端末１０とは違って音声認識部１８２を備えていない。また、情報端末１０の記憶部１７は、トリガー辞書Ｄ０、及びコマンド辞書Ｄ１を記憶していない。

変形例２のようにトリガー音声認識とコマンド音声認識の処理を全て音声認識システムＡ１（例えばクラウド）上で行うことで、情報端末１０の処理負荷を更に抑えることができる。

また、変形例２に係る音声認識システムＡ１も、上記実施形態に係る情報端末１０と同様に、情報端末１０が通話状態においてトリガー音声認識を行わないため、音声認識に関する処理速度が向上する可能性が高くなり、ユーザの利便性が向上し得る。また、セキュリティ性の低下も抑制し得る。結果的に、変形例２に係る音声認識システムＡ１にも、音声認識の機能に関する改善を図れる、という利点がある。

また、変形例２に係る音声認識システムＡ１では、音声認識部Ａ１２で音声認識される制御コマンドの種類が、情報端末１０の動作状態に応じて設定されている。そのため、各動作状態において、音声認識部Ａ１２がマイクロホン１３１に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、全ての制御コマンドを参照の対象にして検索する可能性を低減できる。その結果、音声認識の処理速度又は精度が向上し得る。

さらに、変形例２では、情報端末１０に音声認識の機能が設けられる場合に比べて、情報端末１０の処理負荷を抑えることができる。結果的に、音声認識システムＡ１には、音声認識の機能に関する改善を図れる、という利点がある。

変形例２では、音声認識システムＡ１は、情報端末１０に入力される音声にトリガーワード又はコマンドワードが含まれているか否かをほぼ常時監視する可能性が高くなる。その結果、変形例２は、変形例１よりも更に音声データに関する通信量等が増加し得る。この点を考慮すると、変形例２でも、ある程度トリガー音声認識、コマンド音声認識を行わせるタイミングや、音声認識の対象となる音声を絞ることが好ましい。

なお、変形例２に係る音声認識システムＡ１と同様の機能は、制御方法でも具現化され得る。音声認識システムＡ１を制御する一態様の制御方法は、情報端末１０と通信する通信ステップと、音声認識ステップと、を含む。音声認識ステップでは、マイクロホン１３１に入力された音声を情報端末１０から通信ステップにて受信すると、音声に対する音声認識処理を行う。音声認識システムＡ１は、第１モードと、第２モードと、を有する。第１モードでは、音声認識ステップにて、マイクロホン１３１に入力された音声にトリガーワードが含まれているか否かについてトリガー音声認識を行う。また第１モードでは、トリガーワードが含まれている場合に、情報端末１０の制御処理部１８３が行う制御に関する制御コマンドについてのコマンド音声認識を行う。第２モードでは、音声認識ステップにて、トリガー音声認識を行わずに、コマンド音声認識を行う。制御方法では、情報端末１０の待機状態において第１モードで動作し、情報端末１０が他の端末（ロビーインターホン２０，玄関子機４０）との通話状態において第２モードで動作する。上記一態様の制御方法にも、音声認識の機能に関する改善を図れる、という利点がある。この一態様の制御方法は、コンピュータシステム（音声認識システムＡ１）上で用いられる。つまり、この一態様の制御方法は、プログラムでも具現化可能である。変形例２に係るプログラムは、上記の一態様の制御方法を１以上のプロセッサに実行させるためのプログラムである。プログラムは、コンピュータで読み取り可能な非一時的記録媒体に記録されていてもよい。

また、音声認識システムＡ１を制御する別の態様の制御方法は、情報端末１０と通信する通信ステップと、音声認識ステップと、を含む。音声認識ステップでは、マイクロホン１３１に入力された音声を情報端末１０から通信ステップにて受信すると、音声に対する音声認識処理を行う。音声認識ステップでは、情報端末１０の制御処理部１８３が行う制御に関する制御コマンドについてのコマンド音声認識を行う。音声認識ステップで音声認識される制御コマンドの種類は、情報端末１０の動作状態に応じて設定されている。上記の別の態様の制御方法にも、音声認識の機能に関する改善を図れる、という利点がある。この別の態様の制御方法は、コンピュータシステム（音声認識システムＡ１）上で用いられる。つまり、この別の態様の制御方法は、プログラムでも具現化可能である。変形例２に係るプログラムは、上記の別の態様の制御方法を１以上のプロセッサに実行させるためのプログラムである。プログラムは、コンピュータで読み取り可能な非一時的記録媒体に記録されていてもよい。

（６－３）その他の変形例
本開示における情報端末１０、インターホンシステム１、及び音声認識システムＡ１は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における情報端末１０、インターホンシステム１、及び音声認識システムＡ１としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路（ＩＣ）又は大規模集積回路（ＬＳＩ）を含む１ないし複数の電子回路で構成される。ここでいうＩＣ又はＬＳＩ等の集積回路は、集積の度合いによって呼び方が異なっており、システムＬＳＩ、ＶＬＳＩ（Very Large Scale Integration）、又はＵＬＳＩ（Ultra Large Scale Integration）と呼ばれる集積回路を含む。さらに、ＬＳＩの製造後にプログラムされる、ＦＰＧＡ（Field-Programmable Gate Array）、又はＬＳＩ内部の接合関係の再構成若しくはＬＳＩ内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、１つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、１つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、１以上のプロセッサ及び１以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む１ないし複数の電子回路で構成される。

また、情報端末１０、インターホンシステム１、及び音声認識システムＡ１の各々における複数の機能が、１つのハウジング内に集約されていることは必須の構成ではない。情報端末１０、インターホンシステム１、及び音声認識システムＡ１の各々の構成要素は、複数のハウジングに分散して設けられていてもよい。反対に、情報端末１０、インターホンシステム１、及び音声認識システムＡ１の各々における複数の機能が、１つのハウジング内に集約されてもよい。さらに、情報端末１０、インターホンシステム１、及び音声認識システムＡ１の各々の少なくとも一部の機能、例えば、情報端末１０の一部の機能がクラウド（クラウドコンピューティング）等によって実現されてもよい。

上記実施形態では、一例として、情報端末１０が、住戸端末（インターホン親機）であり、また、自機が備えるマイクロホン１３１に直接入力される音声に基づき音声認識が行われることを想定していた。しかし、音声認識用に音声を取得するマイクロホンは、情報端末１０に対して外付けであってもよい。また、音声認識用に音声を取得するマイクロホンは、情報端末１０とは別の装置（例えば、同じ住戸Ｅ２内にあるインターホン子機、或いは、スマートフォン、タブレット端末、又はウェアラブル端末等のユーザが携帯し得る携帯端末）に設けられてもよい。情報端末１０は、その別の装置と通信を行ってユーザの音声を取得してもよい。

例えば、携帯端末の一例としてユーザが携帯するスマートフォンが備えるマイクロホンに入力される音声に基づき、情報端末１０又は音声認識システムＡ１が音声認識を行ってもよい。この場合、スマートフォンには、情報端末１０と通信するための専用のアプリケーションソフトが予めインストールされる。ユーザは、住戸Ｅ２内に居れば、情報端末１０の傍でなくても、スマートフォンを用いて情報端末１０への呼出の応答や訪問者との通話を行えることが好ましい。スマートフォンは、例えばWi-Fi（登録商標）等の規格に準拠した無線通信により、マイクロホンに入力される音声（データ）を情報端末１０に転送する。言い換えると、ユーザが住戸Ｅ２内に居てスマートフォンが情報端末１０から一定の範囲内に存在する場合、ユーザはスマートフォンを利用して音声操作により、間接的に呼出中の情報端末１０への応答をしたり通話をしたりできてもよい。また、情報端末１０の音声認識の機能の少なくとも一部が、アプリケーションソフトとしてスマートフォン内にインストールされていてもよい。例えば、トリガー音声認識の機能がスマートフォンにあり、コマンド音声認識の機能が情報端末１０又は音声認識システムＡ１にあってもよい。

一変形例において、他の端末としての玄関子機４０からの呼出中又は玄関子機４０と通話中において、解錠ボタン１４３が押される又はコマンドワード（例えば「解錠して」）の音声認識に成功すると、情報端末１０は、解錠信号を送信して施設（住戸Ｅ２）の玄関扉の電気錠を解錠してもよい。情報端末１０は、玄関子機４０又は他の装置を介して、玄関扉の電気錠を解錠してもよい。

一変形例において、インターホンシステム１が戸建住宅に適用されている場合、戸建住宅の玄関子機からの呼出中又は玄関子機と通話中において、解錠ボタン１４３が押される又はコマンドワード（例えば「解錠して」）の音声認識に成功すると、情報端末１０は、解錠信号を送信して戸建住宅の玄関扉の電気錠を解錠してもよい。情報端末１０は、玄関子機又は他の装置を介して、玄関扉の電気錠を解錠してもよい。

上述した実施形態、変形例１、変形例２、及びその他の変形例は、適宜組み合わせて適用可能である。

（７）まとめ
以上説明したように、第１の態様に係る情報端末（１０）は、音声認識部（１８２）と、制御処理部（１８３）と、通信部（第１通信部１１，第３通信部１９）と、を備える。音声認識部（１８２）は、マイクロホン（１３１）に入力された音声に基づいて音声認識を行う。制御処理部（１８３）は、音声認識部（１８２）で音声認識された制御コマンド（例えば音声認識に成功した制御コマンド）に基づく制御を行う。通信部（第１通信部１１，第３通信部１９）は、他の端末（ロビーインターホン２０，玄関子機４０）との通話を含む通信を行う。情報端末（１０）では、音声認識部（１８２）で音声認識される制御コマンドの種類は、自機の動作状態に応じて設定されている。

上記の態様によれば、音声認識部（１８２）で音声認識される制御コマンドの種類が、情報端末（１０）の動作状態に応じて設定されている。そのため、各動作状態において、音声認識部（１８２）がマイクロホン（１３１）に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、全ての制御コマンドを参照の対象にして検索する可能性を低減できる。その結果、音声認識の処理速度又は精度が向上し得る。結果的に、情報端末（１０）には、音声認識の機能に関する改善を図れる、という利点がある。

第２の態様に係る情報端末（１０）に関して、第１の態様において、動作状態が所定の動作モードを実行している状態である場合に音声認識される制御コマンドの種類は、所定の動作モードを開始する開始コマンドを含まず、実行中の所定の動作モードを解除する解除コマンドを含む。

上記の態様によれば、所定の動作モードを実行している状態に対しては、音声認識部（１８２）がマイクロホン（１３１）に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、所定の動作モードの開始コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。

第３の態様に係る情報端末（１０）に関して、第２の態様において、動作状態が待機状態である場合に音声認識される制御コマンドの種類は、解除コマンドを含まず、開始コマンドを含む。

上記の態様によれば、待機状態に対しては、音声認識部（１８２）がマイクロホン（１３１）に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、所定の動作モードの解除コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。

第４の態様に係る情報端末（１０）に関して、第１～第３の態様のいずれか１つにおいて、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、呼出に対する通話応答をするための応答コマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、応答コマンドを含まない。

上記の態様によれば、待機状態に対しては、音声認識部（１８２）がマイクロホン（１３１）に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、呼出に対する応答コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。

第５の態様に係る情報端末（１０）に関して、第１～第４の態様のいずれか１つにおいて、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、情報端末（１０）が設置された施設（集合住宅５）で入退するための扉（玄関扉２００）に設けられた電気錠（２０１）を解錠するための解錠コマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、解錠コマンドを含まない。

上記の態様によれば、待機状態に対しては、音声認識部（１８２）がマイクロホン（１３１）に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、電気錠（２０１）の解錠コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。

第６の態様に係る情報端末（１０）に関して、第１～第５の態様のいずれか１つにおいて、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、呼出をキャンセルするためのキャンセルコマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、キャンセルコマンドを含まない。

上記の態様によれば、待機状態に対しては、音声認識部（１８２）がマイクロホン（１３１）に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、呼出のキャンセルコマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。

第７の態様に係る情報端末（１０）に関して、第１～第６の態様のいずれか１つにおいて、動作状態が他の端末との通話状態である場合に音声認識される制御コマンドの種類は、情報端末（１０）が設置された施設（集合住宅５）で入退するための扉（玄関扉２００）に設けられた電気錠（２０１）を解錠するための解錠コマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、解錠コマンドを含まない。

第８の態様に係る情報端末（１０）に関して、第１～第７の態様のいずれか１つにおいて、動作状態が他の端末との通話状態である場合に音声認識される制御コマンドの種類は、通話を終了するための終了コマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、終了コマンドを含まない。

上記の態様によれば、待機状態に対しては、音声認識部（１８２）がマイクロホン（１３１）に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、通話の終了コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。

第９の態様に係る情報端末（１０）に関して、第１～第８の態様のいずれか１つにおいて、音声認識部（１８２）で音声認識される制御コマンドは、複数の動作状態間で同じワードで設定されているコマンドワードを含む。制御処理部（１８３）は、音声認識部（１８２）で音声認識された制御コマンド（例えば音声認識に成功した制御コマンド）が同じワードであっても、自機の動作状態に応じて異なる制御を行う。

上記の態様によれば、ユーザが覚える制御コマンドのコマンドワードを減らすことができ、ユーザの利便性が向上する。

第１０の態様に係るインターホンシステム（１）は、第１～第９の態様のいずれか１つにおける情報端末（１０）と、他の端末（ロビーインターホン２０，玄関子機４０）と、を備える。

上記の態様によれば、音声認識の機能に関する改善を図れるインターホンシステム（１）を提供できる。

第１１の態様に係る音声認識システム（Ａ１）は、情報端末（１０）と通信する通信部（Ａ１１）と、音声認識部（Ａ１２）と、を備える。音声認識部（Ａ１２）は、マイクロホン（１３１）に入力された音声を情報端末（１０）から通信部（Ａ１１）で受信すると、音声に対する音声認識を行う。音声認識部（Ａ１２）は、情報端末（１０）の制御処理部（１８３）が行う制御に関する制御コマンドについてのコマンド音声認識を行う。音声認識部（Ａ１２）で音声認識される制御コマンドの種類は、情報端末（１０）の動作状態に応じて設定されている。

上記の態様によれば、音声認識部（Ａ１２）で音声認識される制御コマンドの種類が、情報端末（１０）の動作状態に応じて設定されている。そのため、各動作状態において、音声認識部（Ａ１２）がマイクロホン（１３１）に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、全ての制御コマンドを対象にして検索する可能性を低減できる。その結果、音声認識の処理速度又は精度が向上し得る。さらに、情報端末（１０）側に音声認識の機能が設けられる場合に比べて、情報端末（１０）の処理負荷を抑えることができる。結果的に、音声認識システム（Ａ１）には、音声認識の機能に関する改善を図れる、という利点がある。

第１２の態様に係る制御方法は、情報端末（１０）を制御する制御方法である。制御方法は、音声認識ステップと、制御処理ステップと、通信ステップと、を含む。音声認識ステップでは、マイクロホン（１３１）に入力された音声に基づいて音声認識処理を行う。制御処理ステップでは、音声認識ステップにて音声認識された制御コマンド（例えば音声認識に成功した制御コマンド）に基づく制御を行う。通信ステップでは、他の端末（ロビーインターホン２０，玄関子機４０）との通話を含む通信を行う。音声認識ステップで音声認識される制御コマンドの種類は、情報端末（１０）の動作状態に応じて設定されている。

上記の態様によれば、音声認識の機能に関する改善を図れる制御方法を提供できる。

第１３の態様に係る制御方法は、音声認識システム（Ａ１）を制御する制御方法である。制御方法は、情報端末（１０）と通信する通信ステップと、音声認識ステップと、を含む。音声認識ステップでは、マイクロホン（１３１）に入力された音声を情報端末（１０）から通信ステップにて受信すると、音声に対する音声認識処理を行う。音声認識ステップでは、情報端末（１０）の制御処理部（１８３）が行う制御に関する制御コマンドについてのコマンド音声認識を行う。音声認識ステップで音声認識される制御コマンドの種類は、情報端末（１０）の動作状態に応じて設定されている。

第１４の態様に係るプログラムは、１以上のプロセッサに、第１２、又は第１３の態様のいずれか１つの制御方法を実行させるためのプログラムである。

上記の態様によれば、音声認識の機能に関する改善を図れる機能を提供できる。

第２～第９の態様に係る構成については、第１の態様に係る情報端末（１０）に必須の構成ではなく、適宜省略可能である。

１インターホンシステム
１０情報端末
１８２音声認識部
１８３制御処理部
１１第１通信部（通信部）
１３１マイクロホン
１９第３通信部（通信部）
２０ロビーインターホン（他の端末）
２００玄関扉（扉）
２０１電気錠
４０玄関子機（他の端末）
５集合住宅（施設）
Ａ１音声認識システム
Ａ１１通信部
Ａ１２音声認識部

Claims

マイクロホンに入力された音声に基づいて音声認識を行う音声認識部と、
前記音声認識部で音声認識された制御コマンドに基づく制御を行う制御処理部と、
他の端末との通話を含む通信を行う通信部と、
を備え、
前記音声認識部で音声認識される前記制御コマンドの種類は、自機の動作状態に応じて設定されている、
情報端末。
前記動作状態が所定の動作モードを実行している状態である場合に音声認識される前記制御コマンドの種類は、前記所定の動作モードを開始する開始コマンドを含まず、実行中の前記所定の動作モードを解除する解除コマンドを含む、
請求項１に記載の情報端末。
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記解除コマンドを含まず、前記開始コマンドを含む、
請求項２に記載の情報端末。
前記動作状態が前記他の端末から呼出を受けている呼出状態である場合に音声認識される前記制御コマンドの種類は、前記呼出に対する通話応答をするための応答コマンドを含み、
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記応答コマンドを含まない、
請求項１に記載の情報端末。
前記動作状態が前記他の端末から呼出を受けている呼出状態である場合に音声認識される前記制御コマンドの種類は、前記情報端末が設置された施設で入退するための扉に設けられた電気錠を解錠するための解錠コマンドを含み、
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記解錠コマンドを含まない、
請求項１に記載の情報端末。
前記動作状態が前記他の端末から呼出を受けている呼出状態である場合に音声認識される前記制御コマンドの種類は、前記呼出をキャンセルするためのキャンセルコマンドを含み、
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記キャンセルコマンドを含まない、
請求項１に記載の情報端末。
前記動作状態が前記他の端末との通話状態である場合に音声認識される前記制御コマンドの種類は、前記情報端末が設置された施設で入退するための扉に設けられた電気錠を解錠するための解錠コマンドを含み、
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記解錠コマンドを含まない、
請求項１に記載の情報端末。
前記動作状態が前記他の端末との通話状態である場合に音声認識される前記制御コマンドの種類は、前記通話を終了するための終了コマンドを含み、
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記終了コマンドを含まない、
請求項１に記載の情報端末。
前記音声認識部で音声認識される前記制御コマンドは、複数の動作状態間で同じワードで設定されているコマンドワードを含み、
前記制御処理部は、前記音声認識部で音声認識された前記制御コマンドが同じワードであっても、自機の動作状態に応じて異なる制御を行う、
請求項１に記載の情報端末。
請求項１～９のいずれか１項に記載の情報端末と、
前記他の端末と、
を備える、
インターホンシステム。
情報端末と通信する通信部と、
マイクロホンに入力された音声を前記情報端末から前記通信部で受信すると、前記音声に対する音声認識を行う音声認識部と、
を備え、
前記音声認識部は、前記情報端末の制御処理部が行う制御に関する制御コマンドについてのコマンド音声認識を行い、
前記音声認識部で音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている、
音声認識システム。
情報端末を制御する制御方法であって、
マイクロホンに入力された音声に基づいて音声認識処理を行う音声認識ステップと、
前記音声認識ステップにて音声認識された制御コマンドに基づく制御を行う制御処理ステップと、
他の端末との通話を含む通信を行う通信ステップと、
を含み、
前記音声認識ステップで音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている、
制御方法。
音声認識システムを制御する制御方法であって、
情報端末と通信する通信ステップと、
マイクロホンに入力された音声を前記情報端末から前記通信ステップにて受信すると、前記音声に対する音声認識処理を行う音声認識ステップと、
を含み、
前記音声認識ステップでは、前記情報端末の制御処理部が行う制御に関する制御コマンドについてのコマンド音声認識を行い、
前記音声認識ステップで音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている、
制御方法。
１以上のプロセッサに請求項１２又は１３に記載の制御方法を実行させるためのプログラム。