JP2024072183A - 情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラム - Google Patents
情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラム Download PDFInfo
- Publication number
- JP2024072183A JP2024072183A JP2022182904A JP2022182904A JP2024072183A JP 2024072183 A JP2024072183 A JP 2024072183A JP 2022182904 A JP2022182904 A JP 2022182904A JP 2022182904 A JP2022182904 A JP 2022182904A JP 2024072183 A JP2024072183 A JP 2024072183A
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- information terminal
- voice
- unit
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 156
- 238000004891 communication Methods 0.000 claims abstract description 174
- 238000012545 processing Methods 0.000 claims abstract description 155
- 230000004044 response Effects 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 description 58
- 230000015654 memory Effects 0.000 description 30
- 230000004048 modification Effects 0.000 description 26
- 238000012986 modification Methods 0.000 description 26
- 238000003384 imaging method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 18
- 230000008901 benefit Effects 0.000 description 16
- 230000005236 sound signal Effects 0.000 description 16
- 238000012790 confirmation Methods 0.000 description 8
- 230000002265 prevention Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004397 blinking Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Landscapes
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
- Telephone Function (AREA)
Abstract
【課題】音声認識の機能に関する改善を図ること。【解決手段】情報端末10は、音声認識部182と、制御処理部183と、通信部(第1通信部11)と、を備える。音声認識部182は、マイクロホン131に入力された音声に基づいて音声認識を行う。制御処理部183は、音声認識部182で音声認識された制御コマンドに基づく制御を行う。通信部は、他の端末との通話を含む通信を行う。音声認識部182で音声認識される制御コマンドの種類は、自機の動作状態に応じて設定されている。【選択図】図1
Description
本開示は、一般に、情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラムに関する。より詳細には、本開示は、他の端末との通話を含む通信機能を有した情報端末、情報端末を備えるインターホンシステム、情報端末と通信する音声認識システム、情報端末の制御方法、音声認識システムの制御方法、及びプログラムに関する。
特許文献1には、集合住宅等で用いられるインターホンシステムが開示されている。特許文献1のインターホンシステムは、集合住宅の共同玄関に設置されるロビーインターホン、各住戸内に設置されるインターホン親機、及び各住戸の戸外(玄関先)に設置されるドアホン子器を備える。
このようなインターホンシステムでは、来訪者は、ロビーインターホンを用いてインターホン親機を呼び出す。この呼出に応じて住戸の住人がインターホン親機に対して所定の操作を行うことでロビーインターホンとインターホン親機との間で通話が開始される。ドアホン子器でインターホン親機を呼び出したときも同様に、呼出に応じて住戸の住人がインターホン親機に対して所定の操作を行うことでドアホン子器とインターホン親機との間で通話が開始される。
ところで、所定の操作として住戸の住人が発した音声を基に音声認識を行うシステムが存在する。情報端末(例えばインターホン親機)やインターホンシステムにて音声認識を利用する場合、音声認識の処理速度や精度の向上といった音声認識の機能に関する改善が望まれている。
本開示は上記事由に鑑みてなされ、音声認識の機能に関する改善を図ることができる、情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラムを提供することを目的とする。
本開示の一態様の情報端末は、音声認識部と、制御処理部と、通信部と、を備える。前記音声認識部は、マイクロホンに入力された音声に基づいて音声認識を行う。前記制御処理部は、前記音声認識部で音声認識された制御コマンドに基づく制御を行う。前記通信部は、他の端末との通話を含む通信を行う。前記情報端末では、前記音声認識部で音声認識される前記制御コマンドの種類は、自機の動作状態に応じて設定されている。
本開示の一態様のインターホンシステムは、上記の情報端末と、前記他の端末と、を備える。
本開示の一態様の音声認識システムは、情報端末と通信する通信部と、音声認識部と、を備える。前記音声認識部は、マイクロホンに入力された音声を前記情報端末から前記通信部で受信すると、前記音声に対する音声認識を行う。前記音声認識部は、前記情報端末の制御処理部が行う制御に関する制御コマンドについてのコマンド音声認識を行う。前記音声認識部で音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている。
本開示の一態様の制御方法は、情報端末を制御する制御方法である。前記制御方法は、音声認識ステップと、制御処理ステップと、通信ステップと、を含む。前記音声認識ステップでは、マイクロホンに入力された音声に基づいて音声認識処理を行う。前記制御処理ステップでは、前記音声認識ステップにて音声認識された制御コマンドに基づく制御を行う。前記通信ステップでは、他の端末との通話を含む通信を行う。前記音声認識ステップで音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている。
本開示の一態様の制御方法は、音声認識システムを制御する制御方法である。前記制御方法は、情報端末と通信する通信ステップと、音声認識ステップと、を含む。前記音声認識ステップでは、マイクロホンに入力された音声を前記情報端末から前記通信ステップにて受信すると、前記音声に対する音声認識処理を行う。前記音声認識ステップでは、前記情報端末の制御処理部が行う制御に関する制御コマンドについてのコマンド音声認識を行う。前記音声認識ステップで音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている。
本開示の一態様のプログラムは、1以上のプロセッサに、上記のいずれかの制御方法を実行させるためのプログラムである。
本開示によれば、音声認識の機能に関する改善を図ることができる、という利点がある。
以下に説明する実施形態及び変形例は、本開示の一例に過ぎず、本開示は、実施形態及び変形例に限定されない。以下の実施形態及び変形例以外であっても、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。
(実施形態)
以下、本実施形態に係る情報端末10を備えるインターホンシステム1について、図1A~図9を用いて説明する。情報端末10は、例えばインターホン装置として動作する。
以下、本実施形態に係る情報端末10を備えるインターホンシステム1について、図1A~図9を用いて説明する。情報端末10は、例えばインターホン装置として動作する。
(1)概要
以下、本実施形態に係る情報端末10について説明する。
以下、本実施形態に係る情報端末10について説明する。
本実施形態に係る情報端末10は、図2に示すように、インターホンシステム1に適用される。インターホンシステム1は、例えば、マンション等の集合住宅5に適用される。本実施形態に係るインターホンシステム1は、情報端末10を備える。本実施形態では、インターホンシステム1は、各々がインターホン装置として動作する複数(図2では2つ)の情報端末10を備える。インターホンシステム1は、ロビーインターホン20(インターホン玄関装置)と、制御装置30と、複数(図2では2つ)の玄関子機40(インターホン玄関装置;図2参照)とを、更に備える。言い換えると、インターホンシステム1は、情報端末10と、他の端末(ロビーインターホン20及び/又は玄関子機40)と、を備える。
インターホンシステム1では、複数の情報端末10の各々とロビーインターホン20とが制御装置30を介して通信を行うように構成されている。また、インターホンシステム1では、複数の情報端末10と複数の玄関子機40とが一対一に対応している。なお、本実施形態に係るインターホンシステム1は、集合住宅5以外に、戸建住宅に適用されてもよい。あるいは、インターホンシステム1は、事務所、店舗、学校若しくは介護施設等の非住宅施設等に適用されてもよい。
言い換えると、インターホンシステム1は、施設、又は集合施設に適用されてもよい。「施設」は、「住宅」であれば、戸建住宅、又は集合住宅5の住戸に対応し、「非住宅」であれば、事務所、店舗、学校若しくは介護施設等に対応し得る。また、「集合施設」は、複数の住戸(専有部)が集まった集合住宅5でもよいし、複数の事務所や店舗(専有部)が集まった非住宅の集合施設でもよいし、例えば下層階が非住宅の集合施設で上層階が集合住宅である複合施設でもよい。
複数の情報端末10の各々は、例えば、集合住宅5に含まれる複数の住戸E2の各々に設けられている住戸端末(インターホン親機)である。各情報端末10は、例えば、各住戸E2内の居室等に設けられている居室親機としての機能をする住宅情報盤であることを想定する。
各情報端末10は、第2幹線62、分岐線63、及び分岐器50を介して制御装置30に接続されている。各情報端末10は、制御装置30を介して、ロビーインターホン20との間で通信(例えば、通話、及び制御信号の送信等)を行うように構成されている。さらに、各情報端末10は、接続線64を介して対応する玄関子機40に接続されている。各情報端末10は、対応する玄関子機40との間で通信(例えば、通話、及び制御信号の送信等)を行うように構成されている。
ロビーインターホン20は、例えば、集合住宅5の共用玄関(ロビー)E1に設けられている。ロビーインターホン20は、第1幹線61を介して制御装置30に接続されている。ロビーインターホン20は、制御装置30を介して、各情報端末10との間で通信(例えば、通話、及び映像信号の送信等)を行うように構成されている。ロビーインターホン20は、例えば、共用玄関E1の壁に取り付けられている。ロビーインターホン20が映像信号を情報端末10に送信することで、情報端末10は、映像(画像)を表示することができる。
要するに、本実施形態に係る情報端末10は、通信部(第1通信部11,第3通信部19;図1A参照)を備える。通信部(第1通信部11,第3通信部19)は、他の端末(ここでは、ロビーインターホン20,玄関子機40に相当)との通話を含む通信を行う。
制御装置30は、例えば、集合住宅5の管理室E3に設けられている。制御装置30は、第1幹線61を介してロビーインターホン20に接続され、かつ第2幹線62を介して各情報端末10に接続されている。つまり、制御装置30は、各情報端末10とロビーインターホン20との間の通信を中継するように構成されている。
複数の玄関子機40の各々は、例えば、集合住宅5の住戸E2の外玄関に設けられている。各玄関子機40は、接続線64を介して対応する情報端末10に接続されている。各玄関子機40は、対応する情報端末10との間で通信(例えば、通話、映像信号の送信等)を行うように構成されている。
本実施形態では、第1幹線61、第2幹線62、分岐線63、及び接続線64は、いずれもツイストペア線である。つまり、実際には、第1幹線61、第2幹線62、分岐線63、及び接続線64は2本の電線で構成されるが、図面上は1本の線で表している。第1幹線61、第2幹線62、分岐線63、及び接続線64の少なくとも1つはツイストペア線以外の電線であってもよい。
本実施形態に係る情報端末10は、住戸E2内の住人(以下では、単に「ユーザ」と呼ぶこともある)の音声を取得し、取得した音声に対して音声認識を施す。すなわち、情報端末10は、図1Aに示すように、音声認識部182を備える。音声認識部182は、マイクロホン131に入力された音声に基づいて音声認識を行う。マイクロホン131は、情報端末10自身に設けられていることを想定する。
情報端末10は、音声認識の結果に基づいて、インターホンシステム1の操作に関する制御を行う。言い換えると、情報端末10は、図1Aに示すように、制御処理部183を更に備える。制御処理部183は、音声認識部182の音声認識結果に基づく制御を行う。具体的には、制御処理部183は、音声認識部182で音声認識された制御コマンド(例えば音声認識に成功した制御コマンド)に基づく制御を行う。
要するに、情報端末10は、音声操作が可能に構成されている。例えば、情報端末10は、住戸E2内のユーザの音声に、共用玄関E1に設けられた玄関扉200(扉)の開閉に係る制御を行うための制御コマンドのキーワード(コマンドワード)が含まれていると判断(音声認識の成功)すると、コマンドワードに応じた制御を行う。具体的には、情報端末10は、制御コマンドとして「解錠して!」を、音声認識部182の音声認識により検出すると、玄関扉200(図2参照)を開くための電気錠201の解錠制御を行う。ここで、玄関扉200は、電気錠201(図2参照)で開閉されるように構成されている。
ところで、インターホン装置又はインターホンシステムにて音声認識を利用する場合、音声認識の処理速度又は精度の向上、また、ユーザの利便性の向上といった音声認識の機能に関する改善が望まれている。
そこで、本開示の一形態に係る情報端末10では、音声認識部182は、第1方式、又は第1方式の音声認識よりも簡易な第2方式で音声認識を行うように構成される。音声認識部182は、待機状態において第1方式で音声認識を行い、他の端末(ロビーインターホン20又は玄関子機40)との通話状態において第2方式で音声認識を行う。つまり、情報端末10の音声認識部182は、第1方式の音声認識と、第2方式の音声認識とを、待機状態と通話状態とで使い分ける。上記の一形態では、他の端末(ロビーインターホン20又は玄関子機40)との通話状態においては、第1方式の音声認識よりも簡易な第2方式で音声認識が行われる。そのため、通話状態における音声認識に関する処理速度が向上する可能性が高くなり、ユーザの利便性が向上し得る。結果的に、情報端末10には、音声認識の機能に関する改善を図れる、という利点がある。
なお、「待機状態」は、他の端末との通話状態でもなく、他の端末から情報端末10の呼出を受けている呼出状態でもなく、さらに、所定の動作モードを実行している状態でもない状態を意味する。詳細は後述するが、「所定の動作モード」とは、一例として、防犯セットの動作モード、ドアモニタ確認の動作モード、及び録画再生の動作モード等である。言い換えると、「待機状態」は、例えば、主に、音声認識部182(特に、トリガー音声認識を行う第1音声認識部1821)、及びマイクロホン131のみがアクティブである状態を意味する。
また、本開示の一形態に係る制御方法は、情報端末10を制御する制御方法である。制御方法は、音声認識ステップと、制御処理ステップと、通信ステップと、を含む。音声認識ステップでは、マイクロホン131に入力された音声に基づいて音声認識処理を行う。制御処理ステップでは、音声認識ステップの音声認識結果に基づく制御を行う。通信ステップでは、他の端末(ロビーインターホン20,玄関子機40)との通話を含む通信を行う。音声認識処理は、第1方式、又は第1方式の音声認識よりも簡易な第2方式で音声認識を行う。音声認識処理は、待機状態において第1方式で音声認識を行い、他の端末との通話状態において第2方式で音声認識を行う。上記の一形態に係る制御方法には、音声認識の機能に関する改善を図れる、という利点がある。この制御方法は、コンピュータシステム(情報端末10)上で用いられる。つまり、この制御方法は、プログラムでも具現化可能である。本開示の一態様に係るプログラムは、上記の一形態に係る制御方法を1以上のプロセッサに実行させるためのプログラムである。プログラムは、コンピュータで読み取り可能な非一時的記録媒体に記録されていてもよい。
また、本開示の別の一形態に係る情報端末10では、音声認識部182で音声認識される制御コマンドの種類は、自機の動作状態に応じて設定されている。そのため、情報端末10の各動作状態において、音声認識部182がマイクロホン131に入力された音声にどの制御コマンド(コマンドワード)が含まれているかを音声識別する際に、全ての制御コマンドを参照の対象にして検索する可能性を低減できる。その結果、音声認識の処理速度又は精度が向上し得る。結果的に、上記別の一形態の情報端末10には、音声認識の機能に関する改善を図れる、という利点がある。
また、本開示の別の一形態に係る制御方法は、情報端末10を制御する制御方法である。制御方法は、音声認識ステップと、制御処理ステップと、通信ステップと、を含む。音声認識ステップでは、マイクロホン131に入力された音声に基づいて音声認識処理を行う。制御処理ステップでは、音声認識ステップにて音声認識された制御コマンド(例えば音声認識に成功した制御コマンド)に基づく制御を行う。通信ステップでは、他の端末(ロビーインターホン20,玄関子機40)との通話を含む通信を行う。音声認識ステップで音声認識される制御コマンドの種類は、情報端末10の動作状態に応じて設定されている。上記の別の一形態に係る制御方法には、音声認識の機能に関する改善を図れる、という利点がある。この制御方法は、コンピュータシステム(情報端末10)上で用いられる。つまり、この制御方法は、プログラムでも具現化可能である。本開示の別の一態様に係るプログラムは、上記の別の一形態に係る制御方法を1以上のプロセッサに実行させるためのプログラムである。プログラムは、コンピュータで読み取り可能な非一時的記録媒体に記録されていてもよい。
なお、本実施形態では一例として、情報端末10が住戸端末(インターホン親機)であり、本開示で言う「他の端末」は、ロビーインターホン20、又は玄関子機40であることを想定する。しかし、「他の端末」は、施設の管理人室(ここでは例えば管理室E3)に設置される管理人室親機であってもよい。また、情報端末10は、住戸端末(インターホン親機)に限定されない。情報端末10は、例えば、管理人室親機であってもよく、その場合、「他の端末」は、住戸端末(インターホン親機)、又はロビーインターホン20であってもよい。また、情報端末10は、ロビーインターホン20、又は玄関子機40であってもよい。
以下では、特に断り無く単に「他の端末」と呼ぶ場合は、ロビーインターホン20、又は玄関子機40であることを意味する。
(2)構成
(2-1)情報端末
情報端末10は、図1Aに示すように、第1通信部11、第2通信部12、音取得部13、操作部14、音出力部15、表示部16、記憶部17、処理部18、及び第3通信部19を備える。
(2-1)情報端末
情報端末10は、図1Aに示すように、第1通信部11、第2通信部12、音取得部13、操作部14、音出力部15、表示部16、記憶部17、処理部18、及び第3通信部19を備える。
情報端末10(例えば処理部18)は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが情報端末10として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。
第1通信部11(通信部)は、ロビーインターホン20(の通信部21;図2参照)と通信するための通信インタフェースである。すなわち、第1通信部11は、他の端末(ロビーインターホン20)との通話を含む通信を行う。第1通信部11は、第2幹線62、分岐線63、及び分岐器50を介して制御装置30に接続されている。第1通信部11は、制御装置30を介して、ロビーインターホン20に対して音声信号、及び制御信号等を送信する。さらに、第1通信部11は、制御装置30を介して、ロビーインターホン20から呼出信号、音声信号、及び映像信号等を受信する。
第2通信部12は、外部(ここでは、サーバ70)と通信するための通信インタフェースである。第2通信部12は、ネットワークNT1を介してサーバ70に接続されている。第2通信部12は、各種情報をサーバ70から受信してよい。また、制御装置30が、ゲートウェイ等を介して、ネットワークNT1及びサーバ70に接続され、情報端末10が、分岐線63、制御装置30を介してサーバ70に接続されてもよい。
第3通信部19(通信部)は、玄関子機40と通信するための通信インタフェースである。すなわち、第3通信部19は、他の端末(玄関子機40)との通話を含む通信を行う。第3通信部19は、接続線64を介して玄関子機40に接続されている。第3通信部19は、玄関子機40に対して音声信号、及び制御信号等を送信し、玄関子機40から呼出信号、音声信号、及び映像信号等を受信する。
情報端末10は、ロビーインターホン20及び玄関子機40との通信状態等に応じて、少なくとも3つの動作状態を取り得る。本実施形態の情報端末10が取り得る動作状態は、呼出状態、通話状態、及び待機状態を含む。本実施形態の情報端末10が取り得る動作状態は、更に、モード動作状態を含む。呼出状態は、ロビーインターホン20又は玄関子機40から呼出信号を受信して呼び出しを受けている状態である。通話状態は、ロビーインターホン20又は玄関子機40と通話可能に通信を確立している状態である。モード動作状態は、所定の動作モードを実行している状態である。所定の動作モードは、上述の通り、防犯セットの動作モード、ドアモニタ確認の動作モード、及び録画再生の動作モード等である。待機状態は、通話状態でもなく、呼出状態でもなく、モード動作状態でもない状態である。
後述するエアコン等の機器制御の動作、及びシーン制御の動作について、情報端末10にとっては、外部に制御を指示する指示信号を送信する瞬時的な動作であり、これらの動作は、実行している状態が比較的長い間(例えば1分以上)維持される可能性は低い。しかし、エアコン等の機器制御の動作、及びシーン制御の動作についても、情報端末10にとって動作を実行している状態が比較的長い場合には、上記のモード動作状態に相当してもよい。例えば、シーン制御が、録画再生の動作モードの実行を含む場合(後述する「動作例6」)、シーン制御(録画再生)の動作モードも、上記の所定の動作モードであってもよい。
音取得部13は、少なくともユーザの音声を含む音を取得し、取得した音に係る音情報(音声データ)を処理部18に出力する。音取得部13は、マイクロホン131を有している(図1A参照)。音取得部13は、マイクロホン131に入力された、情報端末10の前方に位置するユーザの音声(音)を含む周囲の音をアナログの音信号(音情報)に変換して処理部18に出力する。
音出力部15は、スピーカ151を有する。スピーカ151は、情報端末10がロビーインターホン20と通話可能な状態(通話状態)である場合には、ロビーインターホン20から送信された音声信号(音データ)に基づいた音(訪問者等の音声を含む)を出力する。スピーカ151は、情報端末10が玄関子機40と通話可能な状態(通話状態)である場合には、玄関子機40から送信された音声信号(音データ)に基づいた音(訪問者等の音声を含む)を出力する。また、スピーカ151は、情報端末10の状況に応じて、例えば記憶部17に記憶されている種々の音声メッセージや電子音を出力する。
図1Aでは、マイクロホン131は2個図示されている。すなわち、音取得部13は、2個のマイクロホン131(第1マイクロホン1311、第2マイクロホン1312)を有する。
第1マイクロホン1311、及び第2マイクロホン1312は、例えば、情報端末10の正面から見て左右の上部にそれぞれ配置されている。特に、第1マイクロホン1311は、第2マイクロホン1312よりも、スピーカ151から離れた位置にある。言い換えると、第1マイクロホン1311は、遠端のマイクである。
本実施形態の情報端末10は、例えば、通話用の音声データとして、他の端末との通話時に、第1マイクロホン1311に入力されたユーザの音声を利用する。第1マイクロホン1311に入力された音声は、主に、通話用の音声処理が実行されて他の端末に送信される。つまり、第2マイクロホン1312ではなく、遠端の第1マイクロホン1311の音声を通話用の音声データに利用することで、スピーカ151から出力される(訪問者の)音声がマイクロホン131に回り込むことを抑制している。
一方、本実施形態の情報端末10は、例えば、音声認識用の音声データとして、第1マイクロホン1311、及び第2マイクロホン1312に入力されたユーザの音声を利用する。特に、処理部18は、2個のマイクロホン131を利用して、受音方向の指向性を高めるビームフォーミング(Beamforming)に関する処理を実行する機能を有している。処理部18は、第1マイクロホン1311、及び第2マイクロホン1312から入力されるユーザの音声から、ユーザが情報端末10に対して左右どちらの方向から発話しているかを推定する。そして、処理部18は、その推定結果に基づき、特定の方向からの音声信号に対する感度を上げる処理を実行する。
操作部14は、ユーザの操作を受け付けるように構成されている。操作部14は、図1Bに示すように、応答操作部141(通話操作部)、終了操作部142、及び解錠操作部143を有している。操作部14は、その他にも、表示部16の画面にホーム画面を表示させるためのボタン(ホーム操作部)等を更に有している。
言い換えると、情報端末10は、他の端末からの情報端末10の呼出に対する通話応答をする応答操作を受け付ける応答操作部141を備える。応答操作部141は、ロビーインターホン20、又は玄関子機40からの呼び出しに対して、ロビーインターホン20、又は玄関子機40との通信(訪問者等との通話)を開始するための操作部(ボタン)である。つまり、例えば、第1通信部11が住人を呼び出すための呼出信号を受信している状態(呼出状態)で応答操作部141が操作されると、ロビーインターホン20と情報端末10との間で音声通話が可能になる。
また、言い換えると、情報端末10は、終了操作部142、及び解錠操作部143の少なくとも一方(本実施形態では両方)を更に備える。終了操作部142は、他の端末との通話を終了する終了操作を受け付ける。解錠操作部143は、情報端末10が設置された施設(ここでは集合住宅5)で入退するための扉(ここでは共用玄関E1に設けられた玄関扉200;図2参照)に設けられた電気錠201を解錠する解錠操作を受け付ける。つまり、例えば、第1通信部11がロビーインターホン20と通話(通信)をしている状態(通話状態)において、終了操作部142が操作されると、ロビーインターホン20との音声通話が終了する。また、例えば、第1通信部11がロビーインターホン20と通話(通信)をしている状態(通話状態)において、解錠操作部143が操作されると、情報端末10から制御装置30を介して電気錠201に解錠を行わせるための解錠信号が送信される。その結果、電気錠201が解錠されて、訪問者は、玄関扉200を開けて共用玄関E1より先に進入することができる。本実施形態では、解錠操作部143が操作されて電気錠201が解錠されても、情報端末10は、ロビーインターホン20との音声通話を自動的に終了しないことを想定するが、電気錠201の解錠に応じて音声通話を自動的に終了してもよい。また、ロビーインターホン20が、通信部21とは別の通信部(電気錠通信部)を有していて、電気錠通信部が電気錠201と接続されていてもよい。この場合、情報端末10が解錠制御を行うと、ロビーインターホン20から電気錠201へ解錠信号が出力されて、電気錠201が解錠される。
本実施形態では一例として、応答操作部141、終了操作部142、解錠操作部143及びホーム操作部は、情報端末10の筐体前面の表示部16の周囲に配置された、静電容量式のタッチセンサによって実現されている。すなわち、ユーザは、応答操作部141、終了操作部142、解錠操作部143及びホーム操作部に対して指先で軽くタッチするだけで、操作入力が受け付けられる。ただし、応答操作部141、終了操作部142、解錠操作部143及びホーム操作部は、タッチセンサによって実現されることに限定されず、これらの少なくとも一部が押し釦式のスイッチによって実現されてもよい。
表示部16は、例えば、液晶ディスプレイである。表示部16は、映像を表示するように構成されている。表示部16は、情報端末10がロビーインターホン20と通話(通信)可能な状態である場合に、通信対象であるロビーインターホン20が撮像した映像を表示する。表示部16は、情報端末10が玄関子機40と通話(通信)可能な状態である場合に、通信対象である玄関子機40が撮像した映像を表示する。なお、情報端末10がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが、表示部16と、例えば操作部14の一部の機能とを兼ねてもよい。また、表示部16は、ホーム画面、設定画面、及び各動作状態に応じた画面を表示する。
記憶部17は、第1記憶部171、及び第2記憶部172を含む。第1記憶部171、及び第2記憶部172は、それぞれ読み書き可能なメモリで構成されている。第1記憶部171、及び第2記憶部172は、それぞれ例えばフラッシュメモリである。記憶部17は、例えば、音声認識で使用する辞書ファイル(トリガー辞書D0、コマンド辞書D1;図1A参照)を記憶している。辞書ファイルは、サーバ70からダウンロードされて記憶されてもよい。辞書ファイルは、音声認識部182が音声認識可能な言語(日本語、英語等)の種類、同一言語における表現方法(方言、アクセント等)、同一言語における発音主体(男性、女性、子供、高齢者等)のうち、少なくとも1つに係る情報に基づく辞書ファイルを含む。以下、音声認識部182が音声認識可能な言語の種類、同一言語における表現方法、同一言語における発音主体のうち少なくとも1つに基づいた辞書ファイルを、言語情報に基づく辞書ファイルという。なお、記憶部17は、辞書ファイル以外にも、表示部16に表示させる画面の情報、音声メッセージの情報、及び各種の設定情報等を記憶している。
トリガー辞書D0は、トリガーワードを含む辞書である。トリガーワードとは、制御コマンドのコマンドワードの検出のトリガーとなる所定のキーワードである。コマンド辞書D1は、制御コマンドのコマンドワードを含む辞書である。コマンド辞書D1は、図1Aに示すように、第1辞書D11、及び第2辞書D12を含む。
本実施形態では、トリガーワードは、情報端末10又は辞書ファイルを提供する側(例えば情報端末10を製造する者)で予め決められたキーワードとして設定されている。トリガーワードは、例えば、情報端末10の商品名、又はその略称等であり、比較的少ない文字数であることが望ましい。トリガーワードは、情報端末10のユーザが、情報端末10の設定画面にて個人で適宜、好みのワードに設定可能でもよい。なお、図4等では、例えば、住人が発話する「〇〇、応答して!」のうち、「〇〇」が、トリガーワードに該当し、「〇〇」に続く「応答して!」が制御コマンドのコマンドワードに該当する。
本実施形態では一例として、トリガー辞書D0は第1記憶部171に記憶されていて、コマンド辞書D1(第1辞書D11及び第2辞書D12)は、第2記憶部172に記憶されている。
処理部18は、図1Aに示すように、音声処理部181、音声認識部182、制御処理部183、表示処理部184、及び通話処理部185を有している。
音声処理部181は、第1マイクロホン1311から入力されて音取得部13が出力したアナログの音信号を音声通話用に取得し、デジタルの音信号に変換する。また、音声処理部181は、第1マイクロホン1311から入力して音取得部13から取得した音信号に対して、フィルタリング処理等を行うように構成されている。音声処理部181は、例えばエコーキャンセラを含む。エコーキャンセラは、マイクロホン131から出力された音信号に対してエコーの抑制又は除去を行う。また、音声処理部181は、第1マイクロホン1311及び第2マイクロホン1312から入力されて音取得部13が出力した音信号を音声識別用に取得し、上述したビームフォーミング処理を行うように構成されている。
音声認識部182は、マイクロホン131(本実施形態では、第1マイクロホン1311及び第2マイクロホン1312)に入力された音声に基づいて音声認識を行う。言い換えると、音声認識部182は、音取得部13が取得した音声に基づいた音声認識処理を行う。音声認識部182は、音声処理部181が処理した音に対して、記憶部17が記憶している辞書ファイル(トリガー辞書D0、コマンド辞書D1)を用いた音声認識処理を行う。
本実施形態の音声認識部182は、第1方式、又は第1方式の音声認識よりも簡易な第2方式で音声認識を行う。音声認識部182は、待機状態において第1方式で音声認識を行い、他の端末との通話状態において第2方式で音声認識を行う。
ここで、「第1方式」は、マイクロホン131に入力された音声にトリガーワードが含まれているか否かについてトリガー音声認識を行い、トリガーワードが含まれている場合に、コマンド音声認識を行う方式である。コマンド音声認識は、制御処理部183が行う制御に関する制御コマンドについての音声認識であり、すなわち、どのコマンドワードが含まれているか否かについて認識する。
一方、「第2方式」は、マイクロホン131に入力された音声に対してトリガー音声認識を行わずにコマンド音声認識を行う方式である。要するに、第2方式は、トリガー音声認識の処理を省略するため、その分、第1方式よりも「簡易」な方式と言える。
さらに本実施形態では、「第1方式」は、制御処理部183が、待機状態において行う所定の制御に関する制御コマンド(第1制御コマンド)についての音声認識(第1コマンド音声認識)を、第1辞書D11に基づいて行う方式である。ここで言う「所定の制御」とは、主に、後述する通話関連「以外」に関する制御である。
一方、「第2方式」は、制御処理部183が、通話状態において行う特定の制御に関する制御コマンド(第2制御コマンド)についての音声認識(第2コマンド音声認識)を、第2辞書D12に基づいて行う方式である。ここで言う「特定の制御」とは、主に、後述する通話関連に関する制御である。
つまり、本実施形態では、待機状態と、通話状態とで、音声認識に利用する辞書ファイルを、第1辞書D11と第2辞書D12とで変更している。
そして、第1辞書D11に登録されている第1制御コマンドの数は、第2辞書D12に登録されている第2制御コマンドの数よりも多く設定されている。要するに、第2方式は、登録されているコマンドワードの数が第1辞書D11よりも少ない第2辞書D12内を参照(検索)するため、その分、第1方式よりも「簡易」な方式と言える。
つまり、音声認識部182は、情報端末10とロビーインターホン20(又は玄関子機40)との間で通信中(通話状態)だけではなく、情報端末10の待機状態においても、音声認識処理が実行可能に構成されている。
さらに、音声認識部182は、他の端末からの呼出状態、及び上述したモード動作状態においても、音声認識処理を実行可能に構成されている。
要するに、情報端末10は、他の端末と通話中でない状態であっても、マイクロホン131から受音可能な状態である。
ここで、音声認識部182は、トリガー音声認識を行う第1音声認識部1821と、コマンド音声認識を行う第2音声認識部1822と、を有する(図1A参照)。つまり、本実施形態では、トリガーワードに関する音声認識処理を行う部位(回路)と、コマンドワードに関する音声認識処理を行う部位(回路)とが分けて実装されている。情報端末10は、待機状態では、主にトリガー音声認識を行う第1音声認識部1821と音取得部13がアクティブな状態(起動状態、つまり電力を消費している状態)にあり、トリガーワードを含む音声がマイクロホン131に入力されることを監視している。逆に言えば、情報端末10の待機状態では、コマンド音声認識を行う第2音声認識部1822、及び制御処理部183(以下、「第2音声認識部1822等」とも呼ぶ)は、非アクティブな状態(非起動状態、つまり電力を消費していない状態、又は電力消費を抑えたスリープ状態)にある。
第1音声認識部1821は、トリガー辞書D0を参照(検索)するトリガー音声認識により、音声処理部181が処理した音を監視し、トリガーワードが含まれるか否かを判断する。そして、第1音声認識部1821が、トリガーワードが含まれていると判断すると(トリガーワードの検出)、情報端末10は、第2音声認識部1822等をアクティブな状態にし、制御コマンドを音声認識可能な状態にする。
例えば、制御処理部183が行う制御に関する制御コマンドとして、応答コマンド(例えば「応答して」というコマンドワード)が設定されている。応答コマンドは、他の端末からの情報端末10の呼出に対する通話応答をするためのコマンドである。本実施形態では、ユーザは、応答コマンドの直前に、トリガーワードを発話する必要がある。情報端末10は、トリガーワードが含まれていると判断すると、第2音声認識部1822等をアクティブな状態にし、応答コマンドを音声認識可能な状態になる。
なお、トリガーワードの検出以外に、ロビーインターホン20又は玄関子機40から呼出を受けたり、操作部14や表示部16へのタッチ操作を受け付けたりしても、情報端末10は、第2音声認識部1822等をアクティブな状態にしてもよい。
第2音声認識部1822は、第1辞書D11又は第2辞書D12を参照(検索)するコマンド音声認識により、音声処理部181が処理した音を監視し、コマンドワードが含まれるか否かを判断する。そして、第2音声認識部1822が、あるコマンドワードが含まれていると判断すると(コマンドワードの検出)、そのコマンドワード(制御コマンド)を、制御処理部183に出力する。
第2音声認識部1822は、待機状態において第1音声認識部1821によりトリガーワードが含まれていることが認識されるまで、無効状態である。つまり、本実施形態では、トリガー音声認識、及びコマンド音声認識を行う部位(処理回路)を分け、トリガーワードが含まれていることが認識されるまで、第2音声認識部1822を無効状態にしている。そして、第2音声認識部1822は、待機状態においてトリガーワードが含まれていることが認識されると、コマンド音声認識可能な状態(有効状態)になる。そのため、音声認識部182の処理速度の向上を図れる。また、第2音声認識部1822の消費電力を抑制できる。
ここで言う第2音声認識部1822の「無効状態」とは、第2音声認識部1822が非アクティブな状態であり、電力を消費していない状態、又は電力消費を抑えたスリープ状態を想定する。しかし、第2音声認識部1822の「無効状態」は、第2音声認識部1822がアクティブな状態であるけれども、コマンド音声認識の処理を休止している状態であってもよい。
待機状態において、トリガーワードが含まれていることが認識されるまで第2音声認識部1822が無効状態であることにも例外がある。例えば、直接操作部14へのタッチ操作によってユーザから制御要求を受け付けた場合には、第2音声認識部1822は、トリガーワード無しでもコマンド音声認識可能な状態(有効状態)になり得る。
制御処理部183は、音声認識部182の音声認識結果に基づく制御を行う。言い換えると、制御処理部183は、音声認識部182で音声認識された制御コマンド(例えば音声認識に成功した制御コマンド)に基づく制御を行う。ここでは、制御処理部183は、第2音声認識部1822から取得した音声認識結果(制御コマンド)に対応付けされている制御を実行する。また、制御処理部183は、音声認識に成功したこと又は失敗したことを、音又は表示(例えば電子音や音声メッセージの出力、表示灯の点灯又は点滅による表示、或いは表示部16の画面からのメッセージ表示等)にて報知する。
要するに、情報端末10は、待機状態では、トリガー辞書D0を参照してトリガーワードを検出すると、第2音声認識部1822等を非アクティブからアクティブに切り替え、第1辞書D11を参照してコマンドワードの音声認識をする(第1方式)。そして、情報端末10は、通話状態では、第2辞書D12を参照してコマンドワードの音声認識だけをする(第2方式)。なお、情報端末10は、呼出を受けると第1辞書D11から第2辞書D12に切り替える。そして、情報端末10は、呼出状態では、トリガーワードを検出すると、第2音声認識部1822等を非アクティブからアクティブに切り替え、第2辞書D12を参照してコマンドワードの音声認識をする。それ以降は、情報端末10は、第1方式から第2方式に切り替えて音声認識をする。つまり、参照先を第1辞書D11から第2辞書D12に切り替えるタイミング、第2音声認識部1822等を非アクティブからアクティブに切り替えるタイミング、及び第1方式から第2方式に切り替えるタイミングは異なる。ただし、これらの3つのタイミングのうちの少なくとも2つが同じでもよい。
他の端末からの呼出に対して応答コマンド(制御コマンド)が音声認識されると(音声認識の成功)、制御処理部183は、他の端末との通信(通話)を開始するように情報端末10の動作を制御する。例えば、制御処理部183は、情報端末10とロビーインターホン20(又は玄関子機40)との間で通話が行えるよう通信を確立するために第1通信部11(又は第3通信部19)を制御する。
音声認識部182は、情報端末10と他の端末との間の通信(通話)が終了するまで、又は玄関扉200(図2参照)の電気錠201が解錠されるまで、第2方式でコマンド音声認識のみをする。つまり、音声認識部182は、通信(通話)が終了するまで、又は電気錠201が解錠されるまで、トリガー音声認識を行わない。
なお、音声認識部182は、第2方式で音声認識する状態において、マイクロホン131への音声入力が無いまま所定時間(例えば数分)が経過すると、自動的に第1方式で音声認識する状態に切り替わる。その際には、情報端末10は、他の端末との通話状態も同時に自動的に終了する。そのため、ユーザの音声入力が無くても第1方式への切り替えが実現されるため、第2方式のまま放置される可能性が低減し、ユーザの利便性が向上し、音声認識の機能に関する改善を図れる。
通話処理部185は、音取得部13が取得した通話用の音データ(音情報)を通話先の人が操作する装置に出力する。情報端末10は、例えば、通話用の音声データとして、他の端末との通話時に、第1マイクロホン1311に入力されたユーザの音声を利用する。第1マイクロホン1311に入力された音声は、主に、通話処理部185において通話用の音声処理が実行されて、通話中の他の端末に送信される。つまり、第2マイクロホン1312ではなく、遠端の第1マイクロホン1311の音声を通話用の音声データに利用することで、スピーカ151から出力される(訪問者の)音声がマイクロホン131に回り込むことを抑制している。具体的には、通話処理部185は、音声処理部181でノイズの抑制又は除去がされた音の信号を、第1通信部11(又は第3通信部19)を介して、ロビーインターホン20(又は玄関子機40)に送信する。例えば、情報端末10がロビーインターホン20と通信を行っている場合には、通話処理部185は、音声処理部181でノイズの抑制又は除去がされた音データの信号を、第1通信部11を介してロビーインターホン20に送信する。
表示処理部184は、表示部16に通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像を表示させるための処理を行う。また、表示処理部184は、ホーム画面、設定画面、及び各動作状態に応じた画面を表示させるための処理を行う。
ここで具体的な制御コマンド(コマンドワード)と、各制御コマンドに対応付けされている制御イベント(操作イベント)との一覧を下記の表1に示す。制御コマンドは、操作イベントに対応付けされて記憶部17に記憶されている。表1の右端の「辞書」の欄は、対応するコマンドワードが登録されている辞書を示す。
表1に示すコマンドワード等は単なる一例であり、これらに限定されない。表1から、第2辞書D12のコマンドワード数が、第1辞書D11のコマンドワード数よりも少ないことが容易に理解できる。また、表1から、第2辞書D12のコマンドワードに対応付けられている操作イベントは、インターホン制御関連に絞られ、特にその中でも「通話」に関連性の高い操作イベントに絞られていることが容易に理解できる。逆に、第1辞書D11のコマンドワードに対応付けられている操作イベントは、インターホン装置以外の機器制御、シーン制御、及び、インターホン制御の中でも「通話」とは関連性の低い機能制御の操作イベントに絞られていることが容易に理解できる。なお、以下では、「通話」に関連性の高い操作イベントのことを、「通話関連の操作イベント」と呼ぶこともがある。通話関連の操作イベントとは、他の端末からの呼出の受信、通話応答、通話切断(通話終了)、及び玄関扉200(図2参照)の電気錠201の解錠等に関する操作イベントを含む。
情報端末10では、表1の制御コマンドの音声入力(音声操作)によって実行される動作制御は、操作部14又は表示部16へのタッチ操作入力によっても実行可能となっている。
制御処理部183は、表1に示されるような制御コマンドを含む音声が入力されて第2音声認識部1822で音声認識されると(音声認識の成功)、対応する操作イベントを特定し、対象機器(自機も含む)を制御する。操作イベントがインターホン制御関連であれば、制御の対象機器は、自機(情報端末10)、又は玄関扉200(図2参照)の電気錠201となる。
例えば、情報端末10がロビーインターホン20と通信中(通話中)に、情報端末10は、ユーザから制御コマンドとして「終了して」というコマンドワードを含む音声を受け取る(音声入力)。この場合、第2音声認識部1822が、音声処理部181が処理した音声に「終了して」というコマンドワードが含まれると判断する。制御処理部183は、自機とロビーインターホン20と通話を切断する動作を制御する。
或いは、音声入力ではなく、制御処理部183は、ユーザから終了操作部142がタッチ操作を受け付けた場合にも、上記通話を切断する動作を制御する。
また、例えば、情報端末10がロビーインターホン20と通信中(通話中)に、情報端末10は、ユーザから制御コマンドとして「解錠して」というコマンドワードを含む音声を受け取る(音声入力)。この場合、第2音声認識部1822が、音声処理部181が処理した音声に「解錠して」というコマンドワードが含まれると判断する。制御処理部183は、共用玄関E1から入室するための玄関扉200の電気錠201の解錠動作を制御する。例えば、制御処理部183は、共用玄関E1から入室するための玄関扉200の電気錠が解錠動作を行うように制御装置30を制御する。
或いは、音声入力ではなく、制御処理部183は、ユーザから解錠操作部143がタッチ操作を受け付けた場合にも、上記玄関扉200の電気錠201の解錠を制御する。
また、情報端末10は、インターホン機能以外にも、火災を検知した場合に火災警報を実行するための防災機能、不審者の侵入を検知した場合に警報を実行するための防犯機能、各種の生活情報を提示する機能を有している。また、情報端末10は、外部(ここではサーバ70)と通信するための通信機能を有している。例えば、表1に示す「防犯セット」は、上記の防犯機能を利用して警戒モードをオンにする設定(セット)を意味する。
なお、機器制御やシーン制御に関して、例えば、情報端末10が、各住戸E2内に設置されているHEMS(Home Energy Management System)のコントローラと通信可能に接続されていることが想定される。HEMSのコントローラは、表1に示されるような電気機器(エアコン、照明装置、空気清浄機、レンジフード等)を制御可能に接続されている。要するに、機器制御やシーン制御に関して、制御の対象機器は、HEMSのコントローラが制御可能な電気機器となり得る。情報端末10は、機器制御やシーン制御に関する制御コマンドを音声入力で受け付けると、HEMSのコントローラを介して、対応する電気機器を制御可能である。
言い換えれば、情報端末10は、トリガーワードを発話し、その後連続して(例えば、コンマ数秒~数秒以内に)コマンドワードを発話する第1パターンと、コマンドワードを単独で発話する第2パターンとをユーザが使い分けし易いような構成を有している。そして、情報端末10は、機器制御、シーン制御、及び、インターホン制御の中でも通話関連以外の操作イベント(防犯セットや録画再生等の操作イベント)について、第1パターンによる音声操作を受け付けた場合に、その制御を実行する。一方、情報端末10は、インターホン制御関連の中でも通話関連の操作イベントについては、第1パターンでも第2パターンでも音声操作を受け付けた場合に、その制御を実行する。言い換えると、通話関連の操作イベントについては、たとえトリガーワードが含まれていても、情報端末10がトリガー音声認識を実行しないだけで、その後に正しいコマンドワードが含まれていれば、その制御を実行する。ただし、通話状態で、ユーザが第1パターンで音声操作を行うと、トリガーワードが通話の相手(例えば、訪問者)に知れ渡る可能性が高く、セキュリティ性が低下し得る。また、通話の相手にとっても、通話中にトリガーワードが唐突に聞こえると不自然であり、違和感を覚え得る。そのため、情報端末10の取扱いとして、ユーザには、通話状態ではコマンドワードを単独で発話する第2パターンによる音声操作が推奨される。なお、音声認識部182は、通話状態であってもトリガー音声認識の処理を行ってもよく、トリガーワードを検出すると、情報端末10は、表示部16に、通話中にはトリガーワードの発話を控えることを示すメッセージを表示してもよい。
また本実施形態では、音声認識部182で音声認識される制御コマンドは、複数の動作状態間で同じワードで設定されているコマンドワードを含む。表1の例で言えば、「終了して」というコマンドワードが、通話状態(及び呼出状態)と所定の動作を実行中のモード動作状態とで同じワードで設定されている。この「終了して」というコマンドワードは、第1辞書D11にも第2辞書D12にも登録されている(表1参照)。制御処理部183は、音声認識部182で音声認識された制御コマンドが同じワードであっても、自機(情報端末10)の動作状態に応じて異なる制御を行う。具体的には、例えば「終了して」というコマンドワードは、ユーザが発話したときの情報端末10の動作状態によって制御内容が異なる。情報端末10は、通話状態で「終了して」というコマンドワードの音声認識に成功すると通話を切断する制御を行うが、ドアモニタ確認の動作を実行中の状態で「終了して」というコマンドワードの音声認識に成功するとドアモニタ確認の動作を終了する制御を行う。また、情報端末10は、録画再生の動作を実行中の状態で「終了して」というコマンドワードの音声認識に成功すると録画再生の動作を終了する制御を行う。このように、複数の動作状態間で同じワードで設定されていることで、ユーザが覚える制御コマンドのコマンドワードを減らすことができ、ユーザの利便性が向上する。
情報端末10は、操作部14又は表示部16へのタッチ操作により設定画面を開くことで、音声認識で参照する辞書ファイル(トリガー辞書D0、コマンド辞書D1)、及び対応する制御イベント(操作イベント)を変更可能に構成されている。また、情報端末10は、音声認識可能な言語の種類(日本語、英語等)の追加、同一言語における表現方法(方言等)の追加、及び同一言語における発音主体(男性、女性、子供、高齢者等)の追加のうち少なくとも1つが可能であることが好ましい。また、情報端末10は、例えば、辞書ファイルに関する更新データをサーバ70からダウンロードして、記憶部17内の辞書ファイルを更新してもよい。
(2-2)ロビーインターホン
ロビーインターホン20は、図2に示すように、通信部21と、制御部22と、通話部
23と、表示部24と、操作部25と、記憶部26と、撮像部27と、を備えている。
ロビーインターホン20は、図2に示すように、通信部21と、制御部22と、通話部
23と、表示部24と、操作部25と、記憶部26と、撮像部27と、を備えている。
ロビーインターホン20は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部22として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。
通信部21は、情報端末10(の第1通信部11)と通信するための通信インタフェースである。通信部21は、第1幹線61を介して制御装置30(の通信部31)に接続されている。通信部21は、制御装置30を介して、情報端末10に対して呼出信号、音声信号、及び映像信号等を送信する。さらに、通信部21は、制御装置30を介して、情報端末10から音声信号、及び制御信号等を受信する。ここで、ロビーインターホン20からの通信信号には、情報端末10を特定するための情報(例えば、アドレス情報等)が含まれている。そのため、この通信信号に含まれるアドレス情報と一致するアドレス情報が割り当てられた情報端末10のみが通信信号を受信することができる。
制御部22は、通信部21、通話部23、及び撮像部27等を制御するように構成されている。
通話部23は、スピーカ及びマイクロホンを含み、情報端末10との間で通話可能に構成されている。
表示部24は、例えば、液晶ディスプレイである。表示部24は、撮像部27が撮像した映像を表示するように構成されている。また、表示部24は、訪問者等に対してメッセージを表示するように構成されている。メッセージは、例えば、訪問者等に発話を促すためのメッセージである。表示部24は、例えば、「お話しください」等のメッセージを表示する。この場合において、同様の音声メッセージを通話部23のスピーカ、又は通話部23のスピーカとは別に設けられたスピーカから出力(報知)してもよい。また、表示部24とスピーカとを併用してもよい。なお、ロビーインターホン20がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部24と操作部25とを兼ねてもよい。
操作部25は、例えば、集合住宅5への訪問者、住人等の操作を受け付けるように構成されている。操作部25は、例えば、複数の押ボタンスイッチ、及びタッチパネル等を有する入力インタフェースである。
記憶部26は、読み書き可能なメモリで構成されている。記憶部26は、例えば、フラッシュメモリである。記憶部26は、例えば、撮像部27で撮像された映像(画像)の映像データを記憶する。
撮像部27は、撮像素子を有し、被写体(訪問者等)を撮像するためのカメラである。本実施形態では、撮像部27の撮像エリア(視野)は、ロビーインターホン20の前方に設定されている。本実施形態では、撮像部27は動画を撮像するカメラである。さらに、本実施形態では、撮像部27はカラー画像を撮像するカメラである。なお、撮像部27は、静止画を撮像するカメラ(スチルカメラ)であってもよいし、モノクロ画像を撮像するカメラであってもよい。
撮像素子は、例えば、CCD(Charge Coupled Devices)イメージセンサ、又はCMOS(Complementary Metal-Oxide Semiconductor)イメージセンサ等の二次元イメージセンサである。撮像部27は、被写体からの光をレンズ等の光学系によって撮像素子の撮像面(受光面)上に結像させ、撮像素子にて被写体からの光を電気信号に変換する。そして、撮像部27は、撮像素子の出力信号を映像信号として制御部22に出力する。
(2-3)制御装置
制御装置30は、図2に示すように、通信部31と、制御部32と、記憶部33と、を備えている。
制御装置30は、図2に示すように、通信部31と、制御部32と、記憶部33と、を備えている。
制御装置30は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部32として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。
通信部31は、各情報端末10、及びロビーインターホン20と通信するための通信インタフェースを含んでいる。通信部31は、第1幹線61を介してロビーインターホン20に接続され、第2幹線62を介して各情報端末10に接続されている。つまり、通信部31は、各情報端末10とロビーインターホン20との間の通信を中継するように構成されている。さらに、通信部31は、玄関扉200の電気錠201に接続され、電気錠201と通信可能に構成されている。
制御部32は、通信部31を制御するように構成されている。制御部32は、情報端末10からの指示により、玄関扉200の電気錠201の解錠動作を制御する。例えば、制御部32は、解錠を指示する解錠信号を電気錠201に通信部31を介して出力する。
記憶部33は、読み書き可能なメモリで構成されている。記憶部33は、例えば、フラッシュメモリである。記憶部33は、例えば、各住戸E2に割り当てられた部屋番号と、各情報端末10に割り当てられたアドレス情報との対応関係を表す対応テーブルを記憶する。つまり、制御装置30では、制御部32は、対応テーブルを参照して、ロビーインターホン20からの信号に含まれる部屋番号を対応する情報端末10のアドレス情報に置き換えた信号を作成し、この信号を通信部31から各情報端末10に送信させる。そして、各情報端末10では、処理部18は、第1通信部11が受信した信号に含まれるアドレス情報が、記憶部17に記憶されているアドレス情報と一致する場合には、この信号に含まれる情報を取得する。また、各情報端末10では、処理部18は、第1通信部11が受信した信号に含まれるアドレス情報が、記憶部17に記憶されているアドレス情報と一致しない場合には、この信号に含まれる情報を破棄する。
なお、本実施形態では、通信部31が電気錠201と接続されている構成としたが、この構成に限定されない。制御装置30は、通信部31とは別の通信部を有し、当該別の通信部が電気錠201と接続される構成であってもよい。
(2-4)玄関子機
各玄関子機40は、図2に示すように、接続線64を介して対応する情報端末10に接続されている。玄関子機40は、情報端末10に対して呼出信号、音声信号、及び映像信号等を送信する。さらに、玄関子機40は、情報端末10から音声信号、及び制御信号等を受信する。
各玄関子機40は、図2に示すように、接続線64を介して対応する情報端末10に接続されている。玄関子機40は、情報端末10に対して呼出信号、音声信号、及び映像信号等を送信する。さらに、玄関子機40は、情報端末10から音声信号、及び制御信号等を受信する。
(3)動作
情報端末10の動作について動作例1~6を挙げ図3~図9を参照しながら説明する。
情報端末10の動作について動作例1~6を挙げ図3~図9を参照しながら説明する。
(3-1)動作例1
以下、インターホン制御の操作イベントの中でも「通話関連」の操作イベントに関する情報端末10の動作の例(動作例1)について図3及び図4を参照しながら説明する。
以下、インターホン制御の操作イベントの中でも「通話関連」の操作イベントに関する情報端末10の動作の例(動作例1)について図3及び図4を参照しながら説明する。
図3は、動作例1に関するフローチャートである。図4は、待機状態から、呼出を受け(呼出着信)、通話応答(応答)、通話中、電気錠201の解錠(解錠)、通話の終了(終話)、再び待機状態に戻る一連の情報端末10の動作を、表示部16の画面と共に左から順に時系列で並べた概念図である。また、図4の上段は、ユーザが制御を要求する際の情報端末10に対する操作手段(手段)が、操作部14(又は表示部16)へのタッチ操作(図4では「ボタン」と表記)の場合の情報端末10の動作を示す。一方、図4の下段は、操作手段(手段)が、マイクロホン131への音声操作(図4では「音声」と表記)の場合の情報端末10の動作を示す。図3は、音声操作の場合のフローチャートである。
先ず、図4中の「待受orHome」は、情報端末10が待機状態であることを示す。待機状態では、情報端末10は、電力消費を抑えるために表示部16の明かりを落とした待受画面、又は表示部16にホーム画面(図4では「Home」と表記)を表示している。
待機状態で、例えばロビーインターホン20から呼出の着信があると(呼出着信)、情報端末10は、ユーザに呼出の着信を知らせるための着信音をスピーカ151から鳴動させる。さらに情報端末10は、表示部16に着信状態(呼出状態)であることを示す着信画面を表示する。なお、情報端末10は、呼出の着信が発生したタイミングで、音声認識で参照する辞書を第1辞書D11から、通話関連の操作イベントに対応するコマンドワードが登録されている第2辞書D12に切り替える。
ここでユーザは、情報端末10の呼出状態において、応答操作部141(図4では「通話釦」と表記)へタッチ操作することで、呼出に対して応答することができる。つまり、情報端末10は、呼出状態(他の端末から呼出信号を受信している状態)において、応答操作部141へのタッチ操作を受け付けると、呼出状態から通話状態に切り替えてロビーインターホン20を操作する者との通話を可能にする(応答)。情報端末10は、表示部16に表示されている着信画面を通話画面に変更する(画面遷移)。
一方、ユーザは、情報端末10の呼出状態において、マイクロホン131への音声操作をすることでも、呼出に対して応答することができる。図4に示すように、ユーザは、呼出状態において「〇〇、応答して!」というトリガーワード、及びコマンドワード(応答コマンド)を発話する。情報端末10は、第1音声認識部1821が「〇〇」というトリガーワードの音声認識に成功すると、第2音声認識部1822等をアクティブな状態にする。さらに、情報端末10は、第2音声認識部1822が続いて発話された「応答して!」の音声認識に成功すると、呼出状態から通話状態に切り替えてロビーインターホン20を操作する者との通話を可能にする(応答)。その際、第2音声認識部1822は、第2辞書D12を参照して音声認識するため、音声認識処理の処理速度が速い。情報端末10は、応答コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「ピッ」という電子音をスピーカ151から出力する。なお、情報端末10は、トリガーワードを検出してから規定時間(例えば3秒)以内に有効なコマンドワードを検出できなかった場合、「コマンドを認識できませんでした」という音声メッセージを出力する。この場合、例えば、情報端末10は、第2音声認識部1822等を非アクティブな状態に戻す。
ここでは一例として、情報端末10は、呼出状態から通話状態に切り替わったタイミングで、音声認識の方式を、第1方式から第2方式に切り替える。言い換えると、音声認識部182は、(第1方式で音声認識する状態において)応答操作部141への応答操作を受け付けることにより、第2方式で音声認識する状態に切り替わる。また、音声認識部182は、第1方式で音声認識する状態において、応答コマンドを音声認識することにより(応答コマンドの音声認識に成功)、第2方式で音声認識する状態に切り替わる。このように、応答操作部141への応答操作又は応答コマンドの発話によって第2方式への切り替えが実現されるため、ユーザの利便性が向上する。
ここで図3のフローチャートを参照する。情報端末10は、通話中(通話状態)か否かを判定していて(ステップST1)、通話中であれば(ステップST1:Yes)、コマンドワード待ちである(ステップST2)。一方、情報端末10は、待機状態や呼出状態等のように通話中でなければ(ステップST1:No)、トリガーワード待ちである(ステップST3)。情報端末10は、トリガーワードの音声認識に成功すれば、つまりトリガーワードの認証に成功すれば(認証OK?;ステップST4:Yes)、コマンドワード待ちになる(ステップST2)。情報端末10は、通話中でないときはトリガーワードの音声認識に成功しない限り、つまりトリガーワードの認証に失敗すれば(認証OK?;ステップST4:No)、元のステップST1に戻る。なお、このフローチャートは、説明を分かり易くするために音声操作のみを考慮した場合の処理の流れを示しており、タッチ操作が加わるとこの限りではない。
通話中の間、表示部16からは通話画面が表示される。通話中、ユーザが、訪問者を玄関扉200より先に招き入れるために、解錠操作部143(図4では「解錠釦」と表記)へタッチ操作することで、電気錠201を解錠することができる。つまり、情報端末10は、通話状態において、解錠操作部143へのタッチ操作を受け付けると、制御装置30を介して電気錠201の解錠制御を実行する(解錠)。情報端末10は、表示部16に表示されている通話画面上に、電気錠201の解錠制御が実行されたことを示すメッセージの表示を行う。
一方、ユーザは、情報端末10の通話状態において、マイクロホン131への音声操作をすることでも、電気錠201を解錠することができる。図4に示すように、ユーザは、通話状態において「解錠して!」というコマンドワード(解錠コマンド)を発話する。解錠コマンドは、情報端末10が設置された施設(集合住宅5)で入退するための扉(玄関扉200)に設けられた電気錠201を解錠するためのコマンドである。情報端末10は、第2音声認識部1822が発話された「解錠して!」の音声認識に成功すると、制御装置30を介して電気錠201の解錠制御を実行する(解錠)。その際も、第2音声認識部1822は、第2辞書D12を参照して音声認識するため、音声認識処理の処理速度が速い。情報端末10は、解錠コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、電気錠の解錠を連想させるような解錠音をスピーカ151から出力する。
図4の例では、情報端末10は、電気錠201の解錠後も通話状態を維持している。ユーザは、通話状態を終えるために終了操作部142(図4では「終了釦」と表記)へタッチ操作することで、終話することができる。つまり、情報端末10は、通話状態(他の端末と音声通話をしている状態)において、終了操作部142へのタッチ操作を受け付けると、ロビーインターホン20との通話の切断制御を実行する(終話)。情報端末10は、表示部16に表示されている通話画面を待受画面(又はホーム画面)に変更する(画面遷移)。なお、情報端末10は、電気錠201の解錠により、自動的にロビーインターホン20との通話の切断制御を実行してもよい。
一方、ユーザは、情報端末10の通話状態において、マイクロホン131への音声操作をすることでも、終話することができる。図4に示すように、ユーザは、通話状態において「終了して!」というコマンドワード(終了コマンド)を発話する。終了コマンドは、他の端末との通話を終了するためのコマンドである。情報端末10は、第2音声認識部1822が発話された「終了して!」の音声認識に成功すると、ロビーインターホン20との通話の切断制御を実行する(終話)。その際も、第2音声認識部1822は、第2辞書D12を参照して音声認識するため、音声認識処理の処理速度が速い。情報端末10は、終了コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「ピッ」という電子音と「終了しました」という音声メッセージとをスピーカ151から出力する。
このように制御処理部183が行う制御に関する制御コマンドとして、終了コマンドと、解錠コマンドとの少なくとも一方(ここでは両方)が設定されている。
動作例1では、情報端末10は、終話を実行したタイミングで、音声認識で参照する辞書を第2辞書D12から、通話関連の操作イベント以外の操作イベントに対応するコマンドワードが登録されている第1辞書D11に切り替える。また、情報端末10は、終話を実行したタイミングで、音声認識の方式を、第2方式から第1方式に切り替える。さらに情報端末10は、終話を実行したタイミングで、第2音声認識部1822等を非アクティブな状態にする。
言い換えると、音声認識部182は、他の端末との通話状態において、終了操作部142への終了操作を受け付けることにより、第1方式で音声認識する状態に切り替わる。また、音声認識部182は、他の端末との通話状態において、終了コマンドを音声認識することにより(終了コマンドの音声認識に成功)、第1方式で音声認識する状態に切り替わる。このように、終了操作部142への終了操作又は終了コマンドの発話によって第1方式への切り替えが実現されるため、ユーザの利便性が向上する。
ただし、情報端末10は、電気錠201の解錠により、自動的に通話の切断制御を実行してもよい。この場合、音声認識部182は、他の端末との通話状態において、解錠操作部143への解錠操作を受け付けることにより、第1方式で音声認識する状態に切り替わってよい。また、音声認識部182は、他の端末との通話状態において、解錠コマンドを音声認識することにより(解錠コマンドの音声認識に成功)、第1方式で音声認識する状態に切り替わってよい。このように、解錠操作部143への解錠操作又は解錠コマンドの発話によって第1方式への切り替えが実現されるため、ユーザの利便性が向上する。
動作例1では、第2辞書D12から第1辞書D11への切り替えタイミング、第2方式から第1方式への切り替えタイミング、及び第2音声認識部1822等の非アクティブへの切り替えタイミングが全て同じである。しかし、これらのタイミングの一部又は全部が異なってもよい。また、例えば、これらのタイミングの少なくとも1つが、解錠を実行したタイミングと同じでもよい。
この動作例1では、着信から終話までの一連の動作の流れとして、操作部14へのタッチ操作のみが行われる場合(図4の上段)と、マイクロホン131への音声操作のみが行われる場合(図4の下段)とを説明した。しかし、情報端末10は、通話応答をタッチ操作で解錠を音声操作で終了をタッチ操作でといったように、又は通話応答を音声操作で解錠をタッチ操作で終了を音声操作でといったように、タッチ操作と音声操作とが混在した使い方も対応可能である。
この動作例1では、音声認識部182は、他の端末から情報端末10の呼出を受けている呼出状態において、第1方式で音声認識する。言い換えると、ユーザは、呼出状態において応答コマンドを発話する前に「〇〇」というトリガーワードを発話する必要がある。
しかし、音声認識部182は、他の端末との通話状態に加えて、他の端末から情報端末10の呼出を受けている呼出状態においても、第2方式で音声認識してもよい。例えば、情報端末10は、呼出の着信が発生したタイミングで、第2方式で音声認識する状態に切り替わってよい。この場合、ユーザは、呼出状態において、通話応答する際にトリガーワードを発話せずに応答コマンドのみを発話するだけでよくなる。
情報端末10は、呼出状態において、表示部16の着信画面上にて、ロビーインターホン20の撮像部27で撮像される訪問者の映像をリアルタイムで表示させている。ユーザは、表示部16の着信画面上に映し出されている訪問者を見て訪問販売員や見知らぬ者であることが分かったり、或いは手の離せない用事があったりして、通話応答に応じたくなく呼出をキャンセルしたい場合がある。この場合、情報端末10は、呼出状態において、例えば、終了操作部142へのタッチ操作、又は終了コマンドの音声操作によって、呼出のキャンセルを実行する。なお、情報端末10で呼出のキャンセルが実行された場合、ロビーインターホン20では、訪問者に不信感を与えないように、例えば、ユーザが外出中のため応答がなかった等の取り次ぎに失敗した旨を音声又は画面で自動通知され得る。
また、ユーザは、呼出状態において、表示部16の着信画面上に映し出されている訪問者を見て家族や知人であることが分かった場合、その者との通話を省略して電気錠201を解錠して玄関扉200より先に招き入れたい場合もある。この場合、情報端末10は、呼出状態において、例えば、電気錠201を解錠する解錠操作部143へのタッチ操作、又は解錠コマンドの音声操作によって、電気錠201の解錠と同時に、呼出のキャンセルを実行する。
呼出の着信が発生したタイミングで、第2方式で音声認識する状態に切り替わっていたとしても、音声認識部182は、呼出がキャンセルされることにより、第1方式で音声認識する状態に切り替わってよい。
(3-2)動作例2
以下、インターホン制御の操作イベントの中でも「通話関連」以外の操作イベントに対応する「防犯セット」(表1参照)に関する情報端末10の動作の例(動作例2)について図5A、図5Bを参照しながら説明する。
以下、インターホン制御の操作イベントの中でも「通話関連」以外の操作イベントに対応する「防犯セット」(表1参照)に関する情報端末10の動作の例(動作例2)について図5A、図5Bを参照しながら説明する。
図5Aは、待機状態から防犯セットを実行するまでの一連の情報端末10の動作を、表示部16の画面と共に左から順に時系列で並べた概念図である。
図5Bは、防犯セットの実行中の状態(以下、「警戒状態」と呼ぶ)から防犯セットを解除するまでの一連の情報端末10の動作を、表示部16の画面と共に左から順に時系列で並べた概念図である。警戒状態は、モード動作状態の1つである。
図5A、図5Bの上段は、図4の上段と同様に、ユーザが制御を要求する際の情報端末10に対する操作手段が、操作部14(又は表示部16)へのタッチ操作の場合の情報端末10の動作を示す。一方、図5A、図5Bの下段は、図4の下段と同様に、操作手段がマイクロホン131への音声操作の場合の情報端末10の動作を示す。
先ず、図5A中の「待受」は、情報端末10が待機状態であることを示す。待機状態では、情報端末10の表示部16の画面は、例えば待受画面となっている。
ユーザは、情報端末10の待機状態において、操作部14の1つであるホーム操作部(図5Aでは「ホーム釦」と表記)へタッチ操作することで、ホーム画面を呼び出す(立ち上げる)ことができる。ホーム画面では、種々の動作制御を要求するためのメニューが表示されている。例えば、ユーザは、ホーム画面上で「防犯セット」と表示されている画面領域(図5Aでは「防犯釦」と表記)をタッチ操作することで、防犯セットの動作を実行させることができる。つまり、情報端末10は、待機状態において「防犯セット」の実行開始を要求するタッチ操作を受け付けると、待機状態からモード動作状態の1つである警戒状態に切り替わる。
一方、ユーザは、情報端末10の待機状態において、マイクロホン131への音声操作をすることでも、防犯セットの動作を実行させることができる。図5Aに示すように、ユーザは、待機状態において「〇〇、警戒セットして」というトリガーワード、及びコマンドワード(制御コマンド)を発話する。情報端末10は、第1音声認識部1821が「〇〇」というトリガーワードの音声認識に成功すると、第2音声認識部1822等をアクティブな状態にする。さらに、情報端末10は、第2音声認識部1822が続いて発話された「警戒セットして」の音声認識に成功すると、待機状態から警戒状態に切り替える。なお、音声認識部182は、警戒状態の間、待機状態と同様に、参照する辞書について第1辞書D11を維持して音声認識する。また、音声認識部182は、警戒状態の間、待機状態と同様に、トリガー音声認識を行いトリガーワードが含まれている場合にコマンド音声認識を行う第1方式で音声認識する。情報端末10は、防犯セットの制御コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「**秒後に警戒状態に入ります・・・」という音声メッセージをスピーカ151から出力する。
情報端末10は、警戒状態の間、例えば図5Bに示すように、「防犯予備警報」と示す画面を表示部16に表示させる。情報端末10は、警戒状態の間、住戸E2の窓等に設置されているセンサからの検知信号を監視し、窓等からの不審者の侵入を検知した場合に警報を実行する。この防犯セットは、例えば、ユーザが就寝する前、又は外出する前にセットされ得る。
その後、ユーザは、警戒状態において、ホーム操作部(図5Bでは「ホーム釦」と表記)へタッチ操作することで、ホーム画面を呼び出す(立ち上げる)ことができる。例えば、ユーザは、ホーム画面上で「防犯セットの解除」と表示されている画面領域(図5Bでは「防犯釦」と表記)をタッチ操作することで、防犯セットの動作を解除することができる。つまり、情報端末10は、警戒状態において実行中の「防犯セット」の解除を要求するタッチ操作を受け付けると、警戒状態を解除し、元の待機状態に戻る。
一方、ユーザは、警戒状態において、マイクロホン131への音声操作をすることでも、防犯セットの動作を解除することができる。図5Bに示すように、ユーザは、警戒状態において「〇〇、警戒セット解除して」というトリガーワード、及びコマンドワード(制御コマンド)を発話する。第2音声認識部1822等は、警戒状態の間アクティブな状態が維持されてもよいし、警戒状態の間であっても次のトリガーワードの音声認識に成功するまでは、一旦非アクティブな状態に戻っていてもよい。第1音声認識部1821がトリガーワードの音声認識に成功し、第2音声認識部1822が「警戒セット解除して」の音声認識に成功すると、警戒状態から待機状態に切り替えて、表示部16からホーム画面を表示させる。情報端末10は、防犯セットを解除する制御コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「警戒状態を解除しました」という音声メッセージをスピーカ151から出力する。なお、情報端末10は、ホーム画面を表示開始してから一定時間何も操作入力を受け付けなければ待受画面になる。
このように動作例2では、情報端末10は、音声認識の方式及び辞書の切り替えを行わず、第1方式及び第1辞書D11のまま音声認識を行う。
動作例2でも、情報端末10は、タッチ操作で防犯セットの動作を実行させて音声操作で動作を解除したり、音声操作で防犯セットの動作を実行させてタッチ操作で動作を解除したりといった、タッチ操作と音声操作とが混在した使い方も対応可能である。
(3-3)動作例3
以下、インターホン制御の操作イベントの中でも「通話関連」以外の操作イベントに対応する「ドアモニタ確認」(表1参照)に関する情報端末10の動作の例(動作例3)について図6を参照しながら説明する。なお、ここで言うドアモニタ確認とは、例えば、玄関子機40のドアモニタ(撮像部)で撮像されたリアルタイムの映像を情報端末10の表示部16の画面で確認することである。
以下、インターホン制御の操作イベントの中でも「通話関連」以外の操作イベントに対応する「ドアモニタ確認」(表1参照)に関する情報端末10の動作の例(動作例3)について図6を参照しながら説明する。なお、ここで言うドアモニタ確認とは、例えば、玄関子機40のドアモニタ(撮像部)で撮像されたリアルタイムの映像を情報端末10の表示部16の画面で確認することである。
図6は、待機状態からドアモニタ確認の動作を実行し、ドアモニタ確認の動作を実行中の状態(以下、「モニタ確認状態」と呼ぶ)を終了するまでの一連の情報端末10の動作を、表示部16の画面と共に左から順に時系列で並べた概念図である。モニタ確認状態は、モード動作状態の1つである。
図6の上段は、図4の上段と同様に、ユーザが制御を要求する際の情報端末10に対する操作手段が、操作部14(又は表示部16)へのタッチ操作の場合の情報端末10の動作を示す。一方、図6の下段は、図4の下段と同様に、操作手段がマイクロホン131への音声操作の場合の情報端末10の動作を示す。
先ず、図6中の「待受」は、情報端末10が待機状態であることを示す。待機状態では、情報端末10の表示部16の画面は、例えば待受画面となっている。
ユーザは、情報端末10の待機状態において、操作部14の1つであるホーム操作部(図6では「ホーム釦」と表記)へタッチ操作することで、ホーム画面を呼び出す(立ち上げる)ことができる。例えば、ユーザは、ホーム画面上で、ドアモニタの映像表示を開始することを示す画像領域(図6では再生マーク)をタッチ操作することで、ドアモニタ確認の動作を実行させることができる。つまり、情報端末10は、待機状態において「ドアモニタ確認」の実行開始を要求するタッチ操作を受け付けると、待機状態からモード動作状態の1つであるモニタ確認状態に切り替わる。
一方、ユーザは、情報端末10の待機状態において、マイクロホン131への音声操作をすることでも、ドアモニタ確認の動作を実行させることができる。図6に示すように、ユーザは、待機状態において「〇〇、ドアモニタを見せて!」というトリガーワード、及びコマンドワード(制御コマンド)を発話する。情報端末10は、第1音声認識部1821が「〇〇」というトリガーワードの音声認識に成功すると、第2音声認識部1822等をアクティブな状態にする。さらに、情報端末10は、第2音声認識部1822が続いて発話された「ドアモニタを見せて」の音声認識に成功すると、待機状態からモニタ確認状態に切り替える。なお、音声認識部182は、モニタ確認状態の間、待機状態と同様に、参照する辞書について第1辞書D11を維持して音声認識する。また、音声認識部182は、モニタ確認状態の間、待機状態と同様に、トリガー音声認識を行いトリガーワードが含まれている場合にコマンド音声認識を行う第1方式で音声認識する。情報端末10は、ドアモニタ確認の制御コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「ピッ」という電子音をスピーカ151から出力する。
情報端末10は、モニタ確認状態の間(図6の「再生中」)、玄関子機40のドアモニタで撮像されているリアルタイムの映像を表示部16に表示させる(図6では「モニタ画面」と表記)。
その後、ユーザは、モニタ確認状態において、例えば(通話の終了操作も受け付け可能な)終了操作部142(図6では「終了釦」と表記)へタッチ操作することで、ドアモニタ確認の動作を終了させることができる。つまり、情報端末10は、モニタ確認状態において実行中の「ドアモニタ確認」の終了を要求するタッチ操作を受け付けると、モニタ確認を終了し、元の待機状態に戻る。
一方、ユーザは、モニタ確認状態において、マイクロホン131への音声操作をすることでも、ドアモニタ確認の動作を終了させることができる。図6に示すように、ユーザは、モニタ確認状態において「〇〇、終了して!」というトリガーワード、及びコマンドワード(制御コマンド)を発話する。第2音声認識部1822等は、モニタ確認状態の間アクティブな状態が維持されてもよいし、モニタ確認状態の間であっても次のトリガーワードの音声認識に成功するまでは、一旦非アクティブな状態に戻っていてもよい。第1音声認識部1821がトリガーワードの音声認識に成功し、第2音声認識部1822が「終了して」の音声認識に成功すると、モニタ確認状態を終了して待機状態に切り替えて待受画面にする。情報端末10は、ドアモニタ確認を終了する制御コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「ピッ」という電子音と「終了しました」という音声メッセージとをスピーカ151から出力する。
このように動作例3でも、情報端末10は、音声認識の方式及び辞書の切り替えを行わず、第1方式及び第1辞書D11のまま音声認識を行う。
動作例3でも、情報端末10は、タッチ操作でドアモニタ確認の動作を実行させて音声操作で動作を終了したり、音声操作でドアモニタ確認の動作を実行させてタッチ操作で動作を終了したりといった、タッチ操作と音声操作とが混在した使い方も対応可能である。
(3-4)動作例4
以下、インターホン制御の操作イベントの中でも「通話関連」以外の操作イベントに対応する「録画再生」(表1参照)に関する情報端末10の動作の例(動作例4)について図7を参照しながら説明する。なお、ここで言う録画再生とは、例えば、ロビーインターホン20にて情報端末10の呼出を行った訪問者の、撮像部27で撮像された映像の録画と、訪問者から用件を伝えるための録音メッセージとを再生することである。
以下、インターホン制御の操作イベントの中でも「通話関連」以外の操作イベントに対応する「録画再生」(表1参照)に関する情報端末10の動作の例(動作例4)について図7を参照しながら説明する。なお、ここで言う録画再生とは、例えば、ロビーインターホン20にて情報端末10の呼出を行った訪問者の、撮像部27で撮像された映像の録画と、訪問者から用件を伝えるための録音メッセージとを再生することである。
図7は、待機状態から録画再生の動作を実行し、録画再生の動作を実行中の状態(以下、「録画再生状態」と呼ぶ)を終了するまでの一連の情報端末10の動作を、表示部16の画面と共に左から順に時系列で並べた概念図である。録画再生状態は、モード動作状態の1つである。
図7の上段は、図4の上段と同様に、ユーザが制御を要求する際の情報端末10に対する操作手段が、操作部14(又は表示部16)へのタッチ操作の場合の情報端末10の動作を示す。一方、図7の下段は、図4の下段と同様に、操作手段がマイクロホン131への音声操作の場合の情報端末10の動作を示す。
先ず、図7中の「待受」は、情報端末10が待機状態であることを示す。待機状態では、情報端末10の表示部16の画面は、例えば待受画面となっている。
ユーザは、情報端末10の待機状態において、操作部14の1つであるホーム操作部(図7では「ホーム釦」と表記)へタッチ操作することで、ホーム画面を呼び出す(立ち上げる)ことができる。例えば、ユーザは、ホーム画面上で、録画再生を開始することを示す画像領域(図7では再生マーク)をタッチ操作することで、録画再生の動作を実行させることができる。つまり、情報端末10は、待機状態において「録画再生」の実行開始を要求するタッチ操作を受け付けると、待機状態からモード動作状態の1つである録画再生状態に切り替わる。
一方、ユーザは、情報端末10の待機状態において、マイクロホン131への音声操作をすることでも、録画再生の動作を実行させることができる。図7に示すように、ユーザは、待機状態において「〇〇、録画再生して」というトリガーワード、及びコマンドワード(制御コマンド)を発話する。情報端末10は、第1音声認識部1821が「〇〇」というトリガーワードの音声認識に成功すると、第2音声認識部1822等をアクティブな状態にする。さらに、情報端末10は、第2音声認識部1822が続いて発話された「録画再生して」の音声認識に成功すると、待機状態から録画再生状態に切り替える。なお、音声認識部182は、録画再生状態の間、待機状態と同様に、参照する辞書について第1辞書D11を維持して音声認識する。また、音声認識部182は、録画再生状態の間、待機状態と同様に、トリガー音声認識を行いトリガーワードが含まれている場合にコマンド音声認識を行う第1方式で音声認識する。情報端末10は、録画再生の制御コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「未読の情報があります。録画を再生します。」という音声メッセージをスピーカ151から出力する。
情報端末10は、録画再生状態の間(図7の「再生中」)、録画されていた訪問者の映像と録音されていた訪問者の音声とを表示部16とスピーカ151とから出力させる(図7では「再生画面」と表記)。
その後、ユーザは、録画再生状態において、再生が終わると(又は再生中に)、例えば(通話の終了操作も受け付け可能な)終了操作部142(図7では「終了釦」と表記)へタッチ操作することで、録画再生の動作を終了させることができる。つまり、情報端末10は、録画再生状態において実行中の「録画再生」の終了を要求するタッチ操作を受け付けると、録画再生状態を終了し、元の待機状態に戻る。
一方、ユーザは、録画再生状態において、マイクロホン131への音声操作をすることでも、録画再生の動作を終了させることができる。図7に示すように、ユーザは、録画再生状態において「〇〇、終了して!」というトリガーワード、及びコマンドワード(制御コマンド)を発話する。第2音声認識部1822等は、録画再生状態の間アクティブな状態が維持されてもよいし、録画再生状態の間であっても次のトリガーワードの音声認識に成功するまでは、一旦非アクティブな状態に戻っていてもよい。第1音声認識部1821がトリガーワードの音声認識に成功し、第2音声認識部1822が「終了して」の音声認識に成功すると、録画再生状態を終了して待機状態に切り替えて待受画面にする。情報端末10は、録画再生を終了する制御コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「ピッ」という電子音と「終了しました」という音声メッセージとをスピーカ151から出力する。
このように動作例4でも、情報端末10は、音声認識の方式及び辞書の切り替えを行わず、第1方式及び第1辞書D11のまま音声認識を行う。
動作例4でも、情報端末10は、タッチ操作で録画再生の動作を実行させて音声操作で動作を終了したり、音声操作で録画再生の動作を実行させてタッチ操作で動作を終了したりといった、タッチ操作と音声操作とが混在した使い方も対応可能である。
(3-5)動作例5
以下、インターホン制御ではなくて機器制御の操作イベントに対応する「エアコン」(表1参照)に関する情報端末10の動作の例(動作例5)について図8を参照しながら説明する。なお、ここで言うエアコンとは、住戸E2内に設置されていてHEMSのコントローラを介して制御可能な複数の機器の1つである。
以下、インターホン制御ではなくて機器制御の操作イベントに対応する「エアコン」(表1参照)に関する情報端末10の動作の例(動作例5)について図8を参照しながら説明する。なお、ここで言うエアコンとは、住戸E2内に設置されていてHEMSのコントローラを介して制御可能な複数の機器の1つである。
図8は、待機状態からエアコン制御の動作(例えばエアコンをオンにして稼働させる制御の動作)を実行するまでの一連の情報端末10の動作を、表示部16の画面と共に左から順に時系列で並べた概念図である。なお、動作例5では、エアコンを止める(稼働停止)制御動作については説明を省略する。
図8の上段は、図4の上段と同様に、ユーザが制御を要求する際の情報端末10に対する操作手段が、操作部14(又は表示部16)へのタッチ操作の場合の情報端末10の動作を示す。一方、図8の下段は、図4の下段と同様に、操作手段がマイクロホン131への音声操作の場合の情報端末10の動作を示す。
先ず、図8中の「待受」は、情報端末10が待機状態であることを示す。待機状態では、情報端末10の表示部16の画面は、例えば待受画面となっている。
ユーザは、情報端末10の待機状態において、操作部14の1つであるホーム操作部(図8では「ホーム釦」と表記)へタッチ操作することで、ホーム画面を呼び出す(立ち上げる)ことができる。例えば、ユーザは、ホーム画面上で、機器制御の操作を開始することを示す画像領域(図8では「操作する」と表記された領域)をタッチ操作する。すると、表示部16には、制御対象の機器を選択する画面(図8では「機器コントロール画面」と表記)が表示される。ユーザは、機器コントロール画面上で、「エアコン」と示す画像領域をタッチ操作することで、エアコン制御の動作を実行させることができる。つまり、情報端末10は、待機状態において「エアコン制御の動作」の実行開始を要求するタッチ操作を受け付けると、エアコン制御のための動作を実行する。具体的には、情報端末10は、HEMSのコントローラに対して指定のエアコンを稼働させるための指示信号を送信する。HEMSのコントローラは、指示信号を受信すると、指定のエアコンを稼働させるように制御する(オン制御)。
一方、ユーザは、情報端末10の待機状態において、マイクロホン131への音声操作をすることでも、エアコン制御の動作を実行させることができる。図8に示すように、ユーザは、待機状態において「〇〇、エアコンをつけて」というトリガーワード、及びコマンドワード(制御コマンド)を発話する。情報端末10は、第1音声認識部1821が「〇〇」というトリガーワードの音声認識に成功すると、第2音声認識部1822等をアクティブな状態にする。さらに、情報端末10は、第2音声認識部1822が続いて発話された「エアコンをつけて」の音声認識に成功すると、エアコン制御の動作を実行させ、再び待機状態になる。なお、音声認識部182は、エアコン制御の動作に関しても、参照する辞書について第1辞書D11を維持して音声認識する。また、音声認識部182は、エアコン制御の動作に関しても、トリガー音声認識を行いトリガーワードが含まれている場合にコマンド音声認識を行う第1方式で音声認識する。図8では図示を省略しているが、情報端末10は、エアコン制御の動作の制御コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「ピッ」という電子音をスピーカ151から出力することが好ましい。
このように動作例5でも、情報端末10は、音声認識の方式及び辞書の切り替えを行わず、第1方式及び第1辞書D11のまま音声認識を行う。
(3-6)動作例6
以下、インターホン制御ではなくてシーン制御の「帰宅時の操作」イベントに関する情報端末10の動作の例(動作例6)について図9を参照しながら説明する。なお、ここでは、帰宅時の操作イベントに対応するコマンドワード「ただいま」が、動作例4で説明した「録画再生」の動作の実行に対応付けされていることを想定する。言い換えると、ユーザが「ただいま」という制御コマンドを発話すると、情報端末10は、動作例4で説明した「録画再生」の動作を実行する。つまり、情報端末10は、待機状態においてシーン制御の実行開始を要求するタッチ操作を受け付けると、待機状態からモード動作状態の1つである録画再生状態に切り替わる。
以下、インターホン制御ではなくてシーン制御の「帰宅時の操作」イベントに関する情報端末10の動作の例(動作例6)について図9を参照しながら説明する。なお、ここでは、帰宅時の操作イベントに対応するコマンドワード「ただいま」が、動作例4で説明した「録画再生」の動作の実行に対応付けされていることを想定する。言い換えると、ユーザが「ただいま」という制御コマンドを発話すると、情報端末10は、動作例4で説明した「録画再生」の動作を実行する。つまり、情報端末10は、待機状態においてシーン制御の実行開始を要求するタッチ操作を受け付けると、待機状態からモード動作状態の1つである録画再生状態に切り替わる。
ここでは詳細な説明は省略するが、表1に示すシーン制御の各コマンドワードが、情報端末10のどのような動作に対応するかについては、シーン番号と共に設定されていて、情報端末10の記憶部17に記憶されている。ユーザは、情報端末10の表示部16の設定画面上にてシーン制御に関する設定内容を適宜変更可能である。
図9は、待機状態からシーン制御の動作(ここでは、録画再生の動作)を実行するまでの一連の情報端末10の動作を、表示部16の画面と共に左から順に時系列で並べた概念図である。
図9の上段は、図4の上段と同様に、ユーザが制御を要求する際の情報端末10に対する操作手段が、操作部14(又は表示部16)へのタッチ操作の場合の情報端末10の動作を示す。なお、図9の上段は、動作例4の説明で参照した図7の上段の「待受」から「再生中」までの流れと共通である。そのため、ここでの操作部14(又は表示部16)へのタッチ操作による録画再生の動作の実行については説明を省略する。
図9の下段は、図4の下段と同様に、操作手段がマイクロホン131への音声操作の場合の情報端末10の動作を示す。
先ず、図9中の「待受」は、情報端末10が待機状態であることを示す。待機状態では、情報端末10の表示部16の画面は、例えば待受画面となっている。
ユーザは、情報端末10の待機状態において、マイクロホン131への音声操作をすることでも、シーン制御の動作を実行させることができる。図9に示すように、ユーザは、待機状態において「〇〇、ただいま!」というトリガーワード、及びコマンドワード(制御コマンド)を発話する。情報端末10は、第1音声認識部1821が「〇〇」というトリガーワードの音声認識に成功すると、第2音声認識部1822等をアクティブな状態にする。さらに、情報端末10は、第2音声認識部1822が続いて発話された「ただいま」の音声認識に成功すると、「ただいま」(帰宅時の操作イベント)に対応付けされているシーン制御として、録画再生の動作を実行する。情報端末10は、シーン制御の制御コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「おかえりなさい。未読の情報があります。録画を再生します。」という音声メッセージをスピーカ151から出力する。なお、図9の例では、情報端末10は、「シーン*(シーン制御番号)を設定しますか」という問いのメッセージをスピーカ151から出力している。これに対して、ユーザは、「はい」又は「いいえ」(表1の「その他」を参照)を発話して応答することで、情報端末10は、シーン制御番号の設定変更を受け付けることができる。要するに、情報端末10は、所定のタイミングで(或いは任意の操作を受け付けたタイミングで)、ユーザに問い合わせのメッセージを出力することで、対話式による各種の設定情報の変更を受け付けることができる。
また、帰宅時の操作イベントに対応するコマンドワード「ただいま」には、録画再生以外にも、例えば、照明機器を点灯させたり(オン制御)、エアコンを稼働させたり(オン制御)することにも対応付けされ得る。この場合、情報端末10は、「ただいま」に対応付けされているシーン制御として、HMESのコントローラに、それらのオン制御も行うように指示信号を送信する。表示部16の画面には、照明機器及びエアコンの制御結果を表示しないが、表示してもよい。
このように動作例6でも、情報端末10は、音声認識の方式及び辞書の切り替えを行わず、第1方式及び第1辞書D11のまま音声認識を行う。
(4)第1方式、及び第2方式に関する利点
上述した通り、本実施形態の情報端末10では、他の端末との通話状態においては、第1方式の音声認識よりも簡易な第2方式で音声認識が行われる。そのため、通話状態における音声認識に関する処理速度が向上する可能性が高くなり、ユーザの利便性が向上し得る。結果的に、情報端末10には、音声認識の機能に関する改善を図れる、という利点がある。
上述した通り、本実施形態の情報端末10では、他の端末との通話状態においては、第1方式の音声認識よりも簡易な第2方式で音声認識が行われる。そのため、通話状態における音声認識に関する処理速度が向上する可能性が高くなり、ユーザの利便性が向上し得る。結果的に、情報端末10には、音声認識の機能に関する改善を図れる、という利点がある。
また、他の端末との通話状態において、トリガー音声認識を行わない第2方式で音声認識が行われるため、ユーザは、通話状態においてトリガーワードを発話する必要がなくなり、ユーザのストレスが低減され得る。結果的に、ユーザの利便性が向上し得る。また、トリガーワードは、ユーザ以外の者に知れ渡るとセキュリティ性の低下が懸念されるが、情報端末10では、他の端末との通話状態においてトリガーワードが不要である。そのため、通話中にユーザが発話したトリガーワードが、通話の相手に聞こえてしまう可能性が低減する。結果的に、セキュリティ性の低下も抑制し得る。また、通話中に、ユーザが唐突にトリガーワードを発話すると、通話の相手にとっても違和感を覚えるが、情報端末10では、他の端末との通話状態においてトリガーワードが不要であるため、そのような違和感の発生も抑制し得る。
また、本実施形態の情報端末10では、第1方式の音声認識よりも簡易な第2方式が、辞書に登録されている制御コマンドの数の違いによって実現されるため、より簡単な構成で通話状態における音声認識に関する処理速度が向上し得る。
(5)制御コマンドと動作状態
ところで、上記の動作例1~6及び表1等からも理解出来るように、本実施形態では、音声認識部182で音声認識される制御コマンドの種類は、自機(情報端末10)の動作状態に応じて設定されている。そのため、自機(情報端末10)の各動作状態において、音声認識部182がマイクロホン131に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、全ての制御コマンドを参照の対象にして検索する可能性を低減できる。よって、音声認識に関する処理速度が向上し得る。
ところで、上記の動作例1~6及び表1等からも理解出来るように、本実施形態では、音声認識部182で音声認識される制御コマンドの種類は、自機(情報端末10)の動作状態に応じて設定されている。そのため、自機(情報端末10)の各動作状態において、音声認識部182がマイクロホン131に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、全ての制御コマンドを参照の対象にして検索する可能性を低減できる。よって、音声認識に関する処理速度が向上し得る。
また、どの動作状態でも全ての制御コマンドを参照の対象にして検索すると、音声認識に関する識別率が低下する可能性がある。例えば、ユーザが正しいコマンドワードを発話しているにも関わらず、音声認識部182が音声認識に失敗する可能性が増え得る。しかし、本実施形態の情報端末10では、そのような識別率の低下を抑制できる。
このように情報端末10によれば、音声認識の処理速度又は精度が向上し得る。結果的に、情報端末10には、音声認識の機能に関する改善を図れる、という利点がある。
具体的には、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、呼出に対する通話応答をするための応答コマンドを含む。しかし、動作状態が待機状態である場合に音声認識される制御コマンドの種類は、応答コマンドを含まない。そのため、待機状態に対しては、音声認識部182がマイクロホン131に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、呼出に対する応答コマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、動作状態に応じて、使用する第1辞書D11と第2辞書D12とを切り替えることにより、待機状態である場合に応答コマンドが検索対象とならないようにしている。
また、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、電気錠201を解錠するための解錠コマンドを含む。しかし、動作状態が待機状態である場合に音声認識される制御コマンドの種類は、解錠コマンドを含まない。そのため、待機状態に対しては、音声認識部182がマイクロホン131に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、電気錠201の解錠コマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、動作状態に応じて、使用する第1辞書D11と第2辞書D12とを切り替えることにより、待機状態である場合に解錠コマンドが検索対象とならないようにしている。
また、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、呼出をキャンセルするためのキャンセルコマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、キャンセルコマンドを含まない。そのため、待機状態に対しては、音声認識部182がマイクロホン131に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、呼出のキャンセルコマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。ここで言う呼出の「キャンセルコマンド」とは、例えば、通話の終了コマンドや、電気錠201を解錠するための解錠コマンドに相当し得る。或いは、呼出をキャンセルするための専用のコマンド(例えば「呼出を止めて」)であってもよい。本実施形態では、動作状態に応じて、使用する第1辞書D11と第2辞書D12とを切り替えることにより、待機状態である場合に呼出のキャンセルコマンドが検索対象とならないようにしている。
また、動作状態が他の端末との通話状態である場合に音声認識される制御コマンドの種類は、電気錠201を解錠するための解錠コマンドを含む。しかし、動作状態が待機状態である場合に音声認識される制御コマンドの種類は、解錠コマンドを含まない。そのため、待機状態に対しては、音声認識部182がマイクロホン131に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、電気錠201の解錠コマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、動作状態に応じて、使用する第1辞書D11と第2辞書D12とを切り替えることにより、待機状態である場合に解錠コマンドが検索対象とならないようにしている。
また、動作状態が他の端末との通話状態である場合に音声認識される制御コマンドの種類は、通話を終了するための終了コマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、その終了コマンドを含まない。そのため、待機状態に対しては、音声認識部182がマイクロホン131に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、通話の終了コマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、動作状態に応じて、使用する第1辞書D11と第2辞書D12とを切り替えることにより、待機状態である場合に通話の終了コマンドが検索対象とならないようにしている。
また、動作状態が所定の動作モードを実行している状態である場合に音声認識される制御コマンドの種類は、所定の動作モードを開始する開始コマンドを含まず、実行中の所定の動作モードを解除する解除コマンドを含む。所定の動作モードとは、上述の通り、防犯セットの動作モード、ドアモニタ確認の動作モード、及び録画再生の動作モード等である。これらの開始コマンドは、表1で言えば、それぞれ「警戒セットして」、「ドアモニタを見せて」、及び「録画再生して」等である。そのため、所定の動作モードを実行しているモード動作状態に対しては、音声認識部182がマイクロホン131に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、所定の動作モードの開始コマンドが検索対象に設定されていない。例えば、既に防犯セットの動作を実行中の警戒状態に対しては、入力された音声にどの制御コマンドが含まれているかを音声識別する際に、防犯セットの開始コマンド(警戒セットして)が検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、第1辞書D11の中で、所定の動作モードを実行中の状態である場合に、その開始コマンドが検索対象とならないようにしている。
また、動作状態が待機状態である場合に音声認識される制御コマンドの種類は、上記の所定の動作モードを解除する解除コマンドを含まず、上記の所定の動作モードを開始する開始コマンドを含む。所定の動作モードとは、上述の通り、防犯セットの動作モード、ドアモニタ確認の動作モード、及び録画再生の動作モード等である。これらの解除コマンドは、表1で言えば、それぞれ「警戒セット解除して」、「終了して」、及び「終了して」等である。そのため、待機状態に対しては、音声認識部182がマイクロホン131に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、所定の動作モードの解除コマンドが検索対象に設定されていない。結果的に、音声認識の処理速度又は精度が向上し得る。本実施形態では、第1辞書D11の中で、待機状態である場合に、所定の動作モードを解除する解除コマンドが検索対象とならないようにしている。
(6)変形例
(6-1)変形例1
以下、本変形例(変形例1)に係る情報端末10、及びインターホンシステム1について図10を参照しながら説明する。なお、変形例1に係る情報端末10、及びインターホンシステム1について、上記実施形態に係る情報端末10、及びインターホンシステム1と実質的共通する構成要素については、同じ参照符号を付してそれらの詳細な説明を省略することもある。
(6-1)変形例1
以下、本変形例(変形例1)に係る情報端末10、及びインターホンシステム1について図10を参照しながら説明する。なお、変形例1に係る情報端末10、及びインターホンシステム1について、上記実施形態に係る情報端末10、及びインターホンシステム1と実質的共通する構成要素については、同じ参照符号を付してそれらの詳細な説明を省略することもある。
変形例1に係るインターホンシステム1は、音声認識システムA1を更に備える点で上記実施形態に係るインターホンシステム1と相違する。音声認識システムA1は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが音声認識システムA1として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。
変形例1では、図10に示すように、音声認識システムA1の機能が、外部のサーバ70に設けられている。サーバ70は、1又は複数台のサーバ装置から構成され、また、そのようなサーバ装置がクラウドシステムを構成し得る。
図10では、便宜上、インターホンシステム1のうちある住戸E2に設置されている情報端末10、及び、情報端末10がネットワークNT1を介して通信可能に接続されているサーバ70のみを図示する。
変形例1に係る情報端末10は、図10に示すように、第1通信部11、第2通信部12、音取得部13、操作部14、音出力部15、表示部16、記憶部17、処理部18、及び第3通信部19を備える。処理部18は、音声処理部181、音声認識部182、制御処理部183、表示処理部184、及び通話処理部185を備える。音声認識部182は、マイクロホン131に入力された音声に基づいて音声認識を行う。第1通信部11は、他の端末(ここではロビーインターホン20)との通話を含む通信を行う。
第2通信部12は、音声認識システムA1と通信を行う。音声認識システムA1は、制御処理部183が行う制御に関する制御コマンドについてのコマンド音声認識を行う音声認識システムA1と通信を行う。第3通信部19は、他の端末(ここでは玄関子機40)との通話を含む通信を行う。
変形例1に係る情報端末10は、第1モードと、第2モードとを有する。第1モードでは、マイクロホン131に入力された音声にトリガーワードが含まれているか否かについてトリガー音声認識を音声認識部182にて行う。また第1モードでは、トリガーワードが含まれている場合に、コマンド音声認識を行わせるために音声認識システムA1と通信を行う。第2モードでは、トリガー音声認識を音声認識部182にて行わずに、コマンド音声認識を行わせるために音声認識システムA1と通信を行う。情報端末10は、待機状態において第1モードで動作し、他の端末との通話状態において第2モードで動作する。
音声認識システムA1は、図10に示すように、通信部A11と、音声認識部A12と、記憶部A13と、を備える。通信部A11は、1又は複数の施設(集合住宅5等)に導入されている複数の情報端末10(の第2通信部12)の各々と個別に通信するための通信インタフェースを有する。音声認識部A12は、通信部A11にて情報端末10から制御コマンド(コマンドワード)を含み得る音声データを受信すると、コマンド音声認識の処理を実行する。音声認識システムA1は、音声認識部A12による音声認識結果を、通信部A11から音声データの送信元である情報端末10に返信する。
記憶部A13は、上記実施形態に係る情報端末10の記憶部17に代わって、コマンド辞書D1(第1辞書D11及び第2辞書D12)を記憶している。なお、情報端末10の記憶部17は、上記実施形態と同様に、トリガー辞書D0を記憶している。
要するに、変形例1に係る情報端末10の音声認識部182は、上記実施形態に係る情報端末10におけるトリガー音声認識とコマンド音声認識のうち、トリガー音声認識の機能だけを有している。そして、上記実施形態に係る情報端末10におけるコマンド音声認識の機能が、情報端末10の外部システム(音声認識システムA1)に設けられている。
変形例1に係る情報端末10は、トリガー音声認識を自機(ローカル)で行い、コマンド音声認識を音声認識システムA1に行わせる。そのため、情報端末10の処理負荷を抑えることができる。
また、変形例1に係る情報端末10も、上記実施形態に係る情報端末10と同様に、通話状態においてトリガー音声認識を行わないため、音声認識に関する処理速度が向上する可能性が高くなり、ユーザの利便性が向上し得る。また、セキュリティ性の低下も抑制し得る。結果的に、変形例1に係る情報端末10にも、音声認識の機能に関する改善を図れる、という利点がある。
なお、変形例1では、音声認識システムA1は、情報端末10に入力される音声にコマンドワードが含まれているか否かをほぼ常時監視する可能性が高くなる。その結果、情報端末10と音声認識システムA1との間での音声データに関する通信量等が増加し得る。この点を考慮すると、変形例1では、ある程度コマンド音声認識を行わせるタイミングや、コマンド音声認識の対象となる音声を絞ることが好ましい。具体的には、情報端末10も、ある特定の状態(例えば待機状態)に関してはコマンド音声認識を行えるように構成されることが好ましい。
変形例1に係る情報端末10と同様の機能は、制御方法でも具現化され得る。制御方法は、音声認識ステップと、制御処理ステップと、第1通信ステップと、第2通信ステップと、を含む。音声認識ステップでは、マイクロホン131に入力された音声に基づいて音声認識処理を行う。第1通信ステップでは、他の端末との通話を含む通信を行う。第2通信ステップでは、制御処理ステップにて行う制御に関する制御コマンドについてのコマンド音声認識を行う音声認識システムと通信を行う。情報端末10は、第1モードと、第2モードと、を有する。第1モードでは、マイクロホン131に入力された音声にトリガーワードが含まれているか否かについてトリガー音声認識を音声認識ステップにて行う。また第1モードでは、トリガーワードが含まれている場合に、コマンド音声認識を行わせるために音声認識システムA1と通信を第2通信ステップにて行う。第2モードでは、トリガー音声認識を音声認識ステップにて行わずに、コマンド音声認識を行わせるために音声認識システムA1と通信を第2通信ステップにて行う。制御方法では、待機状態において第1モードで動作し、他の端末との通話状態において第2モードで動作するように情報端末10を制御する。上記の制御方法にも、音声認識の機能に関する改善を図れる、という利点がある。この制御方法は、コンピュータシステム(情報端末10)上で用いられる。つまり、この制御方法は、プログラムでも具現化可能である。変形例1に係るプログラムは、上記の制御方法を1以上のプロセッサに実行させるためのプログラムである。プログラムは、コンピュータで読み取り可能な非一時的記録媒体に記録されていてもよい。
(6-2)変形例2
以下、本変形例(変形例2)に係る情報端末10、及びインターホンシステム1について図11を参照しながら説明する。なお、変形例2に係る情報端末10、及びインターホンシステム1について、上記実施形態及び変形例1に係る情報端末10、及びインターホンシステム1と実質的共通する構成要素については、同じ参照符号を付してそれらの詳細な説明を省略することもある。
以下、本変形例(変形例2)に係る情報端末10、及びインターホンシステム1について図11を参照しながら説明する。なお、変形例2に係る情報端末10、及びインターホンシステム1について、上記実施形態及び変形例1に係る情報端末10、及びインターホンシステム1と実質的共通する構成要素については、同じ参照符号を付してそれらの詳細な説明を省略することもある。
変形例2は、上記の変形例1の更なる変形例である。変形例2に係るインターホンシステム1も、上記の変形例1と同様に音声認識システムA1を更に備える。ただし、変形例2に係る音声認識システムA1が、コマンド音声認識の機能だけでなくトリガー音声認識の機能も有する点で、上記の変形例1に係る音声認識システムA1と相違する。言い換えれば、変形例2に係る情報端末10は、いずれの音声認識の機能も有さない点で、上記の変形例1に係る情報端末10と相違する。
図11では、便宜上、インターホンシステム1のうちある住戸E2に設置されている情報端末10、及び、情報端末10がネットワークNT1を介して通信可能に接続されているサーバ70のみを図示する。
変形例2に係る音声認識システムA1は、情報端末10と通信する通信部A11と、音声認識部A12と、記憶部A13と、を備える。
音声認識部A12は、マイクロホン131に入力された音声を情報端末10から通信部A11で受信すると、音声に対する音声認識を行う。音声認識部A12は、通信部A11にて情報端末10から、トリガーワード及び/又は制御コマンド(コマンドワード)を含み得る音声データを受信すると、トリガー音声認識及び/又はコマンド音声認識の処理を実行し得る。言い換えると、音声認識部A12は、情報端末10の制御処理部183が行う制御に関する制御コマンドについてのコマンド音声認識を行う。音声認識システムA1は、音声認識部A12による音声認識結果を、通信部A11から音声データの送信元である情報端末10に返信する。
記憶部A13は、トリガー辞書D0、及びコマンド辞書D1を記憶している。
ここで、変形例2に係る音声認識部A12は、第1モードと、第2モードと、を有する。第1モードでは、マイクロホン131に入力された音声にトリガーワードが含まれているか否かについてトリガー音声認識を行う。また第1モードでは、トリガーワードが含まれている場合に、情報端末10の制御処理部183が行う制御に関する制御コマンドについてのコマンド音声認識を行う。第2モードでは、トリガー音声認識を行わずに、コマンド音声認識を行う。音声認識システムA1は、情報端末10の待機状態において第1モードで動作し、情報端末10が他の端末(ロビーインターホン20,玄関子機40)との通話状態において第2モードで動作する。つまり、音声認識システムA1は、情報端末10から音声データだけでなく、音声入力された時点(現在)の情報端末10の動作状態に関する情報も受信する。例えば、情報端末10は、呼出状態時に音声入力された場合、ユーザの音声データと、自機が呼出状態であることを示す情報とを音声認識システムA1に送信する。音声認識システムA1は、受信した情報端末10の動作状態に基づいて、第1モードで動作するか、第2モードで動作するかを決定する。なお、音声認識部A12で音声認識される制御コマンドの種類は、情報端末10の動作状態に応じて設定されている。
変形例2に係る音声認識部A12においても、トリガー音声認識の処理を実行する部位(回路、又はサーバ装置)と、コマンド音声認識の処理を実行する部位(回路、又はサーバ装置)とが分かれていてもよい。
一方、変形例2に係る情報端末10は、図11に示すように、上記実施形態及び変形例1に係る情報端末10とは違って音声認識部182を備えていない。また、情報端末10の記憶部17は、トリガー辞書D0、及びコマンド辞書D1を記憶していない。
変形例2のようにトリガー音声認識とコマンド音声認識の処理を全て音声認識システムA1(例えばクラウド)上で行うことで、情報端末10の処理負荷を更に抑えることができる。
また、変形例2に係る音声認識システムA1も、上記実施形態に係る情報端末10と同様に、情報端末10が通話状態においてトリガー音声認識を行わないため、音声認識に関する処理速度が向上する可能性が高くなり、ユーザの利便性が向上し得る。また、セキュリティ性の低下も抑制し得る。結果的に、変形例2に係る音声認識システムA1にも、音声認識の機能に関する改善を図れる、という利点がある。
また、変形例2に係る音声認識システムA1では、音声認識部A12で音声認識される制御コマンドの種類が、情報端末10の動作状態に応じて設定されている。そのため、各動作状態において、音声認識部A12がマイクロホン131に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、全ての制御コマンドを参照の対象にして検索する可能性を低減できる。その結果、音声認識の処理速度又は精度が向上し得る。
さらに、変形例2では、情報端末10に音声認識の機能が設けられる場合に比べて、情報端末10の処理負荷を抑えることができる。結果的に、音声認識システムA1には、音声認識の機能に関する改善を図れる、という利点がある。
変形例2では、音声認識システムA1は、情報端末10に入力される音声にトリガーワード又はコマンドワードが含まれているか否かをほぼ常時監視する可能性が高くなる。その結果、変形例2は、変形例1よりも更に音声データに関する通信量等が増加し得る。この点を考慮すると、変形例2でも、ある程度トリガー音声認識、コマンド音声認識を行わせるタイミングや、音声認識の対象となる音声を絞ることが好ましい。
なお、変形例2に係る音声認識システムA1と同様の機能は、制御方法でも具現化され得る。音声認識システムA1を制御する一態様の制御方法は、情報端末10と通信する通信ステップと、音声認識ステップと、を含む。音声認識ステップでは、マイクロホン131に入力された音声を情報端末10から通信ステップにて受信すると、音声に対する音声認識処理を行う。音声認識システムA1は、第1モードと、第2モードと、を有する。第1モードでは、音声認識ステップにて、マイクロホン131に入力された音声にトリガーワードが含まれているか否かについてトリガー音声認識を行う。また第1モードでは、トリガーワードが含まれている場合に、情報端末10の制御処理部183が行う制御に関する制御コマンドについてのコマンド音声認識を行う。第2モードでは、音声認識ステップにて、トリガー音声認識を行わずに、コマンド音声認識を行う。制御方法では、情報端末10の待機状態において第1モードで動作し、情報端末10が他の端末(ロビーインターホン20,玄関子機40)との通話状態において第2モードで動作する。上記一態様の制御方法にも、音声認識の機能に関する改善を図れる、という利点がある。この一態様の制御方法は、コンピュータシステム(音声認識システムA1)上で用いられる。つまり、この一態様の制御方法は、プログラムでも具現化可能である。変形例2に係るプログラムは、上記の一態様の制御方法を1以上のプロセッサに実行させるためのプログラムである。プログラムは、コンピュータで読み取り可能な非一時的記録媒体に記録されていてもよい。
また、音声認識システムA1を制御する別の態様の制御方法は、情報端末10と通信する通信ステップと、音声認識ステップと、を含む。音声認識ステップでは、マイクロホン131に入力された音声を情報端末10から通信ステップにて受信すると、音声に対する音声認識処理を行う。音声認識ステップでは、情報端末10の制御処理部183が行う制御に関する制御コマンドについてのコマンド音声認識を行う。音声認識ステップで音声認識される制御コマンドの種類は、情報端末10の動作状態に応じて設定されている。上記の別の態様の制御方法にも、音声認識の機能に関する改善を図れる、という利点がある。この別の態様の制御方法は、コンピュータシステム(音声認識システムA1)上で用いられる。つまり、この別の態様の制御方法は、プログラムでも具現化可能である。変形例2に係るプログラムは、上記の別の態様の制御方法を1以上のプロセッサに実行させるためのプログラムである。プログラムは、コンピュータで読み取り可能な非一時的記録媒体に記録されていてもよい。
(6-3)その他の変形例
本開示における情報端末10、インターホンシステム1、及び音声認識システムA1は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における情報端末10、インターホンシステム1、及び音声認識システムA1としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1ないし複数の電子回路で構成される。ここでいうIC又はLSI等の集積回路は、集積の度合いによって呼び方が異なっており、システムLSI、VLSI(Very Large Scale Integration)、又はULSI(Ultra Large Scale Integration)と呼ばれる集積回路を含む。さらに、LSIの製造後にプログラムされる、FPGA(Field-Programmable Gate Array)、又はLSI内部の接合関係の再構成若しくはLSI内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、1以上のプロセッサ及び1以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む1ないし複数の電子回路で構成される。
本開示における情報端末10、インターホンシステム1、及び音声認識システムA1は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における情報端末10、インターホンシステム1、及び音声認識システムA1としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1ないし複数の電子回路で構成される。ここでいうIC又はLSI等の集積回路は、集積の度合いによって呼び方が異なっており、システムLSI、VLSI(Very Large Scale Integration)、又はULSI(Ultra Large Scale Integration)と呼ばれる集積回路を含む。さらに、LSIの製造後にプログラムされる、FPGA(Field-Programmable Gate Array)、又はLSI内部の接合関係の再構成若しくはLSI内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、1以上のプロセッサ及び1以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む1ないし複数の電子回路で構成される。
また、情報端末10、インターホンシステム1、及び音声認識システムA1の各々における複数の機能が、1つのハウジング内に集約されていることは必須の構成ではない。情報端末10、インターホンシステム1、及び音声認識システムA1の各々の構成要素は、複数のハウジングに分散して設けられていてもよい。反対に、情報端末10、インターホンシステム1、及び音声認識システムA1の各々における複数の機能が、1つのハウジング内に集約されてもよい。さらに、情報端末10、インターホンシステム1、及び音声認識システムA1の各々の少なくとも一部の機能、例えば、情報端末10の一部の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。
上記実施形態では、一例として、情報端末10が、住戸端末(インターホン親機)であり、また、自機が備えるマイクロホン131に直接入力される音声に基づき音声認識が行われることを想定していた。しかし、音声認識用に音声を取得するマイクロホンは、情報端末10に対して外付けであってもよい。また、音声認識用に音声を取得するマイクロホンは、情報端末10とは別の装置(例えば、同じ住戸E2内にあるインターホン子機、或いは、スマートフォン、タブレット端末、又はウェアラブル端末等のユーザが携帯し得る携帯端末)に設けられてもよい。情報端末10は、その別の装置と通信を行ってユーザの音声を取得してもよい。
例えば、携帯端末の一例としてユーザが携帯するスマートフォンが備えるマイクロホンに入力される音声に基づき、情報端末10又は音声認識システムA1が音声認識を行ってもよい。この場合、スマートフォンには、情報端末10と通信するための専用のアプリケーションソフトが予めインストールされる。ユーザは、住戸E2内に居れば、情報端末10の傍でなくても、スマートフォンを用いて情報端末10への呼出の応答や訪問者との通話を行えることが好ましい。スマートフォンは、例えばWi-Fi(登録商標)等の規格に準拠した無線通信により、マイクロホンに入力される音声(データ)を情報端末10に転送する。言い換えると、ユーザが住戸E2内に居てスマートフォンが情報端末10から一定の範囲内に存在する場合、ユーザはスマートフォンを利用して音声操作により、間接的に呼出中の情報端末10への応答をしたり通話をしたりできてもよい。また、情報端末10の音声認識の機能の少なくとも一部が、アプリケーションソフトとしてスマートフォン内にインストールされていてもよい。例えば、トリガー音声認識の機能がスマートフォンにあり、コマンド音声認識の機能が情報端末10又は音声認識システムA1にあってもよい。
一変形例において、他の端末としての玄関子機40からの呼出中又は玄関子機40と通話中において、解錠ボタン143が押される又はコマンドワード(例えば「解錠して」)の音声認識に成功すると、情報端末10は、解錠信号を送信して施設(住戸E2)の玄関扉の電気錠を解錠してもよい。情報端末10は、玄関子機40又は他の装置を介して、玄関扉の電気錠を解錠してもよい。
一変形例において、インターホンシステム1が戸建住宅に適用されている場合、戸建住宅の玄関子機からの呼出中又は玄関子機と通話中において、解錠ボタン143が押される又はコマンドワード(例えば「解錠して」)の音声認識に成功すると、情報端末10は、解錠信号を送信して戸建住宅の玄関扉の電気錠を解錠してもよい。情報端末10は、玄関子機又は他の装置を介して、玄関扉の電気錠を解錠してもよい。
上述した実施形態、変形例1、変形例2、及びその他の変形例は、適宜組み合わせて適用可能である。
(7)まとめ
以上説明したように、第1の態様に係る情報端末(10)は、音声認識部(182)と、制御処理部(183)と、通信部(第1通信部11,第3通信部19)と、を備える。音声認識部(182)は、マイクロホン(131)に入力された音声に基づいて音声認識を行う。制御処理部(183)は、音声認識部(182)で音声認識された制御コマンド(例えば音声認識に成功した制御コマンド)に基づく制御を行う。通信部(第1通信部11,第3通信部19)は、他の端末(ロビーインターホン20,玄関子機40)との通話を含む通信を行う。情報端末(10)では、音声認識部(182)で音声認識される制御コマンドの種類は、自機の動作状態に応じて設定されている。
以上説明したように、第1の態様に係る情報端末(10)は、音声認識部(182)と、制御処理部(183)と、通信部(第1通信部11,第3通信部19)と、を備える。音声認識部(182)は、マイクロホン(131)に入力された音声に基づいて音声認識を行う。制御処理部(183)は、音声認識部(182)で音声認識された制御コマンド(例えば音声認識に成功した制御コマンド)に基づく制御を行う。通信部(第1通信部11,第3通信部19)は、他の端末(ロビーインターホン20,玄関子機40)との通話を含む通信を行う。情報端末(10)では、音声認識部(182)で音声認識される制御コマンドの種類は、自機の動作状態に応じて設定されている。
上記の態様によれば、音声認識部(182)で音声認識される制御コマンドの種類が、情報端末(10)の動作状態に応じて設定されている。そのため、各動作状態において、音声認識部(182)がマイクロホン(131)に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、全ての制御コマンドを参照の対象にして検索する可能性を低減できる。その結果、音声認識の処理速度又は精度が向上し得る。結果的に、情報端末(10)には、音声認識の機能に関する改善を図れる、という利点がある。
第2の態様に係る情報端末(10)に関して、第1の態様において、動作状態が所定の動作モードを実行している状態である場合に音声認識される制御コマンドの種類は、所定の動作モードを開始する開始コマンドを含まず、実行中の所定の動作モードを解除する解除コマンドを含む。
上記の態様によれば、所定の動作モードを実行している状態に対しては、音声認識部(182)がマイクロホン(131)に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、所定の動作モードの開始コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。
第3の態様に係る情報端末(10)に関して、第2の態様において、動作状態が待機状態である場合に音声認識される制御コマンドの種類は、解除コマンドを含まず、開始コマンドを含む。
上記の態様によれば、待機状態に対しては、音声認識部(182)がマイクロホン(131)に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、所定の動作モードの解除コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。
第4の態様に係る情報端末(10)に関して、第1~第3の態様のいずれか1つにおいて、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、呼出に対する通話応答をするための応答コマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、応答コマンドを含まない。
上記の態様によれば、待機状態に対しては、音声認識部(182)がマイクロホン(131)に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、呼出に対する応答コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。
第5の態様に係る情報端末(10)に関して、第1~第4の態様のいずれか1つにおいて、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、情報端末(10)が設置された施設(集合住宅5)で入退するための扉(玄関扉200)に設けられた電気錠(201)を解錠するための解錠コマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、解錠コマンドを含まない。
上記の態様によれば、待機状態に対しては、音声認識部(182)がマイクロホン(131)に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、電気錠(201)の解錠コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。
第6の態様に係る情報端末(10)に関して、第1~第5の態様のいずれか1つにおいて、動作状態が他の端末から呼出を受けている呼出状態である場合に音声認識される制御コマンドの種類は、呼出をキャンセルするためのキャンセルコマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、キャンセルコマンドを含まない。
上記の態様によれば、待機状態に対しては、音声認識部(182)がマイクロホン(131)に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、呼出のキャンセルコマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。
第7の態様に係る情報端末(10)に関して、第1~第6の態様のいずれか1つにおいて、動作状態が他の端末との通話状態である場合に音声認識される制御コマンドの種類は、情報端末(10)が設置された施設(集合住宅5)で入退するための扉(玄関扉200)に設けられた電気錠(201)を解錠するための解錠コマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、解錠コマンドを含まない。
上記の態様によれば、待機状態に対しては、音声認識部(182)がマイクロホン(131)に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、電気錠(201)の解錠コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。
第8の態様に係る情報端末(10)に関して、第1~第7の態様のいずれか1つにおいて、動作状態が他の端末との通話状態である場合に音声認識される制御コマンドの種類は、通話を終了するための終了コマンドを含む。動作状態が待機状態である場合に音声認識される制御コマンドの種類は、終了コマンドを含まない。
上記の態様によれば、待機状態に対しては、音声認識部(182)がマイクロホン(131)に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、通話の終了コマンドが検索対象に設定されていない。そのため、音声認識の処理速度又は精度が向上し得る。
第9の態様に係る情報端末(10)に関して、第1~第8の態様のいずれか1つにおいて、音声認識部(182)で音声認識される制御コマンドは、複数の動作状態間で同じワードで設定されているコマンドワードを含む。制御処理部(183)は、音声認識部(182)で音声認識された制御コマンド(例えば音声認識に成功した制御コマンド)が同じワードであっても、自機の動作状態に応じて異なる制御を行う。
上記の態様によれば、ユーザが覚える制御コマンドのコマンドワードを減らすことができ、ユーザの利便性が向上する。
第10の態様に係るインターホンシステム(1)は、第1~第9の態様のいずれか1つにおける情報端末(10)と、他の端末(ロビーインターホン20,玄関子機40)と、を備える。
上記の態様によれば、音声認識の機能に関する改善を図れるインターホンシステム(1)を提供できる。
第11の態様に係る音声認識システム(A1)は、情報端末(10)と通信する通信部(A11)と、音声認識部(A12)と、を備える。音声認識部(A12)は、マイクロホン(131)に入力された音声を情報端末(10)から通信部(A11)で受信すると、音声に対する音声認識を行う。音声認識部(A12)は、情報端末(10)の制御処理部(183)が行う制御に関する制御コマンドについてのコマンド音声認識を行う。音声認識部(A12)で音声認識される制御コマンドの種類は、情報端末(10)の動作状態に応じて設定されている。
上記の態様によれば、音声認識部(A12)で音声認識される制御コマンドの種類が、情報端末(10)の動作状態に応じて設定されている。そのため、各動作状態において、音声認識部(A12)がマイクロホン(131)に入力された音声にどの制御コマンドが含まれているかを音声識別する際に、全ての制御コマンドを対象にして検索する可能性を低減できる。その結果、音声認識の処理速度又は精度が向上し得る。さらに、情報端末(10)側に音声認識の機能が設けられる場合に比べて、情報端末(10)の処理負荷を抑えることができる。結果的に、音声認識システム(A1)には、音声認識の機能に関する改善を図れる、という利点がある。
第12の態様に係る制御方法は、情報端末(10)を制御する制御方法である。制御方法は、音声認識ステップと、制御処理ステップと、通信ステップと、を含む。音声認識ステップでは、マイクロホン(131)に入力された音声に基づいて音声認識処理を行う。制御処理ステップでは、音声認識ステップにて音声認識された制御コマンド(例えば音声認識に成功した制御コマンド)に基づく制御を行う。通信ステップでは、他の端末(ロビーインターホン20,玄関子機40)との通話を含む通信を行う。音声認識ステップで音声認識される制御コマンドの種類は、情報端末(10)の動作状態に応じて設定されている。
上記の態様によれば、音声認識の機能に関する改善を図れる制御方法を提供できる。
第13の態様に係る制御方法は、音声認識システム(A1)を制御する制御方法である。制御方法は、情報端末(10)と通信する通信ステップと、音声認識ステップと、を含む。音声認識ステップでは、マイクロホン(131)に入力された音声を情報端末(10)から通信ステップにて受信すると、音声に対する音声認識処理を行う。音声認識ステップでは、情報端末(10)の制御処理部(183)が行う制御に関する制御コマンドについてのコマンド音声認識を行う。音声認識ステップで音声認識される制御コマンドの種類は、情報端末(10)の動作状態に応じて設定されている。
上記の態様によれば、音声認識の機能に関する改善を図れる制御方法を提供できる。
第14の態様に係るプログラムは、1以上のプロセッサに、第12、又は第13の態様のいずれか1つの制御方法を実行させるためのプログラムである。
上記の態様によれば、音声認識の機能に関する改善を図れる機能を提供できる。
第2~第9の態様に係る構成については、第1の態様に係る情報端末(10)に必須の構成ではなく、適宜省略可能である。
1 インターホンシステム
10 情報端末
182 音声認識部
183 制御処理部
11 第1通信部(通信部)
131 マイクロホン
19 第3通信部(通信部)
20 ロビーインターホン(他の端末)
200 玄関扉(扉)
201 電気錠
40 玄関子機(他の端末)
5 集合住宅(施設)
A1 音声認識システム
A11 通信部
A12 音声認識部
10 情報端末
182 音声認識部
183 制御処理部
11 第1通信部(通信部)
131 マイクロホン
19 第3通信部(通信部)
20 ロビーインターホン(他の端末)
200 玄関扉(扉)
201 電気錠
40 玄関子機(他の端末)
5 集合住宅(施設)
A1 音声認識システム
A11 通信部
A12 音声認識部
Claims (14)
- マイクロホンに入力された音声に基づいて音声認識を行う音声認識部と、
前記音声認識部で音声認識された制御コマンドに基づく制御を行う制御処理部と、
他の端末との通話を含む通信を行う通信部と、
を備え、
前記音声認識部で音声認識される前記制御コマンドの種類は、自機の動作状態に応じて設定されている、
情報端末。 - 前記動作状態が所定の動作モードを実行している状態である場合に音声認識される前記制御コマンドの種類は、前記所定の動作モードを開始する開始コマンドを含まず、実行中の前記所定の動作モードを解除する解除コマンドを含む、
請求項1に記載の情報端末。 - 前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記解除コマンドを含まず、前記開始コマンドを含む、
請求項2に記載の情報端末。 - 前記動作状態が前記他の端末から呼出を受けている呼出状態である場合に音声認識される前記制御コマンドの種類は、前記呼出に対する通話応答をするための応答コマンドを含み、
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記応答コマンドを含まない、
請求項1に記載の情報端末。 - 前記動作状態が前記他の端末から呼出を受けている呼出状態である場合に音声認識される前記制御コマンドの種類は、前記情報端末が設置された施設で入退するための扉に設けられた電気錠を解錠するための解錠コマンドを含み、
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記解錠コマンドを含まない、
請求項1に記載の情報端末。 - 前記動作状態が前記他の端末から呼出を受けている呼出状態である場合に音声認識される前記制御コマンドの種類は、前記呼出をキャンセルするためのキャンセルコマンドを含み、
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記キャンセルコマンドを含まない、
請求項1に記載の情報端末。 - 前記動作状態が前記他の端末との通話状態である場合に音声認識される前記制御コマンドの種類は、前記情報端末が設置された施設で入退するための扉に設けられた電気錠を解錠するための解錠コマンドを含み、
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記解錠コマンドを含まない、
請求項1に記載の情報端末。 - 前記動作状態が前記他の端末との通話状態である場合に音声認識される前記制御コマンドの種類は、前記通話を終了するための終了コマンドを含み、
前記動作状態が待機状態である場合に音声認識される前記制御コマンドの種類は、前記終了コマンドを含まない、
請求項1に記載の情報端末。 - 前記音声認識部で音声認識される前記制御コマンドは、複数の動作状態間で同じワードで設定されているコマンドワードを含み、
前記制御処理部は、前記音声認識部で音声認識された前記制御コマンドが同じワードであっても、自機の動作状態に応じて異なる制御を行う、
請求項1に記載の情報端末。 - 請求項1~9のいずれか1項に記載の情報端末と、
前記他の端末と、
を備える、
インターホンシステム。 - 情報端末と通信する通信部と、
マイクロホンに入力された音声を前記情報端末から前記通信部で受信すると、前記音声に対する音声認識を行う音声認識部と、
を備え、
前記音声認識部は、前記情報端末の制御処理部が行う制御に関する制御コマンドについてのコマンド音声認識を行い、
前記音声認識部で音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている、
音声認識システム。 - 情報端末を制御する制御方法であって、
マイクロホンに入力された音声に基づいて音声認識処理を行う音声認識ステップと、
前記音声認識ステップにて音声認識された制御コマンドに基づく制御を行う制御処理ステップと、
他の端末との通話を含む通信を行う通信ステップと、
を含み、
前記音声認識ステップで音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている、
制御方法。 - 音声認識システムを制御する制御方法であって、
情報端末と通信する通信ステップと、
マイクロホンに入力された音声を前記情報端末から前記通信ステップにて受信すると、前記音声に対する音声認識処理を行う音声認識ステップと、
を含み、
前記音声認識ステップでは、前記情報端末の制御処理部が行う制御に関する制御コマンドについてのコマンド音声認識を行い、
前記音声認識ステップで音声認識される前記制御コマンドの種類は、前記情報端末の動作状態に応じて設定されている、
制御方法。 - 1以上のプロセッサに請求項12又は13に記載の制御方法を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022182904A JP2024072183A (ja) | 2022-11-15 | 2022-11-15 | 情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022182904A JP2024072183A (ja) | 2022-11-15 | 2022-11-15 | 情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024072183A true JP2024072183A (ja) | 2024-05-27 |
Family
ID=91194040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022182904A Pending JP2024072183A (ja) | 2022-11-15 | 2022-11-15 | 情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024072183A (ja) |
-
2022
- 2022-11-15 JP JP2022182904A patent/JP2024072183A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023025061A (ja) | 音声認識デバイス及び音声認識デバイスの連携方法 | |
WO2019225201A1 (ja) | 情報処理装置及び情報処理方法、並びに情報処理システム | |
US11108998B2 (en) | Method and system for providing video intercom transmission of images | |
JP7422321B2 (ja) | インターホンシステム、設定方法、及びプログラム | |
JP2024072183A (ja) | 情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラム | |
JP2024072185A (ja) | 情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラム | |
KR100352969B1 (ko) | 주택관리 시스템 및 주택관리방법 | |
JP2019176386A (ja) | 通信端末及び会議システム | |
EP3562132B1 (en) | Intercom system, control method and computer program | |
JP2024072184A (ja) | 情報端末、インターホンシステム、制御方法及びプログラム | |
TWI818035B (zh) | 對講機門站、對講機系統、控制方法及程式 | |
JP2024072182A (ja) | 情報端末、インターホンシステム、制御方法及びプログラム | |
JP7133781B2 (ja) | インターホン装置及びインターホンシステム | |
WO2019187572A1 (ja) | インターホン装置、プログラム | |
JP7422320B2 (ja) | インターホンシステム、設定方法、及びプログラム | |
WO2020218146A1 (ja) | インターホンシステム、設定方法、及びプログラム | |
JP7297462B2 (ja) | 来訪者対応システム | |
JP2021140114A (ja) | 情報端末、インターホンシステム、処理方法及びプログラム | |
JP2018142814A (ja) | インターホンシステム | |
EP4054163B1 (en) | Multiple dwelling house interphone system | |
JP7493187B2 (ja) | 呼出システム、制御方法、プログラム | |
JP2021141572A (ja) | 情報端末、インターホンシステム、処理方法及びプログラム | |
JP2002033837A (ja) | セキュリティシステム | |
JP2023005286A (ja) | 制御システム、制御方法及びプログラム | |
JP2023010577A (ja) | 情報端末、インターホンシステム及びプログラム |