JP2024072184A - Information terminal, intercom system, control method and program - Google Patents

Information terminal, intercom system, control method and program Download PDF

Info

Publication number
JP2024072184A
JP2024072184A JP2022182905A JP2022182905A JP2024072184A JP 2024072184 A JP2024072184 A JP 2024072184A JP 2022182905 A JP2022182905 A JP 2022182905A JP 2022182905 A JP2022182905 A JP 2022182905A JP 2024072184 A JP2024072184 A JP 2024072184A
Authority
JP
Japan
Prior art keywords
unit
voice recognition
information terminal
voice
notification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022182905A
Other languages
Japanese (ja)
Inventor
貴洋 野上
剛 桑野
元希 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2022182905A priority Critical patent/JP2024072184A/en
Publication of JP2024072184A publication Critical patent/JP2024072184A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Alarm Systems (AREA)

Abstract

【課題】ユーザの利便性の向上を図る。【解決手段】情報端末10は、インターホン装置として動作する。情報端末10は、音声認識部182と、制御処理部183と、報知部9と、を備える。音声認識部182は、マイクロホン131に入力された音声に対して音声認識を行う。制御処理部183は、音声認識部182の音声認識結果に基づく制御を行う。報知部9は、音声認識部182による音声認識の成否に応じた報知を行う。【選択図】図1[Problem] To improve user convenience. [Solution] An information terminal 10 operates as an intercom device. The information terminal 10 includes a voice recognition unit 182, a control processing unit 183, and an alarm unit 9. The voice recognition unit 182 performs voice recognition on a voice input to a microphone 131. The control processing unit 183 performs control based on the voice recognition result of the voice recognition unit 182. The alarm unit 9 issues an alarm according to the success or failure of the voice recognition by the voice recognition unit 182. [Selected Figure] Figure 1

Description

本開示は、一般に情報端末、インターホンシステム、制御方法及びプログラムに関し、より詳細にはインターホン装置として動作する情報端末、情報端末を備えるインターホンシステム、情報端末の制御方法及びプログラムに関する。 This disclosure generally relates to an information terminal, an intercom system, a control method, and a program, and more specifically to an information terminal that operates as an intercom device, an intercom system that includes an information terminal, and a control method and a program for the information terminal.

従来、集合住宅等で用いられるインターホンシステムが知られている(例えば、特許文献1参照)。特許文献1のインターホンシステムは、集合住宅の共同玄関に設置されるロビーインターホン、各住戸内に設置されるインターホン親機、及び各住戸の戸外(玄関先)に設置されるドアホン子器を備える。 Intercom systems used in apartment buildings and the like are known (see, for example, Patent Document 1). The intercom system of Patent Document 1 includes a lobby intercom installed at the common entrance of the apartment building, an intercom master unit installed in each dwelling unit, and a door phone slave unit installed outside each dwelling unit (at the entrance).

このようなインターホンシステムでは、来訪者は、ロビーインターホンを用いてインターホン親機を呼び出す。この呼出に応じて住戸の住人がインターホン親機に対して所定の操作を行うことでロビーインターホンとインターホン親機との間で通話が開始される。ドアホン子器でインターホン親機を呼び出したときも同様に、呼出に応じて住戸の住人がインターホン親機に対して所定の操作を行うことでドアホン子器とインターホン親機との間で通話が開始される。 In this type of intercom system, a visitor calls the intercom master unit using the lobby intercom. In response to this call, the resident of the residence performs a specified operation on the intercom master unit, which starts a conversation between the lobby intercom and the intercom master unit. Similarly, when the intercom master unit is called using the doorphone slave, the resident of the residence performs a specified operation on the intercom master unit in response to the call, which starts a conversation between the doorphone slave and the intercom master unit.

特開2004-64249号公報JP 2004-64249 A

ところで、所定の操作として住戸の住人が発した音声を基に音声認識を行うシステムが存在する。情報端末(例えばインターホン親機)やインターホンシステムにて音声認識を利用する場合、ユーザ(住人等)の利便性の向上が望まれている。 There are systems that perform voice recognition based on the voices uttered by residents of a residence as a specified operation. When using voice recognition in an information terminal (e.g., an intercom master unit) or an intercom system, it is desirable to improve the convenience of the user (resident, etc.).

本開示は上記課題に鑑みてなされ、ユーザの利便性の向上を図ることが可能な情報端末、インターホンシステム、制御方法及びプログラムを提供することを目的とする。 The present disclosure has been made in consideration of the above-mentioned problems, and aims to provide an information terminal, an intercom system, a control method, and a program that can improve user convenience.

本開示の一態様に係る情報端末は、インターホン装置として動作する。前記情報端末は、音声認識部と、制御処理部と、報知部と、を備える。前記音声認識部は、マイクロホンに入力された音声に対して音声認識を行う。前記制御処理部は、前記音声認識部の音声認識結果に基づく制御を行う。前記報知部は、前記音声認識部による前記音声認識の成否に応じた報知を行う。 An information terminal according to one aspect of the present disclosure operates as an intercom device. The information terminal includes a voice recognition unit, a control processing unit, and an alarm unit. The voice recognition unit performs voice recognition on a voice input to a microphone. The control processing unit performs control based on the voice recognition result of the voice recognition unit. The alarm unit issues an alarm according to the success or failure of the voice recognition by the voice recognition unit.

本開示の一態様に係るインターホンシステムは、前記情報端末と、前記情報端末と通話を含む通信を行う他の端末と、を備える。 An intercom system according to one aspect of the present disclosure includes the information terminal and another terminal that communicates with the information terminal, including making calls.

本開示の一態様に係る制御方法は、インターホン装置として動作する情報端末の制御方法である。前記制御方法は、音声認識ステップと、制御処理ステップと、報知ステップと、を含む。前記音声認識ステップは、マイクロホンに入力された音声に基づいて音声認識処理を行うことを含む。前記制御処理ステップは、前記音声認識ステップでの音声認識結果に基づいて制御を行うことを含む。前記報知ステップは、前記音声認識ステップでの前記音声認識処理の成否に応じた報知を行うことを含む。 A control method according to one aspect of the present disclosure is a control method for an information terminal that operates as an intercom device. The control method includes a voice recognition step, a control processing step, and a notification step. The voice recognition step includes performing voice recognition processing based on a voice input to a microphone. The control processing step includes performing control based on a voice recognition result in the voice recognition step. The notification step includes performing a notification according to the success or failure of the voice recognition processing in the voice recognition step.

本開示の一態様に係るプログラムは、1以上のプロセッサに、前記制御方法を実行させるためのプログラムである。 A program according to one aspect of the present disclosure is a program for causing one or more processors to execute the control method.

本開示によると、ユーザの利便性の向上を図ることが可能である。 This disclosure makes it possible to improve user convenience.

図1は、一実施形態の情報端末のブロック図である。FIG. 1 is a block diagram of an information terminal according to an embodiment. 図2は、同上の情報端末を含むインターホンシステムのブロック図である。FIG. 2 is a block diagram of an intercom system including the information terminal. 図3は、同上の情報端末の、待機状態における正面図である。FIG. 3 is a front view of the information terminal in a standby state. 図4は、同上の情報端末の、呼出状態における正面図である。FIG. 4 is a front view of the information terminal in a calling state. 図5は、同上の情報端末の、待機状態においてトリガーワードを音声認識した状態の正面図である。FIG. 5 is a front view of the information terminal in a standby state where a trigger word has been voice-recognized. 図6は、同上の情報端末の、呼出状態においてトリガーワードを音声認識した状態の正面図である。FIG. 6 is a front view of the information terminal of the above embodiment, showing a state in which a trigger word has been voice-recognized in a calling state. 図7は、同上の情報端末の、待機状態においてコマンドワードを音声認識した状態を示す概念図である。FIG. 7 is a conceptual diagram showing a state in which a command word is voice-recognized in the above information terminal in a standby state. 図8は、同上の情報端末の、呼出状態においてコマンドワードを音声認識した状態を示す概念図である。FIG. 8 is a conceptual diagram showing a state in which a command word is voice-recognized in a calling state of the information terminal of the above embodiment. 図9は、同上の情報端末の表示部に表示される通話画面の一例を示す概念図である。FIG. 9 is a conceptual diagram showing an example of a call screen displayed on the display unit of the information terminal. 図10は、同上の情報端末の、コマンドワードの音声認識に失敗した状態を示す概念図である。FIG. 10 is a conceptual diagram showing a state in which the information terminal fails to recognize a command word. 図11は、機器の制御に失敗した場合に同上の情報端末の表示部に表示される報知画面の一例を示す概念図である。FIG. 11 is a conceptual diagram showing an example of a notification screen displayed on the display unit of the information terminal when control of the device fails. 図12は、機器の制御に失敗した場合に同上の情報端末の表示部に表示される報知画面の一例を示す概念図である。FIG. 12 is a conceptual diagram showing an example of a notification screen displayed on the display unit of the information terminal when control of the device fails. 図13は、機器の制御に失敗した場合に同上の情報端末の表示部に表示される報知画面の一例を示す概念図である。FIG. 13 is a conceptual diagram showing an example of a notification screen displayed on the display unit of the information terminal when control of the device fails. 図14は、機器の制御に失敗した場合に同上の情報端末の表示部に表示される報知画面の一例を示す概念図である。FIG. 14 is a conceptual diagram showing an example of a notification screen displayed on the display unit of the information terminal when control of the device fails. 図15は、同上の情報端末の表示部に表示される案内画面の一例を示す概念図である。FIG. 15 is a conceptual diagram showing an example of a guide screen displayed on the display unit of the information terminal. 図16は、同上の情報端末の動作例1を説明する概念図である。FIG. 16 is a conceptual diagram for explaining an operation example 1 of the information terminal according to the above embodiment. 図17は、同上の情報端末の動作例2を説明する概念図である。FIG. 17 is a conceptual diagram illustrating an operation example 2 of the information terminal according to the embodiment of the present invention. 図18は、同上の情報端末の制御方法のフローチャートである。FIG. 18 is a flowchart of a control method for the information terminal.

以下に説明する実施形態及び変形例は、本開示の一例に過ぎず、本開示は、実施形態及び変形例に限定されない。以下の実施形態及び変形例以外であっても、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。 The embodiment and modified examples described below are merely examples of the present disclosure, and the present disclosure is not limited to the embodiment and modified examples. Various modifications other than the embodiment and modified examples described below are possible according to the design, etc., as long as they do not deviate from the technical concept of the present disclosure.

(1)概要
本実施形態の情報端末10(図1参照)は、図2に示すように、インターホンシステム1に適用される。インターホンシステム1は、例えば、マンション等の集合住宅5に適用される。本実施形態のインターホンシステム1は、情報端末10を備える。本実施形態では、インターホンシステム1は、各々がインターホン装置として動作する複数(図2では2つ)の情報端末10を備える。インターホンシステム1は、ロビーインターホン20(他の端末)と、制御装置30と、複数(図2では2つ)の玄関子機40(他の端末)とを、更に備える。
(1) Overview An information terminal 10 (see FIG. 1) of this embodiment is applied to an intercom system 1 as shown in FIG. 2. The intercom system 1 is applied to, for example, an apartment building or other collective housing 5. The intercom system 1 of this embodiment includes an information terminal 10. In this embodiment, the intercom system 1 includes multiple (two in FIG. 2) information terminals 10 each operating as an intercom device. The intercom system 1 further includes a lobby intercom 20 (another terminal), a control device 30, and multiple (two in FIG. 2) entrance sub-units 40 (other terminals).

インターホンシステム1では、複数の情報端末10の各々とロビーインターホン20とが制御装置30を介して通信を行うように構成されている。また、インターホンシステム1では、複数の情報端末10と複数の玄関子機40とが一対一に対応している。なお、本実施形態のインターホンシステム1は、集合住宅5以外、例えば戸建住宅等に適用されてもよい。あるいは、インターホンシステム1は、事務所、店舗、学校若しくは介護施設等の非住宅施設等に適用されてもよい。 In the intercom system 1, each of the multiple information terminals 10 and the lobby intercom 20 are configured to communicate via the control device 30. In the intercom system 1, the multiple information terminals 10 and the multiple entrance units 40 correspond one-to-one. The intercom system 1 of this embodiment may be applied to facilities other than the apartment building 5, such as detached houses. Alternatively, the intercom system 1 may be applied to non-residential facilities such as offices, stores, schools, or nursing homes.

言い換えると、インターホンシステム1は、施設、又は集合施設に適用されてもよい。「施設」は、「住宅」であれば、戸建住宅、又は集合住宅5の住戸に対応し、「非住宅」であれば、事務所、店舗、学校若しくは介護施設等に対応し得る。また、「集合施設」は、複数の住戸(専有部)が集まった集合住宅5でもよいし、複数の事務所や店舗(専有部)が集まった非住宅の集合施設でもよいし、例えば下層階が非住宅の集合施設で上層階が集合住宅である複合施設でもよい。 In other words, the intercom system 1 may be applied to a facility or an apartment complex. If the facility is residential, it may correspond to a detached house or a dwelling unit in an apartment complex 5, and if it is non-residential, it may correspond to an office, store, school, or nursing home. The apartment complex may be an apartment complex 5 with multiple dwelling units (private areas), a non-residential apartment complex with multiple offices or stores (private areas), or a complex where the lower floors are non-residential apartment complexes and the upper floors are apartment complexes.

複数の情報端末10の各々は、例えば、集合住宅5に含まれる複数の住戸E2の各々に設けられている住戸端末(インターホン親機)である。各情報端末10は、例えば、各住戸E2内の居室等に設けられている居室親機としての機能をする住宅情報盤であることを想定する。 Each of the multiple information terminals 10 is, for example, a dwelling unit terminal (intercom master unit) provided in each of the multiple dwelling units E2 included in the apartment complex 5. Each information terminal 10 is assumed to be, for example, a housing information panel that functions as a room master unit provided in a room or the like within each dwelling unit E2.

各情報端末10は、第2幹線62、分岐線63、及び分岐器50を介して制御装置30に接続されている。各情報端末10は、制御装置30を介して、ロビーインターホン20との間で通信(例えば、通話、及び制御信号の送信等)を行うように構成されている。さらに、各情報端末10は、接続線64を介して対応する玄関子機40に接続されている。各情報端末10は、対応する玄関子機40との間で通信(例えば、通話、及び制御信号の送信等)を行うように構成されている。 Each information terminal 10 is connected to the control device 30 via the second trunk line 62, the branch line 63, and the splitter 50. Each information terminal 10 is configured to communicate (e.g., make calls and send control signals, etc.) with the lobby intercom 20 via the control device 30. Furthermore, each information terminal 10 is connected to a corresponding entrance unit 40 via a connection line 64. Each information terminal 10 is configured to communicate (e.g., make calls and send control signals, etc.) with the corresponding entrance unit 40.

ロビーインターホン20は、例えば、集合住宅5の共用玄関(ロビー)E1に設けられている。ロビーインターホン20は、第1幹線61を介して制御装置30に接続されている。ロビーインターホン20は、制御装置30を介して、各情報端末10との間で通信(例えば、通話、及び映像信号の送信等)を行うように構成されている。ロビーインターホン20は、例えば、共用玄関E1の壁に取り付けられている。ロビーインターホン20が映像信号を情報端末10に送信することで、情報端末10は、映像(画像)を表示することができる。 The lobby intercom 20 is provided, for example, in the shared entrance (lobby) E1 of the apartment building 5. The lobby intercom 20 is connected to the control device 30 via the first trunk line 61. The lobby intercom 20 is configured to communicate (for example, make calls and transmit video signals, etc.) with each information terminal 10 via the control device 30. The lobby intercom 20 is attached, for example, to the wall of the shared entrance E1. The lobby intercom 20 transmits a video signal to the information terminal 10, which enables the information terminal 10 to display a video (image).

制御装置30は、例えば、集合住宅5の管理室E3に設けられている。制御装置30は、第1幹線61を介してロビーインターホン20に接続され、かつ第2幹線62を介して各情報端末10に接続されている。つまり、制御装置30は、各情報端末10とロビーインターホン20との間の通信を中継するように構成されている。 The control device 30 is provided, for example, in the management room E3 of the apartment building 5. The control device 30 is connected to the lobby intercom 20 via a first trunk line 61, and is connected to each information terminal 10 via a second trunk line 62. In other words, the control device 30 is configured to relay communication between each information terminal 10 and the lobby intercom 20.

複数の玄関子機40の各々は、例えば、集合住宅5の住戸E2の外玄関に設けられている。各玄関子機40は、接続線64を介して対応する情報端末10に接続されている。各玄関子機40は、対応する情報端末10との間で通信(例えば、通話、映像信号の送信等)を行うように構成されている。 Each of the multiple entrance sub-units 40 is provided, for example, at the outer entrance of dwelling unit E2 of apartment building 5. Each entrance sub-unit 40 is connected to a corresponding information terminal 10 via a connection line 64. Each entrance sub-unit 40 is configured to communicate (e.g., make calls, transmit video signals, etc.) with the corresponding information terminal 10.

本実施形態では、第1幹線61、第2幹線62、分岐線63、及び接続線64は、いずれもツイストペア線である。つまり、実際には、第1幹線61、第2幹線62、分岐線63、及び接続線64は2本の電線で構成されるが、図面上は1本の線で表している。第1幹線61、第2幹線62、分岐線63、及び接続線64の少なくとも1つはツイストペア線以外の電線であってもよい。 In this embodiment, the first trunk 61, the second trunk 62, the branch 63, and the connection 64 are all twisted pair wires. In other words, in reality, the first trunk 61, the second trunk 62, the branch 63, and the connection 64 are each composed of two electric wires, but are shown as a single line in the drawings. At least one of the first trunk 61, the second trunk 62, the branch 63, and the connection 64 may be an electric wire other than a twisted pair wire.

本実施形態に係る情報端末10は、住戸E2内の住人等(以下では、単に「ユーザ」と呼ぶこともある)の音声を取得し、取得した音声に対して音声認識を施す。図1に示すように、本実施形態の情報端末10は、音取得部13と、音声認識部182と、を備えている。音取得部13は、ユーザの音声を含む音を取得する。音取得部13は、マイクロホン131に入力された音声を取得する。音取得部13は、ここではマイクロホン131を備えている。マイクロホン131は、情報端末10自身に設けられていることを想定する。ただし、マイクロホン131は、情報端末10とは別の装置(例えば、スマートフォン、タブレット端末、ウェアラブル端末等の携帯端末)に設けられていて、情報端末10は、別の装置との通信を行ってユーザの音声を取得してもよい。音声認識部182は、マイクロホン131に入力された音声(音取得部13が取得した音)に対して音声認識を行う。音声認識部182は、マイクロホン131に入力された音声に対して、制御処理部183が行う制御に関する制御コマンドについての音声認識を行う。 The information terminal 10 according to this embodiment acquires the voice of a resident or the like in the dwelling unit E2 (hereinafter, sometimes simply referred to as a "user") and performs voice recognition on the acquired voice. As shown in FIG. 1, the information terminal 10 according to this embodiment includes a sound acquisition unit 13 and a voice recognition unit 182. The sound acquisition unit 13 acquires a sound including the user's voice. The sound acquisition unit 13 acquires a voice input to the microphone 131. The sound acquisition unit 13 includes a microphone 131 here. It is assumed that the microphone 131 is provided in the information terminal 10 itself. However, the microphone 131 may be provided in a device other than the information terminal 10 (for example, a mobile terminal such as a smartphone, a tablet terminal, or a wearable terminal), and the information terminal 10 may acquire the user's voice by communicating with the other device. The voice recognition unit 182 performs voice recognition on the voice input to the microphone 131 (sound acquired by the sound acquisition unit 13). The voice recognition unit 182 performs voice recognition on the voice input to the microphone 131 for control commands related to the control performed by the control processing unit 183.

また、情報端末10は、音声認識の結果に基づいて、インターホンシステム1の操作に関する制御を行う。すなわち、情報端末10は、制御処理部183を備えている。制御処理部183は、音声認識部182の音声認識結果に基づく制御を行う。 The information terminal 10 also controls the operation of the intercom system 1 based on the results of the voice recognition. That is, the information terminal 10 includes a control processing unit 183. The control processing unit 183 performs control based on the voice recognition results of the voice recognition unit 182.

要するに、情報端末10は、音声操作が可能に構成されている。例えば、情報端末10は、住戸E2内のユーザの音声に、共用玄関E1に設けられた玄関扉200(扉)の開閉に係る制御を行うための制御コマンドのキーワード(コマンドワード)が含まれていると判断(音声認識)すると、コマンドワードに応じた制御を行う。具体的には、情報端末10は、制御コマンドとして「解錠して」を、音声認識部182の音声認識により検出すると、玄関扉200(図2参照)を開くための電気錠201の解錠制御を行う。ここで、玄関扉200は、電気錠201(図2参照)で開閉されるように構成されている。 In short, the information terminal 10 is configured to be capable of voice operation. For example, when the information terminal 10 determines (by voice recognition) that the voice of the user in the dwelling unit E2 contains a keyword (command word) of a control command for controlling the opening and closing of the front door 200 (door) provided at the shared entrance E1, it performs control according to the command word. Specifically, when the information terminal 10 detects "unlock" as a control command through voice recognition by the voice recognition unit 182, it performs unlocking control of the electric lock 201 to open the front door 200 (see FIG. 2). Here, the front door 200 is configured to be opened and closed by the electric lock 201 (see FIG. 2).

このように、情報端末10が音声操作可能に構成されることで、ユーザの利便性の向上を図ることが可能となる。 In this way, by configuring the information terminal 10 to be voice operable, it is possible to improve user convenience.

ところで、音声操作可能に構成された情報端末10では、周囲の音環境、ユーザの声量及び声質等によっては、ユーザがキーワードを発声したとしても、音声認識部182がキーワードを正しく音声認識できない場合がある。その場合、ユーザが意図した制御が行われないことになり、ユーザの利便性が低下し得る。 However, in an information terminal 10 configured to be voice operable, depending on the surrounding sound environment, the volume and quality of the user's voice, etc., even if the user speaks a keyword, the voice recognition unit 182 may not be able to correctly recognize the keyword. In such cases, the control intended by the user will not be performed, which may reduce user convenience.

そこで、本実施形態の情報端末10は、報知部9を更に備えている。報知部9は、音声認識部182による音声認識の成否に応じた報知を行う。これにより、ユーザは、音声認識部182による音声認識が成功したか否かを、報知部9の報知によって知ることができる。例えば、報知部9の報知によって、キーワードが正しく音声認識されていないことが分かった場合、ユーザは、再度キーワードを発声するというような対処を行うことができる。これにより、ユーザの利便性が向上し得る。 Therefore, the information terminal 10 of this embodiment further includes a notification unit 9. The notification unit 9 issues a notification according to the success or failure of the voice recognition by the voice recognition unit 182. This allows the user to know whether the voice recognition by the voice recognition unit 182 was successful or not through the notification by the notification unit 9. For example, if the notification by the notification unit 9 indicates that a keyword has not been correctly voice recognized, the user can take measures such as speaking the keyword again. This can improve user convenience.

なお、本実施形態では一例として、情報端末10が住戸端末(インターホン親機)であることを想定する。ただし、これに限らず、情報端末10は、例えばロビーインターホン20、又は玄関子機40であってもよい。また、情報端末10は、例えばインターホンシステム1に含まれる管理人室親機であってもよい。 In this embodiment, as an example, it is assumed that the information terminal 10 is a residence terminal (intercom master unit). However, this is not limited to this, and the information terminal 10 may be, for example, a lobby intercom 20 or a front door sub-unit 40. Furthermore, the information terminal 10 may be, for example, a manager's room master unit included in the intercom system 1.

(2)詳細
(2-1)情報端末
情報端末10は、図1に示すように、第1通信部11、第2通信部12、音取得部13、操作部14、音出力部15、表示部16、記憶部17、処理部18及び第3通信部19を備える。情報端末10は、第1通信部11、第2通信部12、音取得部13、操作部14、音出力部15、表示部16、記憶部17、処理部18、及び第3通信部19を保持する筐体100(図3参照)を、更に備える。
(2) Details (2-1) Information Terminal As shown in Fig. 1, the information terminal 10 includes a first communication unit 11, a second communication unit 12, a sound acquisition unit 13, an operation unit 14, a sound output unit 15, a display unit 16, a storage unit 17, a processing unit 18, and a third communication unit 19. The information terminal 10 further includes a housing 100 (see Fig. 3) that holds the first communication unit 11, the second communication unit 12, the sound acquisition unit 13, the operation unit 14, the sound output unit 15, the display unit 16, the storage unit 17, the processing unit 18, and the third communication unit 19.

情報端末10は、例えばプロセッサ及びメモリを有するコンピュータシステムを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、コンピュータシステムが処理部18として機能する。プロセッサが実行するプログラムは、ここではコンピュータシステムのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。 The information terminal 10 has, for example, a computer system having a processor and a memory. The processor executes a program stored in the memory, causing the computer system to function as a processing unit 18. The program executed by the processor is pre-recorded in the memory of the computer system here, but may also be provided by being recorded on a non-transitory recording medium such as a memory card, or may be provided via a telecommunications line such as the Internet.

第1通信部11は、ロビーインターホン20(の通信部21)と通信するための通信インタフェースである。第1通信部11は、第2幹線62、分岐線63、及び分岐器50を介して制御装置30に接続されている。第1通信部11は、制御装置30を介して、ロビーインターホン20に対して音声信号、及び制御信号等を送信する。さらに、第1通信部11は、制御装置30を介して、ロビーインターホン20から呼出信号、音声信号、及び映像信号等を受信する。 The first communication unit 11 is a communication interface for communicating with the lobby intercom 20 (its communication unit 21). The first communication unit 11 is connected to the control device 30 via the second main line 62, the branch line 63, and the splitter 50. The first communication unit 11 transmits audio signals, control signals, etc. to the lobby intercom 20 via the control device 30. Furthermore, the first communication unit 11 receives call signals, audio signals, video signals, etc. from the lobby intercom 20 via the control device 30.

第2通信部12は、外部(ここでは、サーバ70)と通信するための通信インタフェースである。第2通信部12は、ネットワークNT1を介してサーバ70に接続されている。第2通信部12は、各種情報をサーバ70から受信してよい。また、制御装置30が、ゲートウェイ等を介して、ネットワークNT1及びサーバ70に接続され、情報端末10が、分岐線63、制御装置30を介してサーバ70に接続されてもよい。 The second communication unit 12 is a communication interface for communicating with the outside (here, the server 70). The second communication unit 12 is connected to the server 70 via the network NT1. The second communication unit 12 may receive various information from the server 70. In addition, the control device 30 may be connected to the network NT1 and the server 70 via a gateway or the like, and the information terminal 10 may be connected to the server 70 via the branch line 63 and the control device 30.

第3通信部19は、玄関子機40と通信するための通信インタフェースである。第2通信部12は、接続線64を介して玄関子機40に接続されている。第3通信部19は、玄関子機40に対して音声信号、及び制御信号等を送信し、玄関子機40から呼出信号、音声信号、及び映像信号等を受信する。 The third communication unit 19 is a communication interface for communicating with the front door unit 40. The second communication unit 12 is connected to the front door unit 40 via a connection line 64. The third communication unit 19 transmits audio signals, control signals, etc. to the front door unit 40, and receives call signals, audio signals, video signals, etc. from the front door unit 40.

情報端末10は、ロビーインターホン20及び玄関子機40との通信状態等に応じて、3つの動作状態を取り得る。本実施形態の情報端末10が取り得る動作状態は、呼出状態、通話状態、及び待機状態を含む。呼出状態は、ロビーインターホン20又は玄関子機40から呼出信号を受信して呼び出しを受けている状態である。通話状態は、ロビーインターホン20又は玄関子機40と通話可能に通信を確立している状態である。待機状態は、通話状態でもなく、呼出状態でもない状態である。 The information terminal 10 can be in three operating states depending on the communication state with the lobby intercom 20 and the front door unit 40. The operating states that the information terminal 10 in this embodiment can be in include a call state, a call state, and a standby state. The call state is a state in which a call signal is received from the lobby intercom 20 or the front door unit 40 and a call is being received. The call state is a state in which communication is established with the lobby intercom 20 or the front door unit 40 so that a call can be made. The standby state is a state in which the information terminal 10 is neither in a call state nor in a call state.

また、以下では、便宜上、情報端末10と通話を含む通信が可能な端末(ここではロビーインターホン20及び玄関子機40)を「他の端末」ともいう。なお、情報端末10と通話を含む通信が可能な端末(他の端末)は、管理人室親機であってもよい。 For convenience, in the following description, terminals capable of communicating with the information terminal 10, including making calls (here, the lobby intercom 20 and the entrance handset 40) are also referred to as "other terminals." Note that the terminals capable of communicating with the information terminal 10, including making calls (other terminals), may be the manager's room master unit.

音取得部13は、少なくともユーザの音声を含む音を取得し、取得した音に係る音情報(音データ)を処理部18に出力する。音取得部13は、マイクロホン131を備えている。音取得部13は、マイクロホン131に入力された、情報端末10の前方に位置するユーザの音声(音)を含む周囲の音をアナログの音信号(音情報)に変換して処理部18に出力する。 The sound acquisition unit 13 acquires sounds including at least the user's voice, and outputs sound information (sound data) related to the acquired sounds to the processing unit 18. The sound acquisition unit 13 includes a microphone 131. The sound acquisition unit 13 converts ambient sounds including the voice (sound) of a user located in front of the information terminal 10, which are input to the microphone 131, into analog sound signals (sound information), and outputs the analog sound signals to the processing unit 18.

音出力部15は、スピーカ151を備える。スピーカ151は、情報端末10がロビーインターホン20と通話可能な状態(通話状態)である場合には、ロビーインターホン20から送信された音声信号(音データ)に基づいた音(訪問者等の音声を含む)を出力する。スピーカ151は、情報端末10が玄関子機40と通話可能な状態(通話状態)である場合には、玄関子機40から送信された音声信号(音データ)に基づいた音(訪問者等の音声を含む)を出力する。また、スピーカ151は、情報端末10の状況に応じて、例えば記憶部17に記憶されている種々の音声メッセージや電子音を出力する。 The sound output unit 15 includes a speaker 151. When the information terminal 10 is in a state where it can communicate with the lobby intercom 20 (a call state), the speaker 151 outputs a sound (including the voice of a visitor, etc.) based on a voice signal (sound data) transmitted from the lobby intercom 20. When the information terminal 10 is in a state where it can communicate with the front door unit 40 (a call state), the speaker 151 outputs a sound (including the voice of a visitor, etc.) based on a voice signal (sound data) transmitted from the front door unit 40. In addition, the speaker 151 outputs various voice messages and electronic sounds stored in the memory unit 17, for example, depending on the status of the information terminal 10.

音取得部13は、マイクロホン131を備えている。ここでは、音取得部13は、マイクロホン131を2つ、第1マイクロホン1311と第2マイクロホン1312として備えている。 The sound acquisition unit 13 includes a microphone 131. Here, the sound acquisition unit 13 includes two microphones 131, a first microphone 1311 and a second microphone 1312.

図3に示すように、第1マイクロホン1311、及び第2マイクロホン1312は、情報端末10の筐体100の正面から見て左右の上部にそれぞれ配置されている。第1マイクロホン1311と第2マイクロホン1312とは、離れて配置されている。ここでは、第1マイクロホン1311は、第2マイクロホン1312よりも、スピーカ151から離れた位置にある。言い換えると、第1マイクロホン1311は、遠端のマイクである。 As shown in FIG. 3, the first microphone 1311 and the second microphone 1312 are respectively arranged at the upper left and right sides when viewed from the front of the housing 100 of the information terminal 10. The first microphone 1311 and the second microphone 1312 are arranged apart. Here, the first microphone 1311 is located farther from the speaker 151 than the second microphone 1312. In other words, the first microphone 1311 is the far-end microphone.

本実施形態の情報端末10は、例えば、通話用の音声データとして、他の端末(ロビーインターホン20、又は玄関子機40)との通話時に、第1マイクロホン1311に入力されたユーザの音声を利用する。第1マイクロホン1311に入力された音声は、主に、処理部18の音声処理部181において通話用の音声処理が実行されて、通話中の他の端末に送信される。つまり、第2マイクロホン1312ではなく、遠端の第1マイクロホン1311の音声を通話用の音声データに利用することで、スピーカ151から出力される(訪問者の)音声がマイクロホン131に回り込むことを抑制している。 In the present embodiment, the information terminal 10 uses the user's voice input to the first microphone 1311 as voice data for a call when making a call with another terminal (lobby intercom 20 or entrance unit 40), for example. The voice input to the first microphone 1311 is mainly subjected to voice processing for the call in the voice processing unit 181 of the processing unit 18, and is transmitted to the other terminal during the call. In other words, by using the voice of the far-end first microphone 1311 as the voice data for the call, rather than the second microphone 1312, the (visitor's) voice output from the speaker 151 is prevented from being heard by the microphone 131.

一方、本実施形態の情報端末10は、例えば、音声認識用の音声データとして、第1マイクロホン1311、及び第2マイクロホン1312に入力されたユーザの音声を利用する。特に、処理部18の音声処理部181は、2個のマイクロホン131を利用して、受音方向の指向性を高めるビームフォーミング(Beamforming)に関する処理を実行する機能を有している。処理部18は、第1マイクロホン1311、及び第2マイクロホン1312から入力されるユーザの音声から、ユーザが情報端末10に対して左右どちらの方向から発話しているかを推定し、その推定結果に基づき、特定の方向からの音声信号に対する感度を上げる処理を実行する。 On the other hand, the information terminal 10 of this embodiment uses, for example, the user's voice input to the first microphone 1311 and the second microphone 1312 as voice data for voice recognition. In particular, the voice processing unit 181 of the processing unit 18 has a function of using the two microphones 131 to execute processing related to beamforming, which enhances the directivity of the sound receiving direction. From the user's voice input from the first microphone 1311 and the second microphone 1312, the processing unit 18 estimates from which direction the user is speaking to the information terminal 10, either left or right, and executes processing to increase the sensitivity to voice signals from a specific direction based on the estimation result.

操作部14は、ユーザの操作を受け付けるように構成されている。図3に示すように、操作部14は、通話ボタン141と、終了ボタン142と、解錠ボタン143と、ホームボタン144と、を有している。 The operation unit 14 is configured to accept operations by the user. As shown in FIG. 3, the operation unit 14 has a call button 141, an end button 142, an unlock button 143, and a home button 144.

通話ボタン141は、他の端末(ロビーインターホン20、又は玄関子機40)からの呼び出しに対して、その端末との通話状態(訪問者等との通話)を開始するためのボタンである。例えば、第1通信部11が住人を呼び出すための呼出信号を受信している状態(呼出状態)で通話ボタン141が押されると、情報端末10と他の端末(ロビーインターホン20)との間で音声通話が可能になる。また、第3通信部19が住人を呼び出すための呼出信号を受信している状態で通話ボタン141が押されると、情報端末10と他の端末(玄関子機40)との間で音声通話が可能になる。 The call button 141 is a button for starting a call state (a call with a visitor, etc.) with another terminal (lobby intercom 20 or front door unit 40) in response to a call from that terminal. For example, when the call button 141 is pressed while the first communication unit 11 is receiving a call signal to call a resident (calling state), a voice call becomes possible between the information terminal 10 and the other terminal (lobby intercom 20). Also, when the call button 141 is pressed while the third communication unit 19 is receiving a call signal to call a resident, a voice call becomes possible between the information terminal 10 and the other terminal (front door unit 40).

終了ボタン142は、他の端末(ロビーインターホン20、又は玄関子機40)との通話(通話状態)を終了するためのボタンである。例えば、第1通信部11を介してロビーインターホン20と音声通話をしている状態(通話状態)において、終了ボタン142が押されると、ロビーインターホン20との音声通話が終了する。なお、通話状態においては、通話ボタン141が押されても、音声通話が終了する。 The end button 142 is a button for ending a call (call state) with another terminal (lobby intercom 20 or entrance handset 40). For example, when a voice call is being made with the lobby intercom 20 via the first communication unit 11 (call state), pressing the end button 142 ends the voice call with the lobby intercom 20. Note that in the call state, pressing the call button 141 also ends the voice call.

解錠ボタン143は、情報端末10が設置された施設(ここでは集合住宅5)で入退するための扉(ここでは共用玄関E1に設けられた玄関扉200;図2参照)に設けられた電気錠201を解錠するためのボタンである。例えば、第1通信部11を介してロビーインターホン20と音声通話をしている状態(通話状態)において、解錠ボタン143が押されると、情報端末10から制御装置30を介して電気錠201に解錠を行わせるための解錠信号が送信される。その結果、電気錠201が解錠されて、訪問者は、玄関扉200を開けて共用玄関E1より先に進入することができる。なお、解錠ボタン143が押されると、情報端末10は、電気錠201の解錠と合わせて、ロビーインターホン20との音声通話も終了する。 The unlock button 143 is a button for unlocking the electric lock 201 provided on a door (here, the front door 200 provided at the common front door E1; see FIG. 2) for entering and exiting the facility (here, the apartment building 5) where the information terminal 10 is installed. For example, when the unlock button 143 is pressed during a voice call with the lobby intercom 20 via the first communication unit 11 (call state), an unlock signal for unlocking the electric lock 201 is transmitted from the information terminal 10 via the control device 30. As a result, the electric lock 201 is unlocked, and the visitor can open the front door 200 and enter beyond the common front door E1. When the unlock button 143 is pressed, the information terminal 10 ends the voice call with the lobby intercom 20 in addition to unlocking the electric lock 201.

ホームボタン144は、表示部16に表示される所定のホーム画面を呼び出すためのボタンである。ホームボタン144が押されると、情報端末10は、表示部16の画面をホーム画面に変更するための制御を行う。 The home button 144 is a button for calling up a specific home screen that is displayed on the display unit 16. When the home button 144 is pressed, the information terminal 10 performs control to change the screen of the display unit 16 to the home screen.

本実施形態では一例として、通話ボタン141、終了ボタン142、解錠ボタン143、及びホームボタン144は、図3に示すように、情報端末10の筐体100の前面の表示部16の周囲に配置された、静電容量式のタッチセンサによって実現されている。すなわち、ユーザは、通話ボタン141、終了ボタン142、解錠ボタン143、又はホームボタン144に対して指先で軽くタッチするだけで、操作入力が受け付けられる。ただし、通話ボタン141、終了ボタン142、解錠ボタン143、及びホームボタン144は、タッチセンサによって実現されることに限定されず、これらの少なくとも一部が押し釦式のスイッチによって実現されてもよい。 In this embodiment, as an example, the call button 141, the end button 142, the unlock button 143, and the home button 144 are realized by a capacitance-type touch sensor arranged around the display unit 16 on the front side of the housing 100 of the information terminal 10, as shown in FIG. 3. That is, the user can input an operation by simply lightly touching the call button 141, the end button 142, the unlock button 143, or the home button 144 with the tip of a finger. However, the call button 141, the end button 142, the unlock button 143, and the home button 144 are not limited to being realized by a touch sensor, and at least some of these may be realized by a push button-type switch.

表示部16は、例えば、液晶ディスプレイである。表示部16には、種々の画面が表示可能である。例えば、表示部16は、映像を表示するように構成されている。表示部16は、情報端末10がロビーインターホン20と通話(通信)可能な状態である場合に、通信対象であるロビーインターホン20が撮像した映像を表示する。表示部16は、情報端末10が玄関子機40と通話(通信)可能な状態である場合に、通信対象である玄関子機40が撮像した映像を表示する。なお、情報端末10がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部16と操作部14とを兼ねてもよい。 The display unit 16 is, for example, a liquid crystal display. Various screens can be displayed on the display unit 16. For example, the display unit 16 is configured to display video. When the information terminal 10 is in a state where it can make a call (communicate) with the lobby intercom 20, the display unit 16 displays video captured by the lobby intercom 20, which is the communication target. When the information terminal 10 is in a state where it can make a call (communicate) with the front door sub-unit 40, the display unit 16 displays video captured by the front door sub-unit 40, which is the communication target. Note that, when the information terminal 10 is equipped with a touch panel display, the touch panel display may serve as both the display unit 16 and the operation unit 14.

記憶部17は、読み書き可能なメモリ(記憶装置)で構成されている。記憶部17は、例えばフラッシュメモリである。 The storage unit 17 is composed of a readable and writable memory (storage device). The storage unit 17 is, for example, a flash memory.

記憶部17は、例えば、音声認識で使用する辞書ファイルを記憶する。辞書ファイルは、第2通信部12を介してサーバ70からダウンロードされて記憶されてもよい。本実施形態では、辞書ファイルは、トリガー辞書D0とコマンド辞書D1とを含んでいる。なお、記憶部17は、辞書ファイル以外にも、表示部16に表示させる画面の情報、音声メッセージの情報、及び各種の設定情報等を記憶している。 The storage unit 17 stores, for example, a dictionary file used in voice recognition. The dictionary file may be downloaded from the server 70 via the second communication unit 12 and stored. In this embodiment, the dictionary file includes a trigger dictionary D0 and a command dictionary D1. In addition to the dictionary file, the storage unit 17 also stores information on the screen to be displayed on the display unit 16, information on voice messages, various setting information, and the like.

トリガー辞書D0には、トリガーワードが登録されている。トリガーワードとは、制御コマンドのコマンドワードの検出のトリガーとなる所定のキーワードである。トリガー辞書D0に登録されているトリガーワードは、予め決められている。例えば、情報端末10の製造時に、予め定められたトリガーワードが、記憶部17のトリガー辞書D0に登録されている。トリガーワードは、例えば、情報端末10の商品名、又はその略称等であり、比較的少ない文字数であることが望ましい。なお、情報端末10のユーザが、音取得部13、操作部14、表示部16等を用いて任意のトリガーワードをトリガー辞書D0に登録可能であってもよい。或いは、予め定められ第1記憶部171内に記憶されている複数のトリガーワード候補のうちの1つが、操作部14への操作等に応じて、トリガーワードとしてトリガー辞書D0に登録されてもよい。 Trigger words are registered in the trigger dictionary D0. A trigger word is a predetermined keyword that triggers the detection of a command word of a control command. The trigger words registered in the trigger dictionary D0 are predetermined. For example, when the information terminal 10 is manufactured, a predetermined trigger word is registered in the trigger dictionary D0 of the storage unit 17. The trigger word is, for example, the product name of the information terminal 10 or an abbreviation thereof, and is preferably a relatively small number of characters. Note that the user of the information terminal 10 may be able to register any trigger word in the trigger dictionary D0 using the sound acquisition unit 13, the operation unit 14, the display unit 16, etc. Alternatively, one of a plurality of trigger word candidates that are predetermined and stored in the first storage unit 171 may be registered in the trigger dictionary D0 as a trigger word in response to an operation on the operation unit 14, etc.

コマンド辞書D1には、複数種類の制御コマンドのコマンドワードが登録されている。複数種類の制御コマンドは、情報端末10及び情報端末10に接続された1以上の機器のうちの少なくとも一つを制御するためのコマンドである。ここで、情報端末10は、例えば、住戸E2内に設置されているHEMS(Home Energy Management System)のコントローラと通信可能に接続されており、HEMSのコントローラは、1以上の電気機器(エアコン、照明装置、空気清浄機、レンジフード等)を制御可能に接続されている。「情報端末10に接続された1以上の機器」は、例えば、HEMSのコントローラが制御可能な1以上の電気機器を含み得る。情報端末10は、情報端末10に接続された機器の制御に関する制御コマンドを音声入力で受け付けると、例えば、HEMSのコントローラを介して、対応する電気機器を制御する。 In the command dictionary D1, command words of multiple types of control commands are registered. The multiple types of control commands are commands for controlling at least one of the information terminal 10 and one or more devices connected to the information terminal 10. Here, the information terminal 10 is connected to, for example, a controller of a HEMS (Home Energy Management System) installed in the dwelling unit E2 so as to be able to communicate with the controller, and the HEMS controller is connected to be able to control one or more electrical devices (air conditioner, lighting device, air purifier, range hood, etc.). The "one or more devices connected to the information terminal 10" may include, for example, one or more electrical devices that can be controlled by the HEMS controller. When the information terminal 10 receives a control command related to the control of the device connected to the information terminal 10 by voice input, it controls the corresponding electrical device, for example, via the HEMS controller.

情報端末10を制御するための制御コマンドのコマンドワードとしては、例えば、他の端末(ロビーインターホン20又は玄関子機40)からの呼び出しに対して、この端末との通話状態(訪問者等との通話)を開始するための「応答して」とのコマンドワード、玄関扉200の電気錠201の解錠を行うための「解錠して」とのコマンドワード、他の端末との通話状態を終了するための「終了して」とのコマンドワード等がある。情報端末10に接続された1以上の機器を制御するための制御コマンドのコマンドワードとしては、例えば、制御対象の機器の電源をオンするための「機器名をつけて(例えば、エアコンをつけて)」、制御対象の機器の電源をオフするための「機器名を消して(例えば、エアコンを消して)」等がある。 Command words of the control commands for controlling the information terminal 10 include, for example, the command word "answer" for starting a call with this terminal (a call with a visitor, etc.) in response to a call from another terminal (lobby intercom 20 or front door unit 40), the command word "unlock" for unlocking the electric lock 201 of the front door 200, and the command word "end" for ending a call with another terminal. Command words of the control commands for controlling one or more devices connected to the information terminal 10 include, for example, "turn on the device name (e.g., turn on the air conditioner)" for turning on the power of the device to be controlled, and "turn off the device name (e.g., turn off the air conditioner)" for turning off the power of the device to be controlled.

処理部18は、図1に示すように、音声処理部181、音声認識部182、制御処理部183、表示処理部184、通話処理部185、報知処理部186及び提示処理部187を備えている。 As shown in FIG. 1, the processing unit 18 includes a voice processing unit 181, a voice recognition unit 182, a control processing unit 183, a display processing unit 184, a call processing unit 185, a notification processing unit 186, and a presentation processing unit 187.

音声処理部181は、第1マイクロホン1311から入力されて音取得部13が出力したアナログの音データを音声通話用に取得し、デジタルの音信号に変換する。また、音声処理部181は、第1マイクロホン1311から入力されて音取得部13が出力した音データに対して、フィルタリング処理等を行うように構成されている。音声処理部181は、例えばエコーキャンセラ及び/又はエコーサプレッサを含む。エコーキャンセラ及びエコーサプレッサは、マイクロホン131から出力された音データに対してエコー成分の抑制又は除去を行う。また、音声処理部181は、第1マイクロホン1311及び第2マイクロホン1312から入力されて音取得部13が出力した音データを音声識別用に取得し、上述したビームフォーミング処理を行うように構成されている。 The audio processing unit 181 acquires analog sound data input from the first microphone 1311 and output by the sound acquisition unit 13 for voice communication, and converts it into a digital sound signal. The audio processing unit 181 is also configured to perform filtering processing or the like on the sound data input from the first microphone 1311 and output by the sound acquisition unit 13. The audio processing unit 181 includes, for example, an echo canceller and/or an echo suppressor. The echo canceller and the echo suppressor suppress or remove echo components from the sound data output from the microphone 131. The audio processing unit 181 is also configured to acquire sound data input from the first microphone 1311 and the second microphone 1312 and output by the sound acquisition unit 13 for voice recognition, and perform the above-mentioned beamforming processing.

音声認識部182は、マイクロホン131(本実施形態では、第1マイクロホン1311及び第2マイクロホン1312)に入力された音声に対して、音声認識を行う。言い換えると、音声認識部182は、音取得部13が取得した音声に対して音声認識処理を行う。音声認識部182は、音声処理部181が処理した音に対して、記憶部17が記憶している辞書ファイル(トリガー辞書D0、コマンド辞書D1)を用いた音声認識処理を行う。 The voice recognition unit 182 performs voice recognition on the voice input to the microphone 131 (in this embodiment, the first microphone 1311 and the second microphone 1312). In other words, the voice recognition unit 182 performs voice recognition processing on the voice acquired by the sound acquisition unit 13. The voice recognition unit 182 performs voice recognition processing on the sound processed by the voice processing unit 181 using the dictionary files (trigger dictionary D0, command dictionary D1) stored in the storage unit 17.

図1に示すように、音声認識部182は、第1音声認識部1821と第2音声認識部1822とを備える。 As shown in FIG. 1, the voice recognition unit 182 includes a first voice recognition unit 1821 and a second voice recognition unit 1822.

第1音声認識部1821は、マイクロホン131に入力された音声に対して、トリガーワードが含まれているか否かについての音声認識(以下、「トリガー音声認識」ともいう)を行う。第1音声認識部1821は、記憶部17に記憶されているトリガー辞書D0を用いて、トリガー音声認識を行う。第1音声認識部1821は、トリガー音声認識により、音声処理部181が処理した音を監視し、トリガーワードが含まれるか否かを判断する。 The first voice recognition unit 1821 performs voice recognition (hereinafter also referred to as "trigger voice recognition") on the voice input to the microphone 131 to determine whether or not a trigger word is included. The first voice recognition unit 1821 performs trigger voice recognition using a trigger dictionary D0 stored in the storage unit 17. The first voice recognition unit 1821 monitors the sound processed by the voice processing unit 181 through trigger voice recognition, and determines whether or not a trigger word is included.

第2音声認識部1822は、マイクロホン131に入力された音声に対して、制御コマンドについての音声認識(以下、「コマンド音声認識」ともいう)を行う。第2音声認識部1822は、記憶部17に記憶されているコマンド辞書D1を用いて、コマンド音声認識を行う。第2音声認識部1822は、コマンド音声認識により、音声処理部181が処理した音を監視し、いずれかのコマンドワードが含まれるか否かを判断する。第2音声認識部1822は、マイクロホン131に入力された音声に対して、制御コマンドのコマンドワードについての音声認識が成功した場合に(コマンドワードの検出)、そのコマンドワード(制御コマンド)を、制御処理部183に出力する。 The second voice recognition unit 1822 performs voice recognition (hereinafter also referred to as "command voice recognition") for control commands for the voice input to the microphone 131. The second voice recognition unit 1822 performs command voice recognition using the command dictionary D1 stored in the storage unit 17. The second voice recognition unit 1822 monitors the sound processed by the voice processing unit 181 by command voice recognition and determines whether any command word is included. When the second voice recognition unit 1822 succeeds in voice recognition of a command word of a control command for the voice input to the microphone 131 (detection of a command word), it outputs the command word (control command) to the control processing unit 183.

コマンド辞書D1に登録されている複数種類の制御コマンドのコマンドワードの各々には、有効となる情報端末10の動作状態が設定されている。例えば、「応答して」とのコマンドワードは、他の端末から呼び出しを受けている呼出状態においてのみ、有効となる(つまり、そのコマンドワードによる制御要求を受け付け可能となる)。以下の表1に、具体的な制御コマンド(コマンドワード)と、有効な動作状態との一覧を示す。制御コマンドは、制御イベント(操作イベント)に対応付けされて記憶部17に記憶されている。 For each of the command words of the multiple types of control commands registered in the command dictionary D1, an operating state of the information terminal 10 in which it is valid is set. For example, the command word "respond" is only valid in a call state in which a call is being received from another terminal (i.e., a control request by that command word can be accepted). Table 1 below shows a list of specific control commands (command words) and valid operating states. The control commands are associated with control events (operation events) and stored in the memory unit 17.

Figure 2024072184000002
Figure 2024072184000002

ここで、表1の「トリガーワード要否」とは、各コマンドワードの音声認識を行う場合に、事前にトリガーワードの音声認識が必要であるか否かを示す。具体的には、トリガーワード要否の欄における「要」は、トリガーワードの音声認識とコマンドワードの音声認識とが連続して成功した場合にのみ、コマンドワードの音声認識が成功したとみなされることを示す。「トリガーワードの音声認識とコマンドワードの音声認識とが連続して成功する」とは、例えば、トリガーワードの音声認識が成功してから所定の待受時間内にコマンドワード音声認識が成功することを意味する。待受時間の長さは、例えば予め設定されている。待受時間の長さは、例えば3秒であるが、これに限られない。情報端末10は、ユーザが待受時間の長さを設定可能に構成されていてもよい。また、表1のトリガーワード要否の欄における「否」は、トリガーワードなしでコマンドワードのみの音声認識が成功した場合、及びトリガーワードの音声認識とコマンドワードの音声認識とが連続して成功した場合の両方で、コマンドワードの音声認識が成功したとみなされることを示す。 Here, "Trigger word required" in Table 1 indicates whether or not voice recognition of the trigger word is required in advance when performing voice recognition of each command word. Specifically, "required" in the "trigger word required" column indicates that the voice recognition of the command word is considered successful only when the voice recognition of the trigger word and the voice recognition of the command word are successively successful. "The voice recognition of the trigger word and the voice recognition of the command word are successively successful" means, for example, that the voice recognition of the command word is successful within a predetermined standby time after the voice recognition of the trigger word is successful. The length of the standby time is, for example, set in advance. The length of the standby time is, for example, 3 seconds, but is not limited to this. The information terminal 10 may be configured so that the user can set the length of the standby time. Also, "no" in the "trigger word required" column in Table 1 indicates that the voice recognition of the command word is considered successful both when the voice recognition of only the command word without the trigger word is successful and when the voice recognition of the trigger word and the voice recognition of the command word are successively successful.

また、表1の操作イベントの欄の「防犯セット」とは、例えば、情報端末10が有している不審者の侵入を検知した場合に警報を実行するための防犯機能を利用して、防犯モードをオンにするイベントを意味する。また、表1の操作イベントの欄の「ドアモニタ確認」とは、例えば、玄関子機40のドアモニタ(撮像部)で撮像されたリアルタイムの映像を情報端末10の表示部16の画面に表示させるイベントを意味する。また、表1の操作イベントの欄の「録画再生」とは、例えば、ロビーインターホン20にて情報端末10の呼び出しを行った訪問者の、撮像部27で撮像された映像の録画と、訪問者から用件を伝えるための録音メッセージとを再生するイベントを意味する。また、表1の操作イベントの欄の「動作終了」とは、例えば、ドアモニタ確認中又は録画再生中において、ドアモニタの表示又は録画の再生を終了させるイベントを意味する。 In addition, the "security set" in the operation event column of Table 1 means, for example, an event in which the security mode is turned on by using the security function of the information terminal 10 for issuing an alarm when a suspicious person's intrusion is detected. In addition, the "door monitor check" in the operation event column of Table 1 means, for example, an event in which real-time video captured by the door monitor (imaging unit) of the entrance slave unit 40 is displayed on the screen of the display unit 16 of the information terminal 10. In addition, the "recording playback" in the operation event column of Table 1 means, for example, an event in which a video captured by the imaging unit 27 of a visitor who has called the information terminal 10 through the lobby intercom 20 and a recorded message from the visitor to convey the purpose of the visitor are played back. In addition, the "operation end" in the operation event column of Table 1 means, for example, an event in which the display of the door monitor or the playback of the recording is ended during door monitor check or recording playback.

また、表1の「シーン制御」とは、各操作イベント(帰宅時、外出時、起床時等)に対応付けられた1以上の機器の制御を、まとめて実行することを意味する。例えば、操作イベント「帰宅時の操作」に対応付けられた「ただいま」とのコマンドワード(制御コマンド)が音声認識されると、「帰宅時の操作」に対応付けられた1以上の機器の制御、例えば、照明装置を点灯させる制御と、エアコンをオンする制御と、電気錠を施錠する制御と、が実行される。シーン制御における各操作イベントに対応する制御対象の機器及びその制御内容は、情報端末10を用いてユーザが設定可能であってよい。 In addition, "scene control" in Table 1 means that one or more devices associated with each operation event (when coming home, when going out, when waking up, etc.) are controlled together. For example, when the command word (control command) "I'm home" associated with the operation event "operation when coming home" is voice recognized, one or more devices associated with "operation when coming home", such as control to turn on the lighting device, control to turn on the air conditioner, and control to lock the electronic lock, are controlled. The devices to be controlled and the control contents corresponding to each operation event in scene control may be set by the user using the information terminal 10.

表1から、通話状態及び呼出状態で有効となるコマンドワードの数は、待機状態で有効となるコマンドワードの数よりも少ないことわかる。また、表1から、通話状態及び呼出状態で有効となるコマンドワードに関連する操作イベントは、インターホン制御関連に絞られ、特にその中でも「通話」に関連性の高いイベントに絞られていることがわかる。 From Table 1, we can see that the number of command words that are valid in the talking and ringing states is less than the number of command words that are valid in the standby state. Also, from Table 1, we can see that the operation events related to command words that are valid in the talking and ringing states are limited to those related to intercom control, and even more so, to events that are highly related to "talk".

また、表1から、通話状態では、トリガーワードなしでコマンドワードのみで、コマンドワードの音声認識が成功したとみなされることがわかる。これにより、訪問者との通話中に、ユーザがトリガーワードを発声することによりトリガーワードが訪問者に漏洩する可能性を、低減することができる。なお、情報端末10の一変形例において、呼出状態でも、トリガーワードなしでコマンドワードのみの音声認識が成功した場合でも、コマンドワード(例えば、表1の「応答して」)の音声認識が成功したとみなしてもよい。この場合、訪問者からの呼び出し中(例えば、住戸E2の玄関先に訪問者がいる場合)に、ユーザがトリガーワードを発声することによりトリガーワードが訪問者に漏洩する可能性を、低減することができる。 Also, from Table 1, it can be seen that in a call state, voice recognition of the command word is considered to be successful with only the command word, without the trigger word. This reduces the possibility that the trigger word will be leaked to a visitor if the user utters the trigger word during a call with the visitor. Note that in one variant of the information terminal 10, even in a call state, if voice recognition of only the command word is successful without the trigger word, voice recognition of the command word (e.g., "answer" in Table 1) may be considered to be successful. In this case, it is possible to reduce the possibility that the trigger word will be leaked to a visitor if the user utters the trigger word during a call from the visitor (e.g., when there is a visitor at the front door of dwelling unit E2).

制御処理部183は、音声認識部182の音声認識結果に基づく制御を行う。制御処理部183は、第2音声認識部1822で音声認識された制御コマンドに基づく制御を行う。制御処理部183は、第2音声認識部1822で音声認識されたコマンドワードの制御コマンドに基づいて、制御コマンドに応じた制御を行う。例えば、情報端末10がロビーインターホン20から呼び出しを受けている呼出状態又はロビーインターホン20との通話中である通話状態において、第2音声認識部1822が「解錠して」とのコマンドワードを音声認識した場合、制御処理部183は、集合住宅5の共用玄関(ロビー)E1に設けられた玄関扉200の電気錠201を解錠するための制御(以下、「解錠制御」ともいう)を行う。また、ロビーインターホン20からの呼出状態において、第2音声認識部1822が「応答して」とのコマンドワードを音声認識した場合、制御処理部183は、呼出元のロビーインターホン20との通話(訪問者等との通話)を開始するための制御(以下、「通話制御」ともいう)を行う。 The control processing unit 183 performs control based on the voice recognition result of the voice recognition unit 182. The control processing unit 183 performs control based on the control command voice-recognized by the second voice recognition unit 1822. The control processing unit 183 performs control according to the control command based on the control command of the command word voice-recognized by the second voice recognition unit 1822. For example, when the second voice recognition unit 1822 voice-recognizes the command word "unlock" in a call state in which the information terminal 10 is receiving a call from the lobby intercom 20 or in a call state in which the information terminal 10 is in a call with the lobby intercom 20, the control processing unit 183 performs control (hereinafter also referred to as "unlock control") to unlock the electric lock 201 of the entrance door 200 provided at the shared entrance (lobby) E1 of the apartment building 5. In addition, when the second voice recognition unit 1822 recognizes the command word "answer" during a call from the lobby intercom 20, the control processing unit 183 performs control (hereinafter also referred to as "call control") to start a call with the lobby intercom 20 that is the call source (a call with a visitor, etc.).

また、制御処理部183は、操作部14への操作に応じた制御を行う。例えば、呼出状態において通話ボタン141が押されると、制御処理部183は、通話制御を行う。また、呼出状態又は通話状態において解錠ボタン143が押されると、制御処理部183は解錠制御を行う。なお、操作部14の各ボタンには、情報端末10の動作状態に応じて有効か無効かが設定されている。例えば、通話ボタン141は、呼出状態及び通話状態において有効に設定され、その他の動作状態(待機状態)において無効に設定されている。また、解錠ボタン143は、呼出状態及び通話状態において有効に設定され、その他の動作状態(待機状態)において無効に設定されている。 The control processing unit 183 also performs control in response to operations on the operation unit 14. For example, when the call button 141 is pressed in the call state, the control processing unit 183 performs call control. When the unlock button 143 is pressed in the call state or call state, the control processing unit 183 performs unlock control. Each button on the operation unit 14 is set to be enabled or disabled depending on the operating state of the information terminal 10. For example, the call button 141 is set to be enabled in the call state and call state, and is set to be disabled in other operating states (standby states). The unlock button 143 is set to be enabled in the call state and call state, and is set to be disabled in other operating states (standby states).

情報端末10では、操作部14の複数のボタンのうちの少なくとも一つ、ここでは通話ボタン141と解錠ボタン143とは、有効である場合(つまり、対応するボタンへのタッチ操作により制御要求を受け付け可能な状態である場合)に発光(点灯又は点滅)することで、そのボタンが有効であることをユーザに通知する。例えば、呼出状態では、図4に示すように、通話ボタン141と解錠ボタン143とが発光する。また、通話状態では、解錠ボタン143が発光する。なお、図4~図9では、分かりやすさのために、通話ボタン141、解錠ボタン143、ホームボタン144のうち、発光しているボタンにドットハッチングを付している。 In the information terminal 10, at least one of the multiple buttons on the operation unit 14, here the call button 141 and the unlock button 143, emits light (either on or blinks) when it is valid (i.e., when the corresponding button is in a state where it can accept a control request by touching the button), thereby notifying the user that the button is valid. For example, in the calling state, as shown in FIG. 4, the call button 141 and the unlock button 143 emit light. Also, in the calling state, the unlock button 143 emits light. Note that in FIG. 4 to FIG. 9, for ease of understanding, the illuminated buttons among the call button 141, the unlock button 143, and the home button 144 are indicated with dot hatching.

表示処理部184は、表示部16に種々の画面を表示させる。例えば、表示処理部184は、ホーム画面、設定画面、及び各動作状態に応じた画面を表示させるための処理を行う。例えば、表示処理部184は、ホームボタン144が押されると、種々の動作制御を要求するためのメニューが表示されたホーム画面を表示部16に表示させる。また、他の端末から呼出信号を受けている呼出状態では、表示処理部184は、着信状態(呼出状態)であることを示す着信画面を表示部16に表示させる(図4参照)。 The display processing unit 184 causes the display unit 16 to display various screens. For example, the display processing unit 184 performs processing to display a home screen, a setting screen, and a screen corresponding to each operation state. For example, when the home button 144 is pressed, the display processing unit 184 causes the display unit 16 to display a home screen displaying a menu for requesting various operation controls. Also, in a calling state in which a call signal is being received from another terminal, the display processing unit 184 causes the display unit 16 to display an incoming call screen indicating that the device is in an incoming call state (calling state) (see FIG. 4).

また、表示処理部184は、通信対象(通話中、或いは呼出元)である他の端末(ロビーインターホン20、玄関子機40)が撮像した画像を表示部16に表示させるための処理を行う。 The display processing unit 184 also performs processing to display on the display unit 16 images captured by other terminals (lobby intercom 20, entrance handset 40) that are the communication targets (active on a call or the call originator).

また、表示処理部184は、マイクロホン131に入力された音声を、表示部16にテキスト表示させる。表示処理部184は、マイクロホン131に入力された音声の音データを、自動音声認識機能を利用してテキストデータに変換し、表示部16に表示させる。表示処理部184は、マイクロホン131に入力された全ての音声をテキスト表示させてもよいし、特定の音声のみをテキスト表示させてもよい。例えば、表示処理部184は、第1音声認識部1821にてトリガーワードを音声認識した後であってコマンドワードの音声入力を待ち受ける時間(待受時間)に音声認識された音声を、テキスト表示させてもよい。すなわち、表示処理部184は、マイクロホン131に入力された音声のうち、音声認識部182によりトリガーワードが音声認識された後の音声をテキスト表示させてもよい。発声した音声がテキスト表示されることで、ユーザに、自身が発声したキーワードが正しく音声認識されていることを確認させることが可能となり、ユーザの利便性が向上し得る。 The display processing unit 184 also displays the voice input to the microphone 131 as text on the display unit 16. The display processing unit 184 converts the sound data of the voice input to the microphone 131 into text data using an automatic voice recognition function and displays the text data on the display unit 16. The display processing unit 184 may display all voices input to the microphone 131 as text, or may display only specific voices as text. For example, the display processing unit 184 may display, as text, the voice that is voice-recognized after the first voice recognition unit 1821 recognizes the trigger word and during the time (standby time) during which the voice input of the command word is awaited. That is, the display processing unit 184 may display, as text, the voice that is input to the microphone 131 and after the trigger word is voice-recognized by the voice recognition unit 182. By displaying the voice as text, the user can confirm that the keyword that he or she spoke has been correctly voice-recognized, which may improve the user's convenience.

通話処理部185は、他の端末との通話処理を行う。 The call processing unit 185 handles calls with other terminals.

通話処理部185は、音取得部13(マイクロホン131)が取得した音に係る音データ(音情報)を取得する。通話処理部185は、第1マイクロホン1311に入力された音声又は第2マイクロホン1312に入力された音声のうちの一方のみを用いて、通話処理を行う。通話処理部185は、スピーカ151との距離が相対的に大きな第1マイクロホン1311に入力された音声のみを用いて、通話処理を行う。これにより、スピーカ151から出力される(訪問者の)音声をマイクロホン131が拾うことで生じるハウリングを、抑制することが可能となる。 The call processing unit 185 acquires sound data (sound information) related to the sound acquired by the sound acquisition unit 13 (microphone 131). The call processing unit 185 performs call processing using only one of the voice input to the first microphone 1311 or the voice input to the second microphone 1312. The call processing unit 185 performs call processing using only the voice input to the first microphone 1311, which is relatively far from the speaker 151. This makes it possible to suppress howling that occurs when the microphone 131 picks up the voice (of a visitor) output from the speaker 151.

通話処理部185は、音取得部13から取得した音データ(音情報)を、通話先の人が操作する装置に出力する。通話処理部185は、音データを、第1通信部11又は第3通信部19を介して通話中の他の端末(ロビーインターホン20又は玄関子機40)に送信する。例えば、情報端末10がロビーインターホン20と通話中の場合には、通話処理部185は、音データの信号(音声信号)を、第1通信部11を介してロビーインターホン20に送信する。 The call processing unit 185 outputs the sound data (sound information) acquired from the sound acquisition unit 13 to a device operated by the person at the other end of the call. The call processing unit 185 transmits the sound data to another terminal (lobby intercom 20 or front door unit 40) that is currently in a call via the first communication unit 11 or the third communication unit 19. For example, when the information terminal 10 is currently in a call with the lobby intercom 20, the call processing unit 185 transmits a signal of the sound data (audio signal) to the lobby intercom 20 via the first communication unit 11.

また、通話処理部185は、通話中の他の端末(ロビーインターホン20又は玄関子機40)から、第1通信部11又は第3通信部19を介して音データの信号(音声信号)を取得する。通話処理部185は、通話中の他の端末から取得した音データ(音情報)を音出力部15に送信し、スピーカ151から音声として出力させる。 The call processing unit 185 also acquires a sound data signal (audio signal) from another terminal (lobby intercom 20 or front door unit 40) during a call via the first communication unit 11 or the third communication unit 19. The call processing unit 185 transmits the sound data (sound information) acquired from the other terminal during a call to the sound output unit 15, and outputs it as sound from the speaker 151.

報知処理部186は、音声認識部182による音声認識の成否に応じた報知を行うための制御を行う。 The notification processing unit 186 performs control to issue notifications depending on the success or failure of voice recognition by the voice recognition unit 182.

報知処理部186は、音声認識部182による音声認識が成功した場合に、情報端末10の要素を制御して報知を行わせる。また、報知処理部186は、音声認識部182による音声認識が失敗した場合に、情報端末10の要素を制御して報知を行わせる。更に、報知処理部186は、音声認識部182の音声認識結果に基づく制御が失敗した場合に、情報端末10の要素を制御して報知を行わせる。すなわち、情報端末10は、音声認識部182による音声認識の成否に応じた報知を行う報知部9(報知処理部186、及び報知処理部186の制御対象)を備えている。本実施形態の情報端末10では、報知処理部186の制御対象は、表示部16とスピーカ151とを含む。 When the voice recognition by the voice recognition unit 182 is successful, the notification processing unit 186 controls the elements of the information terminal 10 to issue a notification. Furthermore, when the voice recognition by the voice recognition unit 182 fails, the notification processing unit 186 controls the elements of the information terminal 10 to issue a notification. Furthermore, when the control based on the voice recognition result of the voice recognition unit 182 fails, the notification processing unit 186 controls the elements of the information terminal 10 to issue a notification. That is, the information terminal 10 includes a notification unit 9 (the notification processing unit 186 and the control target of the notification processing unit 186) that issues a notification according to the success or failure of the voice recognition by the voice recognition unit 182. In the information terminal 10 of this embodiment, the control target of the notification processing unit 186 includes the display unit 16 and the speaker 151.

報知処理部186は、マイクロホン131に入力された音声に対して、音声認識部182(第1音声認識部1821)によってトリガーワードについての音声認識が成功した場合に、報知を行わせる。より詳細には、報知処理部186は、情報端末10の待機状態において、音声認識部182(第1音声認識部1821)がトリガーワードを音声認識した場合、図5に示すように、ホームボタン144を発光させる。 The notification processing unit 186 issues a notification when the voice recognition unit 182 (first voice recognition unit 1821) has successfully recognized a trigger word in response to a voice input to the microphone 131. More specifically, when the voice recognition unit 182 (first voice recognition unit 1821) recognizes a trigger word in a standby state of the information terminal 10, the notification processing unit 186 causes the home button 144 to emit light as shown in FIG. 5.

例えば、報知処理部186は、音声認識部182がトリガーワードを音声認識した場合、コマンドワードを待ち受けるための待受時間の間ずっと(例えば、3秒間)、ホームボタン144を点灯させる。ただし、これに限らず、音声認識部182がトリガーワードを音声認識した場合、報知処理部186は、ホームボタン144を点滅(例えば、待受時間である3秒間に短時間だけ3回点灯)させてもよいし、ホームボタン144を1度だけ短時間(3秒未満)点灯させてもよい。また、報知処理部186は、待受時間であっても第2音声認識部1822にてコマンドワードが音声認識されると、ホームボタン144を消灯させてもよい。 For example, when the voice recognition unit 182 recognizes a trigger word, the notification processing unit 186 lights up the home button 144 for the entire standby time (e.g., 3 seconds) for waiting for a command word. However, this is not limited to the above, and when the voice recognition unit 182 recognizes a trigger word, the notification processing unit 186 may blink the home button 144 (e.g., light up three times for a short time during the standby time of 3 seconds), or light up the home button 144 once for a short time (less than 3 seconds). Furthermore, the notification processing unit 186 may turn off the home button 144 when the second voice recognition unit 1822 recognizes a command word, even during standby time.

また、報知処理部186は、情報端末10の通話状態及び/又は呼出状態においても、音声認識部182(第1音声認識部1821)がトリガーワードを音声認識した場合、ホームボタン144を発光させてもよい。例えば、呼出状態においてトリガーワードが音声認識されると、通話ボタン141及び解錠ボタン143に加えて、ホームボタン144が発光する(図6参照)。また、通話状態においてトリガーワードが音声認識されると、解錠ボタン143に加えて、ホームボタン144が発光する。 The notification processing unit 186 may also illuminate the home button 144 when the voice recognition unit 182 (first voice recognition unit 1821) recognizes a trigger word when the information terminal 10 is in a call state and/or a call state. For example, when a trigger word is voice recognized in a call state, the home button 144 illuminates in addition to the call button 141 and the unlock button 143 (see FIG. 6). When a trigger word is voice recognized in a call state, the home button 144 illuminates in addition to the unlock button 143.

このように、本実施形態の情報端末10では、報知部9(報知処理部186及びホームボタン144)は、マイクロホン131に入力された音声に対して、音声認識部182によってトリガーワードについての音声認識が成功した場合に、報知を行う。トリガーワードについての音声認識が成功した場合に報知部9が報知を行うことで、ユーザは、自身が発声したトリガーワードが情報端末10によって正しく音声認識されたことを知ることができ、次にコマンドワードを発声すればよいことを確認できる。逆に、ユーザがトリガーワードを発声したにもかかわらず報知部9による報知が行われない(ホームボタン144が発光しない)場合、ユーザは、自身が発声したトリガーワードが情報端末10によって正しく音声認識されなかったことを知ることができ、再度トリガーワードを発声する等の対処を行えばよいことを確認できる。これにより、ユーザの利便性が向上し得る。 In this way, in the information terminal 10 of this embodiment, the notification unit 9 (notification processing unit 186 and home button 144) issues a notification when the voice recognition unit 182 has successfully recognized the voice of the trigger word for the voice input to the microphone 131. By the notification unit 9 issuing a notification when the voice recognition of the trigger word is successful, the user can know that the trigger word he or she spoke has been correctly voice-recognized by the information terminal 10, and can confirm that he or she should next speak a command word. Conversely, when the notification unit 9 does not issue a notification (the home button 144 does not emit light) even though the user has spoken the trigger word, the user can know that the trigger word he or she spoke was not correctly voice-recognized by the information terminal 10, and can confirm that he or she should take measures, such as speaking the trigger word again. This can improve user convenience.

また、本実施形態の情報端末10では、トリガーワードについての音声認識の成功に対する報知は、表示による報知を含む。トリガーワードが発声された場合、次に、ユーザによってコマンドワードの発声が行われることが想定される。仮に、トリガーワードについての音声認識の成功を音(報知音)により報知した場合、その報知音とユーザの声とが干渉し合う可能性があり、コマンドワードの正確な音声認識が難しくなる可能性がある。これに対し、本実施形態の情報端末10では、トリガーワードについての音声認識の成功を表示により報知することで、報知音とユーザが発声するコマンドワードとが干渉することを防止することが可能となり、制御コマンドの音声認識の精度の向上を図ることが可能となる。 In addition, in the information terminal 10 of this embodiment, the notification of successful voice recognition of the trigger word includes notification by display. When the trigger word is spoken, it is assumed that the user will then speak the command word. If the successful voice recognition of the trigger word were to be notified by sound (alert sound), the alert sound and the user's voice may interfere with each other, which may make accurate voice recognition of the command word difficult. In contrast, in the information terminal 10 of this embodiment, the successful voice recognition of the trigger word is notified by display, making it possible to prevent interference between the alert sound and the command word spoken by the user, and improving the accuracy of voice recognition of control commands.

また、本実施形態の情報端末10では、表示による報知は、表示灯(ホームボタン144)の点灯又は点滅を含む。これにより、トリガーワードについての音声認識の成功を、ユーザに把握させやすくなる。また、本実施形態の情報端末10では、表示灯(ホームボタン144)は、表示による報知以外の用途と兼用されている。これにより、情報端末10の構成の簡略化(筐体100の小サイズ化)を図ることが可能となる。 In addition, in the information terminal 10 of this embodiment, the display notification includes lighting or blinking of the indicator light (home button 144). This makes it easier for the user to understand the success of voice recognition for the trigger word. In addition, in the information terminal 10 of this embodiment, the indicator light (home button 144) is used for purposes other than display notification. This makes it possible to simplify the configuration of the information terminal 10 (reducing the size of the housing 100).

報知処理部186は、更に、マイクロホン131に入力された音声に対して、音声認識部182(第2音声認識部1822)によって制御コマンド(コマンドワード)を音声認識した場合に、報知を行わせる。 The notification processing unit 186 further issues a notification when the voice recognition unit 182 (second voice recognition unit 1822) recognizes a control command (command word) from the voice input to the microphone 131.

より詳細には、報知処理部186は、情報端末10の待機状態において、音声認識部182(第1音声認識部1821)がトリガーワードを音声認識した後の待受時間に音声認識部182(第2音声認識部1822)がコマンドワードを音声認識した場合、図7に示すように、スピーカ151から、制御コマンドに基づく制御内容を示す音声を出力させる。なお、図7では、例えば、住人が発話する「XXX、電気をつけて!」のうち、「XXX」が、トリガーワードに該当し、「XXX」に続く「電気をつけて!」が制御コマンドのコマンドワードに該当する。 More specifically, when the voice recognition unit 182 (second voice recognition unit 1822) recognizes a command word during the standby time after the voice recognition unit 182 (first voice recognition unit 1821) recognizes a trigger word while the information terminal 10 is in a standby state, the notification processing unit 186 outputs a voice indicating the control content based on the control command from the speaker 151 as shown in FIG. 7. Note that in FIG. 7, for example, in the phrase "XXX, turn on the light!" spoken by the resident, "XXX" corresponds to the trigger word, and "Turn on the light!" following "XXX" corresponds to the command word of the control command.

また、報知処理部186は、情報端末10の呼出状態において、音声認識部182(第1音声認識部1821)がトリガーワードを音声認識した後の待受時間に音声認識部182(第2音声認識部1822)が「応答して」とのコマンドワードを音声認識した場合、図8に示すように、スピーカ151から、制御コマンドに基づく制御内容を示す音声を出力させる。すなわち、呼出状態において、トリガーワード(ここでは「XXX」)及び他の端末との通話状態を開始するための「応答して」とのコマンドワードが音声認識部182によって音声認識されると、報知処理部186は、通話状態に切り替わることを示すメッセージを、スピーカ151から出力させる。なお、呼出状態から通話状態に切り替わるとき、表示処理部184は、表示部16に表示されている着信画面を通話画面Im0(図9参照)に変更させる。 In addition, when the voice recognition unit 182 (second voice recognition unit 1822) recognizes the command word "Answer" during the standby time after the voice recognition unit 182 (first voice recognition unit 1821) recognizes the trigger word in the call state of the information terminal 10, the notification processing unit 186 outputs a voice indicating the control content based on the control command from the speaker 151 as shown in FIG. 8. That is, when the voice recognition unit 182 recognizes the trigger word (here, "XXX") and the command word "Answer" for starting a call state with another terminal in the call state, the notification processing unit 186 outputs a message indicating that the state will be switched to a call state from the speaker 151. Note that when switching from the call state to the call state, the display processing unit 184 changes the incoming call screen displayed on the display unit 16 to the call screen Im0 (see FIG. 9).

このように、本実施形態の情報端末10では、報知部9(報知処理部186及びスピーカ151)は、マイクロホン131に入力された音声に対して、音声認識部182によって制御処理部183が行う制御に関する制御コマンドについての音声認識が成功した場合に、報知を行う。これにより、ユーザは、自身が発声したコマンドワードが情報端末10によって正しく音声認識されたことを知ることができ、ユーザの利便性が向上し得る。 In this way, in the information terminal 10 of this embodiment, the notification unit 9 (notification processing unit 186 and speaker 151) issues a notification when the voice recognition unit 182 has successfully recognized a control command related to control performed by the control processing unit 183 for the voice input to the microphone 131. This allows the user to know that the command word uttered by the user has been correctly voice recognized by the information terminal 10, which can improve user convenience.

また、本実施形態の情報端末10では、制御コマンド(コマンドワード)についての音声認識の成功に対する報知は、音による報知を含む。これにより、ユーザは、コマンドワードについての音声認識が成功したことを、音により確実に確認することができる。 In addition, in the information terminal 10 of this embodiment, the notification of successful voice recognition of a control command (command word) includes a notification by sound. This allows the user to reliably confirm through sound that voice recognition of the command word has been successful.

また、本実施形態の情報端末10では、音による報知は、制御コマンドに基づく制御内容を示す音声の出力を含む。これにより、ユーザは、自身が発声したコマンドワードが正しく音声認識されたことを確認することができる。 In addition, in the information terminal 10 of this embodiment, the sound notification includes the output of a voice indicating the control content based on the control command. This allows the user to confirm that the command word he or she spoke was correctly recognized by voice.

要するに、本実施形態の情報端末10では、報知部9は、マイクロホン131に入力された音声に対して、音声認識部182によりトリガーワードについての音声認識が成功した場合に、表示による報知を行う。また、報知部9は、マイクロホン131に入力された音声に対して、音声認識部182により制御処理部183が行う制御に関する制御コマンドについての音声認識が成功した場合に、音による報知を行う。なお、これに限らず、トリガーワードについての音声認識が成功した場合に、表示による報知に代えて/加えて、音による報知を行ってもよい。また、制御コマンドについての音声認識が成功した場合に、音による報知に代えて/加えて、表示による報知を行ってもよい。 In short, in the information terminal 10 of this embodiment, the notification unit 9 issues a notification by display when the voice recognition unit 182 succeeds in voice recognition of a trigger word for a voice input to the microphone 131. Also, the notification unit 9 issues a notification by sound when the voice recognition unit 182 succeeds in voice recognition of a control command related to control performed by the control processing unit 183 for a voice input to the microphone 131. Note that this is not limited to this, and a notification by sound may be issued instead of/in addition to a notification by display when voice recognition of a trigger word is successful. Also, a notification by display may be issued instead of/in addition to a notification by sound when voice recognition of a control command is successful.

報知処理部186は、マイクロホン131に入力された音声に対して、音声認識部182(第2音声認識部1822)によるコマンドワードについての音声認識が失敗した場合に、報知を行わせる。より詳細には、報知処理部186は、情報端末10の待機状態において、音声認識部182(第1音声認識部1821)がトリガーワードを音声認識した後に、コマンドワードが音声認識されることなく待受時間が経過した場合、図10に示すように、スピーカ151から、コマンドワードの音声認識が失敗したこと(いずれのコマンドワードも音声認識されなかったこと)を示すメッセージを出力させる。なお、報知処理部186は、コマンドワードの音声認識が失敗したことを示すメッセージを表示部16にテキスト表示させてもよいし、コマンドワードの音声認識が失敗したことを別の視覚的な手段(例えば操作部14のうちのいずれかのボタンの発光)で報知してもよい。 The notification processing unit 186 issues a notification when the voice recognition by the voice recognition unit 182 (second voice recognition unit 1822) of the command word fails for the voice input to the microphone 131. More specifically, when the information terminal 10 is in a standby state and the standby time has elapsed without the command word being voice recognized after the voice recognition unit 182 (first voice recognition unit 1821) voice recognizes the trigger word, the notification processing unit 186 outputs a message indicating that the voice recognition of the command word has failed (that none of the command words have been voice recognized) from the speaker 151 as shown in FIG. 10. The notification processing unit 186 may display a text message indicating that the voice recognition of the command word has failed on the display unit 16, or may notify the failure of the voice recognition of the command word by another visual means (for example, by illuminating one of the buttons of the operation unit 14).

このように、報知部9(報知処理部186及びスピーカ151)は、音声認識が失敗した場合に、報知を行う。音声認識の失敗は、マイクロホン131に入力された音声にトリガーワードが含まれていることを検出した後に、制御処理部183が行う制御に関する制御コマンドが音声認識されることなく所定の待受時間が経過することを含む。これにより、ユーザは、自身が発声したコマンドワードが情報端末10によって正しく音声認識されなかったことを知ることができる。 In this way, the notification unit 9 (notification processing unit 186 and speaker 151) issues a notification when voice recognition has failed. A voice recognition failure includes a predetermined standby time that has elapsed without a control command related to control performed by the control processing unit 183 being voice recognized after it is detected that the voice input to the microphone 131 contains a trigger word. This allows the user to know that the command word that he or she spoke was not correctly voice recognized by the information terminal 10.

以下の表2に、制御コマンド(コマンドワード)と、各制御コマンドの音声認識が成功した場合にスピーカ151から出力されるメッセージ(表2の「成功時」の欄)と、各制御コマンドの音声認識が失敗した場合にスピーカ151から出力されるメッセージ(表2の「失敗時」の欄)との一覧を示す。なお、ここでの「メッセージ」には、電子音(表2内の「ピッ」等)も含まれる。 Table 2 below shows a list of control commands (command words), messages output from speaker 151 when voice recognition of each control command is successful (the "Success" column in Table 2), and messages output from speaker 151 when voice recognition of each control command fails (the "Failure" column in Table 2). Note that "message" here also includes electronic sounds (such as the "beep" in Table 2).

Figure 2024072184000003
Figure 2024072184000003

なお、「ただいま」とのコマンドワードの音声認識が成功した時、未読の通知があれば、「おかえりなさい 未読の情報があります」とのメッセージが出力され、未読の通知がなければ、「おかえりなさい 未読の情報はありません」とのメッセージが出力される。 When voice recognition of the command word "I'm back" is successful, if there are unread notifications, the message "Welcome back. You have unread information" will be output; if there are no unread notifications, the message "Welcome back. There is no unread information" will be output.

表2からわかるように、音声認識の失敗時(トリガーワードの音声認識後、コマンドワードが音声認識されることなく待受時間が経過した場合)、「コマンドを認識できませんでした」との共通のメッセージがスピーカ151から出力される。 As can be seen from Table 2, when voice recognition fails (when the standby time has elapsed after the trigger word has been voice recognized without the command word being voice recognized), a common message stating "Command could not be recognized" is output from speaker 151.

また、表2からわかるように、本実施形態の情報端末10では、コマンドワードの音声認識が成功した場合に、そのコマンドワードの制御コマンドに基づく制御内容の情報が出力される。これにより、ユーザは、自身が発声したコマンドワードが正しく音声認識されたことを確認することができる。 As can be seen from Table 2, in the information terminal 10 of this embodiment, when voice recognition of a command word is successful, information on the control content based on the control command of that command word is output. This allows the user to confirm that the command word he or she spoke was correctly recognized by voice.

また、表2からわかるように、本実施形態の情報端末10では、コマンドワードの音声認識が失敗した場合に報知が行われる。これにより、ユーザは、自身が発声したコマンドワードが情報端末10によって正しく音声認識されなかったことを知ることができる。 As can be seen from Table 2, in the information terminal 10 of this embodiment, a notification is issued if voice recognition of a command word fails. This allows the user to know that the command word he or she spoke was not correctly voice-recognized by the information terminal 10.

上述のように、報知処理部186は、更に、音声認識結果に基づく制御が失敗した場合に報知を行わせる。すなわち、報知処理部186は、マイクロホン131に入力された音声に対して音声認識部182(第2音声認識部1822)がコマンドワードを音声認識したものの、そのコマンドワードの制御コマンドに基づく制御処理部183による制御が失敗した場合に、報知を行わせる。例えば、要求された制御内容を実行不可能な状態にある場合、制御処理部183による制御は失敗し得る。制御処理部183による制御の失敗は、例えば、実行中の別の処理との競合に起因する失敗、及び別の装置との通信エラーに起因する失敗等を含み得る。 As described above, the notification processing unit 186 also issues a notification when control based on the voice recognition result fails. That is, the notification processing unit 186 issues a notification when the voice recognition unit 182 (second voice recognition unit 1822) recognizes a command word for the voice input to the microphone 131, but the control by the control processing unit 183 based on the control command of the command word fails. For example, if the requested control content is in an impossible state, the control by the control processing unit 183 may fail. Failure of control by the control processing unit 183 may include, for example, a failure caused by a conflict with another process being executed, and a failure caused by a communication error with another device.

制御処理部183による制御の失敗の一例として、ドアモニタの映像が取得できない状況で「ドアモニタを見せて」とのコマンドワードが音声認識された場合に、報知処理部186は報知を行わせる。例えば、住戸E2内に設置されたモニタ装置(副親機)等の他の装置でドアモニタの映像を確認中、又はモニタ装置(副親機)等の他の装置が他の端末との通話状態において、「ドアモニタを見せて」とのコマンドワードが音声認識された場合、報知処理部186は、スピーカ151から「ピピピッ」との電子音を出力させ、表示部16に図11に示すような画面(報知画面Im1)を表示させる。図11に示すように、報知画面Im1は、ドアモニタが他の装置(副親機等)で使用中であってドアモニタの映像を表示できないことを示す「他機器で操作中です。しばらくしてから操作してください。」とのメッセージを表示する表示領域A11と、ユーザに操作されることでホーム画面に戻るための確認ボタンB11を表示する表示領域A12と、を含んでいる。 As an example of a failure of control by the control processing unit 183, when the command word "Show me the door monitor" is voice-recognized in a situation where the image of the door monitor cannot be acquired, the notification processing unit 186 issues a notification. For example, when the command word "Show me the door monitor" is voice-recognized while the image of the door monitor is being checked by another device such as a monitor device (sub-parent unit) installed in the dwelling unit E2, or when the other device such as a monitor device (sub-parent unit) is in a call state with another terminal, the notification processing unit 186 outputs an electronic beep from the speaker 151 and displays a screen (notification screen Im1) as shown in FIG. 11 on the display unit 16. As shown in FIG. 11, the notification screen Im1 includes a display area A11 that displays a message "Operated by another device. Please operate after a while," which indicates that the image of the door monitor cannot be displayed because the door monitor is being used by another device (sub-parent unit, etc.), and a display area A12 that displays a confirmation button B11 for returning to the home screen when operated by the user.

制御処理部183による制御の失敗の一例として、現在稼働中又は設定操作中の機器について、この機器を稼働させるコマンドワードが音声認識された場合、報知処理部186は報知を行わせる。例えば、エアコンが稼働中にもかかわらず「エアコンをつけて」とのコマンドワードが音声認識された場合、報知処理部186は、スピーカ151から「ピピピッ」との電子音を出力させ、表示部16に図12に示すような画面(報知画面Im2)を表示させる。図12に示すように、報知画面Im2は、制御対象の機器(例えばエアコン)が稼働中又は設定中であることを示す「機器操作中または設定中のため、操作できません。」とのメッセージを表示する表示領域A21と、ユーザに操作されることでホーム画面に戻るためのボタン確認B21を表示する表示領域A22と、を含んでいる。 As an example of a failure of control by the control processing unit 183, when a command word to operate a device that is currently operating or being set up is voice-recognized, the notification processing unit 186 issues a notification. For example, when the command word "Turn on the air conditioner" is voice-recognized even though the air conditioner is operating, the notification processing unit 186 outputs a "beep beep" electronic sound from the speaker 151 and displays a screen (notification screen Im2) as shown in FIG. 12 on the display unit 16. As shown in FIG. 12, the notification screen Im2 includes a display area A21 that displays a message "Device is being operated or set up, so operation is not possible" indicating that the device to be controlled (e.g., air conditioner) is operating or being set up, and a display area A22 that displays a button confirmation B21 for returning to the home screen when operated by the user.

制御処理部183による制御の失敗の一例として、警報の発生中に機器を稼働させるコマンドワードが音声認識された場合、報知処理部186は報知を行わせる。例えば、ガス漏れ又は不完全燃焼等の警報が発生中にもかかわらず「エアコンをつけて」とのコマンドワードが音声認識された場合、報知処理部186は、スピーカ151から「ピピピッ」との電子音を出力させ、表示部16に図13に示すような画面(報知画面Im3)を表示させる。図13に示すように、報知画面Im3は、警報が発生中であることを示す「警報発生中のため操作できません。」とのメッセージを表示する表示領域A31と、ユーザに操作されることでホーム画面に戻るための確認ボタンB31を表示する表示領域A32と、を含んでいる。 As an example of a control failure by the control processing unit 183, when a command word to operate an appliance during an alarm is recognized by voice, the notification processing unit 186 issues a notification. For example, when the command word "Turn on the air conditioner" is recognized by voice even when an alarm such as a gas leak or incomplete combustion is occurring, the notification processing unit 186 outputs a "beep beep" electronic sound from the speaker 151 and displays a screen (notification screen Im3) as shown in FIG. 13 on the display unit 16. As shown in FIG. 13, the notification screen Im3 includes a display area A31 that displays a message saying "Operation is not possible because an alarm is occurring," indicating that an alarm is occurring, and a display area A32 that displays a confirmation button B31 for returning to the home screen when operated by the user.

制御処理部183による制御の失敗の一例として、インターホン制御又は機器制御を行うコマンドワードが音声認識された場合において、制御対象の機器が接続されていない場合に、報知処理部186は報知を行わせる。例えば、HEMSのコントローラにエアコンが接続されていないにもかかわらず「エアコンをつけて」とのコマンドワードが音声認識された場合、報知処理部186は、スピーカ151から「ピピピッ」との電子音を出力させ、表示部16に図14に示すような画面(報知画面Im4)を表示させる。図14に示すように、報知画面Im4は、制御対象の機器の制御が実行できなかったことを示す「機器操作ができなかった可能性があります。機器の動作状態をご確認ください。」とのメッセージを表示する表示領域A41と、ユーザに操作されることでホーム画面に戻るための確認ボタンB41を表示する表示領域A42と、を含んでいる。 As an example of a control failure by the control processing unit 183, when a command word for intercom control or device control is voice-recognized and the device to be controlled is not connected, the notification processing unit 186 issues a notification. For example, when the command word "Turn on the air conditioner" is voice-recognized even though the air conditioner is not connected to the HEMS controller, the notification processing unit 186 outputs a "beep beep" electronic sound from the speaker 151 and displays a screen (notification screen Im4) as shown in FIG. 14 on the display unit 16. As shown in FIG. 14, the notification screen Im4 includes a display area A41 that displays a message saying "Device operation may not have been successful. Please check the operating status of the device," indicating that control of the device to be controlled could not be executed, and a display area A42 that displays a confirmation button B41 for returning to the home screen when operated by the user.

このように、本実施形態の情報端末10では、報知部9(報知処理部186、表示部16及びスピーカ151)は、音声認識結果に基づく制御が失敗した場合に、報知を行う。音声認識結果に基づく制御が失敗した場合の報知は、音による報知と表示による報知とのうちの少なくとも一方(ここでは両方)を含む。これにより、ユーザの利便性が向上し得る。 In this way, in the information terminal 10 of this embodiment, the notification unit 9 (notification processing unit 186, display unit 16, and speaker 151) issues a notification when control based on the voice recognition result fails. Notification when control based on the voice recognition result fails includes at least one of (here, both) a notification by sound and a notification by display. This can improve convenience for the user.

なお、音声認識結果に基づく制御が失敗した場合、報知部9は、音声認識が成功した場合の報知を行うことなく、音声認識結果に基づく制御の失敗の報知を行えばよい。例えば、HEMSのコントローラにエアコンが接続されていないにもかかわらず「エアコンをつけて」とのコマンドワードが音声認識された場合、報知部9は、「ピッ、エアコンをONにします」との音声を出力することなく、表示部16に図14に示す報知画面Im4を表示させればよい。 If the control based on the voice recognition result fails, the notification unit 9 may notify the user of the failure of the control based on the voice recognition result without making the notification that would be made if the voice recognition was successful. For example, if the command word "Turn on the air conditioner" is voice recognized even though an air conditioner is not connected to the HEMS controller, the notification unit 9 may display the notification screen Im4 shown in FIG. 14 on the display unit 16 without outputting the voice "Beep, turning on the air conditioner."

提示処理部187は、音声認識に関する情報の提示のための制御を行う。提示処理部187は、情報端末10の要素を制御して、音声認識に関する情報を提示させる。提示処理部187の制御対象は、表示部16とスピーカ151とを含む。 The presentation processing unit 187 performs control for the presentation of information related to voice recognition. The presentation processing unit 187 controls elements of the information terminal 10 to present information related to voice recognition. The objects controlled by the presentation processing unit 187 include the display unit 16 and the speaker 151.

提示処理部187は、情報端末10の要素を制御して、音声認識に関する案内を提示させる。音声認識に関する案内は、例えば、音声認識部182が音声認識可能なキーワードの一覧を含む。音声認識に関する案内は、例えば、音声認識部182でキーワード(コマンドワード)が音声認識された場合に実行される制御内容の一覧を、更に含む。例えば、提示処理部187は、ユーザによる操作部14への適宜の操作に応じて、図15に示す案内画面Im5を表示部16に表示させる。図15に示すように、案内画面Im5は、音声認識部182が音声認識可能なキーワードの一覧を表示する表示領域A51~A54と、各キーワードに対応する制御内容の一覧を表示する表示領域A55~A58と、含んでいる。また、案内画面Im5は、ユーザに操作されることで一つ前の画面に戻るための戻るボタンB51を表示する表示領域A59と、別のキーワード及び制御内容の一覧を表示させるための矢印ボタンB52,B53を表示する表示領域A50と、を含んでいる。なお、提示処理部187は、音声認識に関する案内を、スピーカ151から音声により出力させてもよい。ただし、音声認識に関する案内をユーザが確認しながらキーワードを発声できる観点からは、音声認識に関する案内は表示により提示されることがより好ましい。 The presentation processing unit 187 controls the elements of the information terminal 10 to present guidance regarding voice recognition. The guidance regarding voice recognition includes, for example, a list of keywords that can be voice-recognized by the voice recognition unit 182. The guidance regarding voice recognition further includes, for example, a list of control contents to be executed when a keyword (command word) is voice-recognized by the voice recognition unit 182. For example, the presentation processing unit 187 displays a guidance screen Im5 shown in FIG. 15 on the display unit 16 in response to an appropriate operation of the operation unit 14 by the user. As shown in FIG. 15, the guidance screen Im5 includes display areas A51 to A54 that display a list of keywords that can be voice-recognized by the voice recognition unit 182, and display areas A55 to A58 that display a list of control contents corresponding to each keyword. In addition, the guidance screen Im5 includes a display area A59 that displays a back button B51 for returning to the previous screen by being operated by the user, and a display area A50 that displays arrow buttons B52 and B53 for displaying a list of other keywords and control contents. The presentation processing unit 187 may output the guidance regarding voice recognition by voice from the speaker 151. However, from the viewpoint of allowing the user to speak keywords while checking the guidance regarding voice recognition, it is more preferable that the guidance regarding voice recognition be presented by display.

このように、本実施形態の情報端末10は、音声認識に関する案内を提示する案内提示部81(提示処理部187、及び提示処理部187の制御対象)を備えている。本実施形態の情報端末10では、提示処理部187の制御対象は、表示部16とスピーカ151とを含む。これにより、ユーザの利便性が更に向上し得る。 In this way, the information terminal 10 of this embodiment is equipped with a guidance presentation unit 81 (presentation processing unit 187 and the control object of the presentation processing unit 187) that presents guidance regarding voice recognition. In the information terminal 10 of this embodiment, the control object of the presentation processing unit 187 includes the display unit 16 and the speaker 151. This can further improve convenience for the user.

また、提示処理部187は、情報端末10の要素を制御して、音声認識可能な制御コマンドの候補を提示させる。音声認識可能な制御コマンドの候補とは、ここでは、情報端末10の現在の動作状態において有効なコマンドワードを意味する。例えば、提示処理部187は、通話状態では、図9に示すような通話画面Im0を表示部16に表示させる。図9に示すように、通話画面Im0は、音声操作が可能であることをユーザに知らせるための「音声で操作」とのメッセージを表示するための表示領域A1と、音声認識可能な制御コマンドの候補(ここでは「解錠して」「終了して」)を表示する表示領域A2と、制御コマンドに対応する制御内容を表示する表示領域A3と、を含んでいる。なお、通話画面Im0には、ユーザに操作されることで通話内容の録音を開始させるための録音ボタンB1を表示する表示領域A4と、ユーザに操作されることで音量の調整を行うための音量ボタンB2を表示する表示領域A5と、通話状態であることを示すアイコンを表示する表示領域A6と、通話中である他の端末(ここでは、ロビーインターホン20であるエントランス1)を表示する表示領域A7と、を更に含んでいる。 The presentation processing unit 187 also controls elements of the information terminal 10 to present candidates for voice-recognizable control commands. Here, the candidates for voice-recognizable control commands refer to command words that are valid in the current operating state of the information terminal 10. For example, in a call state, the presentation processing unit 187 displays a call screen Im0 as shown in FIG. 9 on the display unit 16. As shown in FIG. 9, the call screen Im0 includes a display area A1 for displaying a message "Operate by voice" to inform the user that voice operation is possible, a display area A2 for displaying candidates for voice-recognizable control commands (here, "Unlock" and "Exit"), and a display area A3 for displaying the control content corresponding to the control command. The call screen Im0 further includes a display area A4 that displays a recording button B1 that can be operated by the user to start recording the contents of the call, a display area A5 that displays a volume button B2 that can be operated by the user to adjust the volume, a display area A6 that displays an icon indicating that a call is in progress, and a display area A7 that displays another terminal that is currently on a call (here, entrance 1, which is the lobby intercom 20).

なお、提示処理部187は、音声認識可能な制御コマンドの候補を、表示部16への表示に代えて又は加えて、スピーカ151から音声により出力させてもよい。例えば、情報端末10の待機状態において、操作部14への適宜の操作又は所定のキーワードの音声認識の成功に応じて、音声認識可能な制御コマンドの候補をスピーカ151から音声により出力させてもよい。また、情報端末10では、音声認識可能な制御コマンドの候補がスピーカ151から音声出力されている状態では、第1音声認識部1821と第2音声認識部1822とのうちの少なくとも一方が無効であってもよい。「第1音声認識部1821(第2音声認識部1822)が無効」とは、例えば、第1音声認識部1821(第2音声認識部1822)を構成する回路要素に電力が供給されておらず動作を停止している状態であってもよいし、第1音声認識部1821(第2音声認識部1822)は動作しているものの音声認識処理を行わない又は音声認識されたキーワードを破棄する状態であってもよい。 The presentation processing unit 187 may output candidates for voice-recognizable control commands by voice from the speaker 151 instead of or in addition to displaying them on the display unit 16. For example, in a standby state of the information terminal 10, candidates for voice-recognizable control commands may be output by voice from the speaker 151 in response to an appropriate operation on the operation unit 14 or successful voice recognition of a predetermined keyword. In addition, in the information terminal 10, in a state in which candidates for voice-recognizable control commands are being output by voice from the speaker 151, at least one of the first voice recognition unit 1821 and the second voice recognition unit 1822 may be disabled. "The first voice recognition unit 1821 (the second voice recognition unit 1822) is disabled" may mean, for example, that the circuit elements constituting the first voice recognition unit 1821 (the second voice recognition unit 1822) are not being supplied with power and are not operating, or that the first voice recognition unit 1821 (the second voice recognition unit 1822) is operating but is not performing voice recognition processing or is discarding keywords that have been voice recognized.

このように、本実施形態の情報端末10は、音声認識可能な制御コマンドの候補を提示するコマンド候補提示部82(提示処理部187、及び提示処理部187の制御対象)を備えている。本実施形態の情報端末10では、提示処理部187の制御対象は、表示部16とスピーカ151とを含む。これにより、ユーザの利便性が更に向上し得る。 In this way, the information terminal 10 of this embodiment is equipped with a command candidate presentation unit 82 (presentation processing unit 187 and the control object of the presentation processing unit 187) that presents candidates for control commands that can be voice recognized. In the information terminal 10 of this embodiment, the control object of the presentation processing unit 187 includes the display unit 16 and the speaker 151. This can further improve convenience for the user.

(2-2)ロビーインターホン
ロビーインターホン20は、図2に示すように、通信部21と、処理部22と、通話部23と、表示部24と、操作部25と、記憶部26と、撮像部27と、を備えている。
(2-2) Lobby Intercom The lobby intercom 20 includes, as shown in FIG. 2, a communication unit 21, a processing unit 22, a call unit 23, a display unit 24, an operation unit 25, a memory unit 26, and an imaging unit 27.

ロビーインターホン20は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが処理部22として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。 The lobby intercom 20 has, for example, a microcomputer having a processor and memory. The processor executes a program stored in the memory, causing the microcomputer to function as the processing unit 22. The program executed by the processor is pre-recorded in the memory of the microcomputer here, but it may also be provided by recording it on a non-transitory recording medium such as a memory card, or it may be provided via a telecommunications line such as the Internet.

通信部21は、情報端末10(の第1通信部11)と通信するための通信インタフェースである。通信部21は、第1幹線61を介して制御装置30(の通信部31)に接続されている。通信部21は、制御装置30を介して、情報端末10に対して音声信号、及び映像信号等を送信する。さらに、通信部21は、制御装置30を介して、情報端末10から音声信号、及び制御信号等を受信する。ここで、ロビーインターホン20からの通信信号には、情報端末10を特定するための情報(例えば、アドレス情報等)が含まれている。そのため、この通信信号に含まれるアドレス情報と一致するアドレス情報が割り当てられた情報端末10のみが通信信号を受信することができる。 The communication unit 21 is a communication interface for communicating with the information terminal 10 (the first communication unit 11 of the information terminal 10). The communication unit 21 is connected to the control device 30 (the communication unit 31 of the control device 30) via the first trunk line 61. The communication unit 21 transmits audio signals, video signals, etc. to the information terminal 10 via the control device 30. Furthermore, the communication unit 21 receives audio signals, control signals, etc. from the information terminal 10 via the control device 30. Here, the communication signal from the lobby intercom 20 contains information (e.g., address information, etc.) for identifying the information terminal 10. Therefore, only information terminals 10 that are assigned address information that matches the address information contained in this communication signal can receive the communication signal.

処理部22は、通信部21、通話部23、及び撮像部27等を制御するように構成されている。 The processing unit 22 is configured to control the communication unit 21, the call unit 23, and the imaging unit 27, etc.

通話部23は、スピーカ及びマイクロホンを含み、情報端末10との間で通話可能に構成されている。 The communication unit 23 includes a speaker and a microphone, and is configured to enable communication with the information terminal 10.

表示部24は、例えば、液晶ディスプレイである。表示部24は、撮像部27が撮像した映像を表示するように構成されている。また、表示部24は、訪問者等に対してメッセージを表示するように構成されている。メッセージは、例えば、訪問者等に発話を促すためのメッセージである。表示部24は、例えば、「お話しください」等のメッセージを表示する。この場合において、同様の音声メッセージを通話部23のスピーカ、又は通話部23のスピーカとは別に設けられたスピーカから出力(報知)してもよい。また、表示部24とスピーカとを併用してもよい。なお、ロビーインターホン20がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部24と操作部25とを兼ねてもよい。 The display unit 24 is, for example, a liquid crystal display. The display unit 24 is configured to display an image captured by the imaging unit 27. The display unit 24 is also configured to display a message to a visitor, etc. The message is, for example, a message to encourage the visitor, etc. to speak. The display unit 24 displays a message such as "Please speak." In this case, a similar voice message may be output (alert) from the speaker of the communication unit 23 or a speaker provided separately from the speaker of the communication unit 23. The display unit 24 and the speaker may also be used together. If the lobby intercom 20 is equipped with a touch panel display, the touch panel display may serve as both the display unit 24 and the operation unit 25.

操作部25は、例えば、集合住宅5への訪問者、住人等の操作を受け付けるように構成されている。操作部25は、例えば、複数の押ボタンスイッチ、及びタッチパネル等を有する入力インタフェースである。 The operation unit 25 is configured to accept operations by, for example, visitors to the apartment complex 5, residents, etc. The operation unit 25 is, for example, an input interface having a plurality of push button switches, a touch panel, etc.

記憶部26は、読み書き可能なメモリで構成されている。記憶部26は、例えば、フラッシュメモリである。記憶部26は、例えば、撮像部27で撮像された映像(画像)の映像データを記憶する。 The storage unit 26 is composed of a readable and writable memory. The storage unit 26 is, for example, a flash memory. The storage unit 26 stores, for example, video data of a video (image) captured by the imaging unit 27.

撮像部27は、撮像素子を有し、被写体(訪問者等)を撮像するためのカメラである。本実施形態では、撮像部27の撮像エリア(視野)は、ロビーインターホン20の前方に設定されている。本実施形態では、撮像部27は動画を撮像するカメラである。さらに、本実施形態では、撮像部27はカラー画像を撮像するカメラである。なお、撮像部27は、静止画を撮像するカメラ(スチルカメラ)であってもよいし、モノクロ画像を撮像するカメラであってもよい。 The imaging unit 27 has an imaging element and is a camera for capturing an image of a subject (such as a visitor). In this embodiment, the imaging area (field of view) of the imaging unit 27 is set in front of the lobby intercom 20. In this embodiment, the imaging unit 27 is a camera that captures moving images. Furthermore, in this embodiment, the imaging unit 27 is a camera that captures color images. Note that the imaging unit 27 may be a camera that captures still images (still camera) or a camera that captures monochrome images.

撮像素子は、例えば、CCD(Charge Coupled Devices)イメージセンサ、又はCMOS(Complementary Metal-Oxide Semiconductor)イメージセンサ等の二次元イメージセンサである。撮像部27は、被写体からの光をレンズ等の光学系によって撮像素子の撮像面(受光面)上に結像させ、撮像素子にて被写体からの光を電気信号に変換する。そして、撮像部27は、撮像素子の出力信号を映像信号として処理部22に出力する。 The imaging element is, for example, a two-dimensional image sensor such as a CCD (Charge Coupled Devices) image sensor or a CMOS (Complementary Metal-Oxide Semiconductor) image sensor. The imaging unit 27 forms an image of light from the subject on the imaging surface (light-receiving surface) of the imaging element using an optical system such as a lens, and converts the light from the subject into an electrical signal in the imaging element. The imaging unit 27 then outputs the output signal of the imaging element to the processing unit 22 as a video signal.

(2-3)制御装置
制御装置30は、図2に示すように、通信部31と、処理部32と、記憶部33と、を備えている。
(2-3) Control Device As shown in FIG. 2, the control device 30 includes a communication unit 31, a processing unit 32, and a storage unit 33.

制御装置30は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが処理部32として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。 The control device 30 has, for example, a microcomputer having a processor and a memory. The processor executes a program stored in the memory, causing the microcomputer to function as the processing unit 32. The program executed by the processor is pre-recorded in the memory of the microcomputer here, but may also be provided by being recorded on a non-transitory recording medium such as a memory card, or may be provided via a telecommunications line such as the Internet.

通信部31は、各情報端末10、及びロビーインターホン20と通信するための通信インタフェースを含んでいる。通信部31は、第1幹線61を介してロビーインターホン20に接続され、第2幹線62を介して各情報端末10に接続されている。つまり、通信部31は、各情報端末10とロビーインターホン20との間の通信を中継するように構成されている。さらに、通信部31は、玄関扉200の電気錠201に接続され、電気錠201と通信可能に構成されている。 The communication unit 31 includes a communication interface for communicating with each information terminal 10 and the lobby intercom 20. The communication unit 31 is connected to the lobby intercom 20 via a first trunk line 61, and is connected to each information terminal 10 via a second trunk line 62. In other words, the communication unit 31 is configured to relay communication between each information terminal 10 and the lobby intercom 20. Furthermore, the communication unit 31 is connected to the electric lock 201 of the front door 200, and is configured to be able to communicate with the electric lock 201.

処理部32は、通信部31を制御するように構成されている。処理部32は、情報端末10からの指示により、玄関扉200の電気錠201の解錠動作を制御する。例えば、処理部32は、解錠を指示する解錠信号を電気錠201に通信部31を介して出力する。 The processing unit 32 is configured to control the communication unit 31. The processing unit 32 controls the unlocking operation of the electric lock 201 of the front door 200 in response to an instruction from the information terminal 10. For example, the processing unit 32 outputs an unlocking signal to the electric lock 201 via the communication unit 31 to instruct the electric lock to unlock.

記憶部33は、読み書き可能なメモリで構成されている。記憶部33は、例えば、フラッシュメモリである。記憶部33は、例えば、各住戸E2に割り当てられた部屋番号と、各情報端末10に割り当てられたアドレス情報との対応関係を表す対応テーブルを記憶する。つまり、制御装置30では、処理部32は、対応テーブルを参照して、ロビーインターホン20からの信号に含まれる部屋番号を対応する情報端末10のアドレス情報に置き換えた信号を作成し、この信号を通信部31から各情報端末10に送信させる。そして、各情報端末10では、処理部18は、第1通信部11が受信した信号に含まれるアドレス情報が、記憶部17に記憶されているアドレス情報と一致する場合には、この信号に含まれる情報を取得する。また、各情報端末10では、処理部18は、第1通信部11が受信した信号に含まれるアドレス情報が、記憶部17に記憶されているアドレス情報と一致しない場合には、この信号に含まれる情報を破棄する。 The storage unit 33 is composed of a readable and writable memory. The storage unit 33 is, for example, a flash memory. The storage unit 33 stores, for example, a correspondence table showing the correspondence between the room number assigned to each dwelling unit E2 and the address information assigned to each information terminal 10. That is, in the control device 30, the processing unit 32 refers to the correspondence table to create a signal in which the room number included in the signal from the lobby intercom 20 is replaced with the address information of the corresponding information terminal 10, and causes the communication unit 31 to transmit this signal to each information terminal 10. Then, in each information terminal 10, the processing unit 18 acquires the information included in the signal when the address information included in the signal received by the first communication unit 11 matches the address information stored in the storage unit 17. Also, in each information terminal 10, the processing unit 18 discards the information included in the signal when the address information included in the signal received by the first communication unit 11 does not match the address information stored in the storage unit 17.

なお、本実施形態では、通信部31が電気錠201と接続されている構成としたが、この構成に限定されない。制御装置30は、通信部31とは別の通信部を有し、当該別の通信部が電気錠201と接続される構成であってもよい。また、ロビーインターホン20が、通信部21とは別の通信部(電気錠通信部)を有していて、電気錠通信部が電気錠201と接続されていてもよい。この場合、情報端末10が解錠制御を行うと、ロビーインターホン20から電気錠201へ解錠信号が出力されて、電気錠201が解錠される。 In this embodiment, the communication unit 31 is connected to the electric lock 201, but the configuration is not limited to this. The control device 30 may have a communication unit separate from the communication unit 31, and the separate communication unit may be connected to the electric lock 201. The lobby intercom 20 may have a communication unit (electric lock communication unit) separate from the communication unit 21, and the electric lock communication unit may be connected to the electric lock 201. In this case, when the information terminal 10 performs unlocking control, an unlocking signal is output from the lobby intercom 20 to the electric lock 201, and the electric lock 201 is unlocked.

(2-4)玄関子機
各玄関子機40は、図2に示すように、接続線64を介して対応する情報端末10に接続されている。玄関子機40は、情報端末10に対して音声信号、及び映像信号等を送信する。さらに、玄関子機40は、情報端末10から音声信号、及び制御信号等を受信する。
2, each of the front door slave units 40 is connected to a corresponding information terminal 10 via a connection line 64. The front door slave unit 40 transmits audio signals, video signals, etc. to the information terminal 10. Furthermore, the front door slave unit 40 receives audio signals, control signals, etc. from the information terminal 10.

(3)動作例
情報端末10の動作について動作例1、2を挙げ図16、図17を参照しながら説明する。
(3) Operation Examples The operation of the information terminal 10 will be described with reference to operation examples 1 and 2 with reference to FIGS. 16 and 17. FIG.

(3-1)動作例1
動作例1は、情報端末10が他の端末から呼び出しを受け、それに対してユーザが発声したコマンドワードに応じて、情報端末10が通話状態となるまでの動作の例である。図16は、動作例1における情報端末10の状態を、左から順に時系列で並べた概念図である。
(3-1) Operation example 1
Operation example 1 is an example of an operation in which the information terminal 10 receives a call from another terminal, and in response to a command word uttered by the user, the information terminal 10 enters a call state. Fig. 16 is a conceptual diagram in which the states of the information terminal 10 in operation example 1 are arranged in chronological order from the left.

待機状態で、例えばロビーインターホン20から呼び出しの着信があると(呼出着信;T1)、情報端末10は、ユーザに呼び出しの着信を知らせるための着信音をスピーカ151から鳴動させる。また情報端末10は、表示部16に着信状態(呼出状態)であることを示す着信画面を表示する。さらに、情報端末10は、通話ボタン141及び解錠ボタン143を発光(点灯又は点滅)させる。 When in standby mode, for example, when there is an incoming call from the lobby intercom 20 (incoming call; T1), the information terminal 10 makes the speaker 151 ring to notify the user of the incoming call. The information terminal 10 also displays an incoming call screen on the display unit 16 to indicate that there is an incoming call (calling state). Furthermore, the information terminal 10 makes the call button 141 and the unlock button 143 emit light (light up or blink).

ユーザは、情報端末10の呼出状態において、マイクロホン131への音声操作をすることで、呼び出しに対して応答する。図16に示すように、ユーザは、呼出状態において「XXX、応答して!」というトリガーワード、及びコマンドワードを発声する。 When the information terminal 10 is in a call state, the user responds to the call by performing a voice operation on the microphone 131. As shown in FIG. 16, when the information terminal 10 is in a call state, the user utters a trigger word, "XXX, answer!", and a command word.

第1音声認識部1821が「XXX」というトリガーワードを音声認識すると(トリガー音声認識;T2)、情報端末10は、発光中の通話ボタン141及び解錠ボタン143に加えて、ホームボタン144を発光(点灯又は点滅)させる。これにより、ユーザは、トリガーワードが情報端末10によって正しく音声認識されたことを確認できる。また、トリガーワードを音声認識すると、情報端末10は、ユーザによるコマンドワードの発声を待ち受ける。 When the first voice recognition unit 1821 voice recognizes the trigger word "XXX" (trigger voice recognition; T2), the information terminal 10 causes the home button 144 to emit light (light up or blink) in addition to the illuminated call button 141 and unlock button 143. This allows the user to confirm that the trigger word has been correctly voice recognized by the information terminal 10. Furthermore, once the trigger word has been voice recognized, the information terminal 10 waits for the user to speak a command word.

また、情報端末10は、続いて発声された「応答して!」とのコマンドワードを第2音声認識部1822が音声認識すると(コマンド音声認識;T3)、着信音を停止し、呼出状態から通話状態に切り替えてロビーインターホン20を操作する者との通話を可能にする。また、情報端末10は、コマンドワードの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「通話に入ります ピッ」というメッセージをスピーカ151から出力する。これにより、ユーザは、情報端末10が通話状態になったことを確認できる。 Furthermore, when the second voice recognition unit 1822 voice-recognizes the subsequently spoken command word "Answer!" (command voice recognition; T3), the information terminal 10 stops the ringtone and switches from the ringing state to a talking state, enabling a conversation with the person operating the lobby intercom 20. The information terminal 10 also outputs a message "Call will be answered, beep" from the speaker 151 to inform the user that the input of the command word has been accepted (i.e., the voice input was successful). This allows the user to confirm that the information terminal 10 is now in a talking state.

なお、情報端末10は、トリガーワードを検出してから待受時間(例えば3秒)以内に有効なコマンドワードを検出できなかった場合、「コマンドを認識できませんでした」というメッセージを出力すればよい。 If the information terminal 10 does not detect a valid command word within the standby time (e.g., 3 seconds) after detecting the trigger word, it may output a message saying "Command not recognized."

(3-2)動作例2
動作例2は、機器制御の操作イベントである照明装置に関する情報端末10の動作の例である。なお、ここで言う照明装置とは、住戸E2内に設置されていてHEMSのコントローラを介して制御可能な複数の機器の1つである。図17は、動作例2における情報端末10の動作を、左から順に時系列で並べた概念図である。
(3-2) Operation example 2
Operation example 2 is an example of the operation of the information terminal 10 regarding a lighting device, which is an operation event of device control. Note that the lighting device referred to here is one of a plurality of devices that are installed in the dwelling unit E2 and can be controlled via the HEMS controller. Fig. 17 is a conceptual diagram in which the operations of the information terminal 10 in operation example 2 are arranged in chronological order from the left.

待機状態(待受;T11)では、情報端末10は、通話ボタン141、解錠ボタン143、及びホームボタン144を消灯させている。 In the standby state (standby; T11), the information terminal 10 turns off the call button 141, the unlock button 143, and the home button 144.

ユーザは、情報端末10の待機状態において、マイクロホン131への音声操作をすることで、照明装置制御の動作を実行させる。図17に示すように、ユーザは、待機状態において「XXX、電気をつけて!」というトリガーワード、及びコマンドワード(制御コマンド)を発声する。 When the information terminal 10 is in standby mode, the user executes the lighting device control operation by performing a voice operation on the microphone 131. As shown in FIG. 17, when in standby mode, the user utters a trigger word such as "XXX, turn on the light!" and a command word (control command).

情報端末10は、第1音声認識部1821が「XXX」というトリガーワードを音声認識すると(トリガー音声認識;T12)、ホームボタン144を発光(点灯又は点滅)させる。これにより、ユーザは、トリガーワードが情報端末10によって正しく音声認識されたことを確認できる。また、トリガーワードを音声認識すると、情報端末10は、ユーザによるコマンドワードの発声を待ち受ける。 When the first voice recognition unit 1821 of the information terminal 10 voice recognizes the trigger word "XXX" (trigger voice recognition; T12), the information terminal 10 causes the home button 144 to emit light (light up or blink). This allows the user to confirm that the trigger word has been correctly voice recognized by the information terminal 10. In addition, once the trigger word has been voice recognized, the information terminal 10 waits for the user to speak a command word.

また、情報端末10は、続いて発声された「電気をつけて!」とのコマンドワードを第2音声認識部1822が音声認識すると(コマンド音声認識;T13)、照明装置制御(照明装置のオン)の動作を実行させる。また、情報端末10は、制御コマンドの入力を受け付けたこと(つまり、音声入力の成功)をユーザに知らせるために、「ピッ 電気をONにします。」というメッセージをスピーカ151から出力する。これにより、ユーザは、コマンドワードが音声認識されたこと、並びに音声認識結果に応じた制御(照明装置の点灯制御)が成功したことを確認できる。 When the second voice recognition unit 1822 voice-recognizes the subsequently spoken command word "Turn on the lights!" (command voice recognition; T13), the information terminal 10 executes the operation of controlling the lighting device (turning on the lighting device). The information terminal 10 also outputs a message "Beep, turning on the lights" from the speaker 151 to inform the user that the input of the control command has been accepted (i.e., the voice input was successful). This allows the user to confirm that the command word has been voice-recognized and that the control according to the voice recognition result (controlling the lighting device) has been successful.

(4)変形例
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、上記実施形態に係る情報端末10と同様の機能は、制御方法、コンピュータプログラム、又はコンピュータプログラムを記録した非一時的記録媒体等で具現化されてもよい。
(4) Modifications The above embodiment is merely one of various embodiments of the present disclosure. The above embodiment can be modified in various ways depending on the design, etc., as long as the object of the present disclosure can be achieved. In addition, the same function as the information terminal 10 according to the above embodiment may be embodied in a control method, a computer program, or a non-transitory recording medium on which a computer program is recorded, etc.

具体的には、一の態様に係る制御方法は、インターホン装置として動作する情報端末の制御方法である。制御方法は、図18に示すように、音声認識ステップST1と、制御処理ステップST2と、報知ステップST3と、を含む。音声認識ステップST1は、マイクロホン131に入力された音声に基づいて音声認識処理を行うことを含む。制御処理ステップST2は、音声認識ステップST1での音声認識結果に基づいて制御を行うことを含む。報知ステップST3は、音声認識ステップST1での音声認識処理の成否に応じた報知を行うことを含む。 Specifically, one aspect of the control method is a control method for an information terminal that operates as an intercom device. As shown in FIG. 18, the control method includes a voice recognition step ST1, a control processing step ST2, and a notification step ST3. The voice recognition step ST1 includes performing voice recognition processing based on a voice input to the microphone 131. The control processing step ST2 includes performing control based on the voice recognition result in the voice recognition step ST1. The notification step ST3 includes performing a notification according to the success or failure of the voice recognition processing in the voice recognition step ST1.

以下、上記実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。 Below, we will list some variations of the above embodiment. The variations described below can be applied in appropriate combinations.

本開示における情報端末10、ロビーインターホン20、及び玄関子機40は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における情報端末10、ロビーインターホン20、及び玄関子機40としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1ないし複数の電子回路で構成される。ここでいうIC又はLSI等の集積回路は、集積の度合いによって呼び方が異なっており、システムLSI、VLSI(Very Large Scale Integration)、又はULSI(Ultra Large Scale Integration)と呼ばれる集積回路を含む。さらに、LSIの製造後にプログラムされる、FPGA(Field-Programmable Gate Array)、又はLSI内部の接合関係の再構成若しくはLSI内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、1以上のプロセッサ及び1以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む1ないし複数の電子回路で構成される。 The information terminal 10, lobby intercom 20, and front door unit 40 in the present disclosure include a computer system. The computer system is mainly composed of a processor and memory as hardware. The processor executes a program recorded in the memory of the computer system to realize the functions of the information terminal 10, lobby intercom 20, and front door unit 40 in the present disclosure. The program may be pre-recorded in the memory of the computer system, provided through a telecommunication line, or provided by recording it in a non-transitory recording medium such as a memory card, optical disk, or hard disk drive that can be read by the computer system. The processor of the computer system is composed of one or more electronic circuits including a semiconductor integrated circuit (IC) or a large-scale integrated circuit (LSI). The integrated circuits such as IC or LSI referred to here are called different names depending on the degree of integration, and include integrated circuits called system LSI, VLSI (Very Large Scale Integration), or ULSI (Ultra Large Scale Integration). Furthermore, a field-programmable gate array (FPGA) that is programmed after the LSI is manufactured, or a logic device that allows the reconfiguration of the connection relationship within the LSI or the reconfiguration of the circuit partition within the LSI, can also be used as a processor. The multiple electronic circuits may be integrated into one chip, or may be distributed among multiple chips. The multiple chips may be integrated into one device, or may be distributed among multiple devices. The computer system referred to here includes a microcontroller having one or more processors and one or more memories. Therefore, the microcontroller is also composed of one or more electronic circuits including a semiconductor integrated circuit or a large-scale integrated circuit.

また、情報端末10、ロビーインターホン20、及び玄関子機40の各々における複数の機能が、1つのハウジング内に集約されていることは必須の構成ではない。情報端末10、ロビーインターホン20、及び玄関子機40の各々の構成要素は、複数のハウジングに分散して設けられていてもよい。反対に、情報端末10、ロビーインターホン20、及び玄関子機40の各々における複数の機能が、1つのハウジング内に集約されてもよい。さらに、情報端末10、ロビーインターホン20、及び玄関子機40の各々の少なくとも一部の機能、例えば、情報端末10の一部の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。 In addition, it is not essential that the multiple functions of each of the information terminal 10, the lobby intercom 20, and the front door unit 40 are concentrated in one housing. The components of each of the information terminal 10, the lobby intercom 20, and the front door unit 40 may be distributed across multiple housings. Conversely, the multiple functions of each of the information terminal 10, the lobby intercom 20, and the front door unit 40 may be concentrated in one housing. Furthermore, at least some of the functions of each of the information terminal 10, the lobby intercom 20, and the front door unit 40, for example, some of the functions of the information terminal 10, may be realized by the cloud (cloud computing) or the like.

一変形例において、情報端末10とは別の装置(同じ住戸E2内にあるインターホン子機、又は携帯端末)が備えるマイクロホン、又は情報端末10に外付けされたマイクロホンに入力される音声に基づき音声認識が行われてもよい。例えば、携帯端末の一例としてユーザが携帯するスマートフォンが備えるマイクロホンに入力される音声に基づき、情報端末10が音声認識を行ってもよい。この場合、スマートフォン(携帯端末)には、情報端末10と通信するための専用のアプリケーションソフトがインストールされる。携帯端末は、例えばWi-Fi(登録商標)等の規格に準拠した無線通信により、マイクロホンに入力される音声(データ)を情報端末10に転送する。言い換えると、ユーザが住戸E2内に居てスマートフォンが情報端末10から一定の範囲内に存在する場合、ユーザはスマートフォンを利用して音声操作により、間接的に呼出中の情報端末10への応答をしたり通話をしたりできてもよい。 In one modified example, voice recognition may be performed based on a voice input to a microphone provided on a device other than the information terminal 10 (an intercom handset or a mobile terminal in the same dwelling E2) or a microphone externally attached to the information terminal 10. For example, the information terminal 10 may perform voice recognition based on a voice input to a microphone provided on a smartphone carried by a user as an example of a mobile terminal. In this case, a dedicated application software for communicating with the information terminal 10 is installed on the smartphone (mobile terminal). The mobile terminal transfers the voice (data) input to the microphone to the information terminal 10 by wireless communication conforming to a standard such as Wi-Fi (registered trademark). In other words, when the user is in the dwelling E2 and the smartphone is within a certain range from the information terminal 10, the user may be able to indirectly respond to a call on the information terminal 10 or make a call by voice operation using the smartphone.

一変形例において、トリガー音声認識を行う第1音声認識部1821とコマンド音声認識を行う第2音声認識部1822とが、分けて実装されていてもよい(例えば、別回路)。そして、情報端末10の待機状態では、第1音声認識部1821と音取得部13とだけがアクティブな状態(起動状態、つまり電力を消費している状態)にあり、トリガーワードを含む音声がマイクロホン131に入力されてくることを監視してもよい。すなわち、情報端末10の待機状態では、コマンド音声認識を行う第2音声認識部1822、及び制御処理部183等は、非アクティブな状態(非起動状態、つまり電力を消費していない又は低消費電力の状態状態)にあってもよい。そして、第2音声認識部1822、及び制御処理部183等は、例えば、呼出信号を受けるか、第1音声認識部1821がトリガーワードを音声認識すると、起動されてアクティブな状態となってもよい。 In one modified example, the first voice recognition unit 1821 that performs trigger voice recognition and the second voice recognition unit 1822 that performs command voice recognition may be implemented separately (for example, as separate circuits). Then, in the standby state of the information terminal 10, only the first voice recognition unit 1821 and the sound acquisition unit 13 may be in an active state (activated state, i.e., a state in which power is consumed), and a voice including a trigger word may be monitored for input to the microphone 131. That is, in the standby state of the information terminal 10, the second voice recognition unit 1822 that performs command voice recognition and the control processing unit 183, etc. may be in an inactive state (inactivated state, i.e., a state in which power is not consumed or low power consumption is consumed). Then, the second voice recognition unit 1822 and the control processing unit 183, etc. may be activated and become active, for example, when a call signal is received or when the first voice recognition unit 1821 voice recognizes a trigger word.

一変形例において、トリガーワードについての音声認識が成功した場合に報知を行う要素(制御対象)、制御コマンドについての音声認識が成功した場合に報知を行う要素(制御対象)、音声認識が失敗した場合に報知を行う要素(制御対象)、音声認識結果に基づく制御が失敗した場合に報知を行うための要素(制御対象)、音声認識に関する案内を提示するための要素(制御対象)、及び音声認識可能な制御コマンドの候補を提示するための要素(制御対象)は、互いに同じであってもよいし異なっていてもよい。 In one variant, an element (control object) that notifies when voice recognition of a trigger word is successful, an element (control object) that notifies when voice recognition of a control command is successful, an element (control object) that notifies when voice recognition fails, an element (control object) for notifying when control based on the voice recognition result fails, an element (control object) for presenting guidance regarding voice recognition, and an element (control object) for presenting candidates for control commands that can be voice recognized may be the same as or different from each other.

一変形例において、他の端末としての玄関子機40からの呼出中又は玄関子機40と通話中において、解錠ボタン143が押される又はコマンドワード(例えば「解錠して」)の音声認識に成功すると、情報端末10は、解錠信号を送信して施設(住戸E2)の玄関扉の電気錠を解錠してもよい。情報端末10は、玄関子機40又は他の装置を介して、玄関扉の電気錠を解錠してもよい。 In one variation, when the unlock button 143 is pressed or the voice recognition of a command word (e.g., "unlock") is successful during a call from the front door unit 40 as another terminal or during a call with the front door unit 40, the information terminal 10 may send an unlock signal to unlock the electric lock on the front door of the facility (apartment E2). The information terminal 10 may unlock the electric lock on the front door via the front door unit 40 or another device.

一変形例において、インターホンシステム1が戸建住宅に適用されている場合、戸建住宅の玄関子機からの呼出中又は玄関子機と通話中において、解錠ボタン143が押される又はコマンドワード(例えば「解錠して」)の音声認識に成功すると、情報端末10は、解錠信号を送信して戸建住宅の玄関扉の電気錠を解錠してもよい。情報端末10は、玄関子機又は他の装置を介して、玄関扉の電気錠を解錠してもよい。 In one variant, when the intercom system 1 is applied to a detached house, when the unlock button 143 is pressed or the voice recognition of a command word (e.g., "unlock") is successful during a call from or a conversation with the entrance handset of the detached house, the information terminal 10 may transmit an unlock signal to unlock the electric lock on the entrance door of the detached house. The information terminal 10 may unlock the electric lock on the entrance door via the entrance handset or another device.

(5)態様
以上説明したように、第1の態様の情報端末(10)は、インターホン装置として動作する。情報端末(10)は、音声認識部(182)と、制御処理部(183)と、報知部(9)と、を備える。音声認識部(182)は、マイクロホン(131)に入力された音声に対して音声認識を行う。制御処理部(183)は、音声認識部(182)の音声認識結果に基づく制御を行う。報知部(9)は、音声認識部(182)による音声認識の成否に応じた報知を行う。
(5) Aspects As described above, the information terminal (10) of the first aspect operates as an intercom device. The information terminal (10) includes a voice recognition unit (182), a control processing unit (183), and an alarm unit (9). The voice recognition unit (182) performs voice recognition on a voice input to the microphone (131). The control processing unit (183) performs control based on the voice recognition result of the voice recognition unit (182). The alarm unit (9) performs an alarm depending on the success or failure of the voice recognition by the voice recognition unit (182).

この態様によれば、ユーザの利便性の向上を図ることが可能となる。 This aspect makes it possible to improve user convenience.

第2の態様の情報端末(10)では、第1の態様において、報知部(9)は、マイクロホンに入力された音声に対して、音声認識部(182)によってトリガーワードについての音声認識が成功した場合に、報知を行う。 In the information terminal (10) of the second aspect, in the first aspect, the notification unit (9) issues a notification when the voice recognition unit (182) successfully recognizes a trigger word in response to a voice input to the microphone.

この態様によれば、ユーザに、自身が発声したトリガーワードが情報端末(10)によって正しく音声認識されたことを知らせることができるので、ユーザの利便性が向上し得る。 According to this aspect, the user can be informed that the trigger word he or she spoke has been correctly voice-recognized by the information terminal (10), thereby improving user convenience.

第3の態様の情報端末(10)では、第2の態様において、トリガーワードについての音声認識の成功に対する報知は、表示による報知を含む。 In the information terminal (10) of the third aspect, in the second aspect, the notification of successful speech recognition of the trigger word includes a display notification.

この態様によれば、制御コマンドの音声認識の精度の向上を図ることが可能となる。 This aspect makes it possible to improve the accuracy of voice recognition of control commands.

第4の態様の情報端末(10)では、第3の態様において、表示による報知は、表示灯の点灯又は点滅を含む。 In the fourth aspect of the information terminal (10), in the third aspect, the display notification includes turning on or blinking an indicator light.

この態様によれば、トリガーワードについての音声認識の成功を、ユーザに把握させやすくなる。 This aspect makes it easier for the user to understand the success of voice recognition for the trigger word.

第5の態様の情報端末(10)では、第4の態様において、表示灯は、表示による報知以外の用途と兼用される。 In the information terminal (10) of the fifth aspect, in the fourth aspect, the indicator light is used for purposes other than displaying information.

この態様によれば、情報端末(10)の構成の簡略化を図ることが可能となる。 According to this aspect, it is possible to simplify the configuration of the information terminal (10).

第6の態様の情報端末(10)では、第1~第5のいずれか1つの態様において、報知部(9)は、マイクロホンに入力された音声に対して、音声認識部(182)によって制御処理部(183)が行う制御に関する制御コマンドについての音声認識が成功した場合に、報知を行う。 In the sixth aspect of the information terminal (10), in any one of the first to fifth aspects, the notification unit (9) issues a notification when the voice recognition unit (182) successfully recognizes a control command related to control performed by the control processing unit (183) for a voice input to the microphone.

この態様によれば、ユーザに、自身が発声したコマンドワードが情報端末(10)によって正しく音声認識されたことを知らせることができるので、ユーザの利便性が向上し得る。 According to this embodiment, the user can be informed that the command word he or she spoke has been correctly voice-recognized by the information terminal (10), thereby improving user convenience.

第7の態様の情報端末(10)では、第6の態様において、制御コマンドについての音声認識の成功に対する報知は、音による報知を含む。 In the information terminal (10) of the seventh aspect, in the sixth aspect, the notification of successful voice recognition of the control command includes a sound notification.

この態様によれば、ユーザに、コマンドワードについての音声認識が成功したことを、音により確実に確認させることができる。 This aspect allows the user to be reliably informed by sound that voice recognition of the command word was successful.

第8の態様の情報端末(10)では、第7の態様において、音による報知は、制御コマンドに基づく制御内容を示す音声の出力を含む。 In the information terminal (10) of the eighth aspect, in the seventh aspect, the sound notification includes output of a voice indicating the control content based on the control command.

この態様によれば、ユーザに、自身が発声したコマンドワードが正しく音声認識されたことを確認させることができる。 This aspect allows the user to confirm that the command word he or she spoke was correctly recognized.

第9の態様の情報端末(10)では、第1の態様において、報知部(9)は、マイクロホンに入力された音声に対して、音声認識部(182)によりトリガーワードについての音声認識が成功した場合に、表示による報知を行う。報知部(9)は、マイクロホンに入力された音声に対して、音声認識部(182)により制御処理部(183)が行う制御に関する制御コマンドについての音声認識が成功した場合に、音による報知を行う。 In the information terminal (10) of the ninth aspect, in the first aspect, the notification unit (9) notifies by display when the voice recognition unit (182) has successfully recognized a trigger word for a voice input to the microphone. The notification unit (9) notifies by sound when the voice recognition unit (182) has successfully recognized a control command for control performed by the control processing unit (183) for a voice input to the microphone.

この態様によれば、ユーザに、自身が発声したトリガーワード及びコマンドワードが情報端末(10)によって正しく音声認識されたことを知らせることができ、かつ、制御コマンドの音声認識の精度の向上を図ることが可能となる。 According to this aspect, the user can be informed that the trigger word and command word that he or she spoke have been correctly voice-recognized by the information terminal (10), and it is possible to improve the accuracy of voice recognition of control commands.

第10の態様の情報端末(10)は、第1~第9のいずれか1つの態様において、マイクロホン(131)に入力された音声を、表示部(16)にテキスト表示させる表示処理部(184)を更に備える。 The information terminal (10) of the tenth aspect is any one of the first to ninth aspects, and further includes a display processing unit (184) that displays the voice input to the microphone (131) as text on the display unit (16).

この態様によれば、ユーザに、自身が発声したキーワードが正しく音声認識されていることを確認させることができるので、ユーザの利便性が向上し得る。 According to this aspect, the user can confirm that the keywords he or she spoke have been correctly recognized, which can improve user convenience.

第11の態様の情報端末(10)では、第10の態様において、音声認識部(182)は、マイクロホンに入力された音声にトリガーワードが含まれているか否かについての音声認識を行う。表示処理部(184)は、マイクロホンに入力された音声のうち、音声認識部(182)によりトリガーワードが音声認識された後の音声をテキスト表示させる。 In the information terminal (10) of the eleventh aspect, in the tenth aspect, the voice recognition unit (182) performs voice recognition as to whether or not the voice input to the microphone contains a trigger word. The display processing unit (184) displays, as text, the voice input to the microphone after the trigger word has been voice-recognized by the voice recognition unit (182).

この態様によれば、ユーザに、トリガーワードの後において自身が発声したキーワード(コマンドワード)が正しく音声認識されていることを確認させることができるので、ユーザの利便性が向上し得る。 According to this embodiment, the user can confirm that the keyword (command word) that he or she spoke after the trigger word has been correctly recognized by voice, thereby improving user convenience.

第12の態様の情報端末(10)は、第1~第11のいずれか1つの態様において、音声認識に関する案内を提示する案内提示部(81)を、更に備える。 The information terminal (10) of the 12th aspect is any one of the first to 11th aspects and further includes a guidance presentation unit (81) that presents guidance regarding voice recognition.

この態様によれば、ユーザの利便性の向上を図ることが可能となる。 This aspect makes it possible to improve user convenience.

第13の態様の情報端末(10)は、第1~第12のいずれか1つの態様において、音声認識部(182)は、マイクロホンに入力された音声に対して、制御処理部(183)が行う制御に関する制御コマンドについての音声認識を行う。情報端末(10)は、音声認識可能な制御コマンドの候補を提示するコマンド候補提示部(82)を、更に備える。 In the information terminal (10) of the thirteenth aspect, in any one of the first to twelfth aspects, the voice recognition unit (182) performs voice recognition for a control command related to the control performed by the control processing unit (183) for a voice input to the microphone. The information terminal (10) further includes a command candidate presentation unit (82) that presents candidates for control commands that can be voice recognized.

この態様によれば、ユーザの利便性の向上を図ることが可能となる。 This aspect makes it possible to improve user convenience.

第14の態様の情報端末(10)では、第1~第13のいずれか1つの態様において、報知部(9)は、音声認識が失敗した場合に、報知を行う。 In the information terminal (10) of the 14th aspect, in any one of the first to 13th aspects, the notification unit (9) issues a notification when voice recognition fails.

この態様によれば、ユーザに、自身が発声したキーワードが情報端末(10)によって正しく音声認識されなかったことを知らせることができるので、ユーザの利便性が向上し得る。 According to this aspect, the user can be informed that the keyword he or she spoke was not correctly recognized by the information terminal (10), thereby improving user convenience.

第15の態様の情報端末(10)では、第14の態様において、音声認識の失敗は、マイクロホンに入力された音声にトリガーワードが含まれていることを検出した後に、制御処理部(183)が行う制御に関する制御コマンドが音声認識されることなく所定の待受時間が経過することを含む。 In the information terminal (10) of the 15th aspect, in the 14th aspect, a failure in voice recognition includes a predetermined standby time elapses without a control command related to control performed by the control processing unit (183) being voice recognized after detecting that a trigger word is included in the voice input to the microphone.

この態様によれば、ユーザに、自身が発声したコマンドワードが情報端末(10)によって正しく音声認識されなかったことを知らせることができるので、ユーザの利便性が向上し得る。 According to this aspect, the user can be informed that the command word he or she spoke was not correctly recognized by the information terminal (10), thereby improving user convenience.

第16の態様の情報端末(10)では、第1~第15のいずれか1つの態様において、報知部(9)は、更に、音声認識結果に基づく制御が失敗した場合に報知を行う。 In the information terminal (10) of the 16th aspect, in any one of the first to fifteenth aspects, the notification unit (9) further issues a notification when control based on the voice recognition result fails.

この態様によれば、ユーザの利便性の向上を図ることが可能となる。 This aspect makes it possible to improve user convenience.

第17の態様のインターホンシステム(1)は、第1~第16のいずれか1つの態様の情報端末(10)と、情報端末(10)と通話を含む通信を行う他の端末(ロビーインターホン20、玄関子機40)と、を備える。 The intercom system (1) of the 17th aspect includes an information terminal (10) of any one of the first to 16th aspects, and another terminal (lobby intercom 20, entrance handset 40) that communicates with the information terminal (10), including making calls.

この態様によれば、ユーザの利便性の向上を図ることが可能となる。 This aspect makes it possible to improve user convenience.

第18の態様の制御方法は、インターホン装置として動作する情報端末(10)の制御方法である。制御方法は、音声認識ステップ(ST1)と、制御処理ステップ(ST2)と、報知ステップ(ST3)と、を含む。音声認識ステップ(ST1)は、マイクロホン(131)に入力された音声に基づいて音声認識処理を行うことを含む。制御処理ステップ(ST2)は、音声認識ステップ(ST1)での音声認識結果に基づいて制御を行うことを含む。報知ステップ(ST3)は、音声認識ステップで(ST1)の音声認識処理の成否に応じた報知を行うことを含む。 The control method of the 18th aspect is a control method for an information terminal (10) that operates as an intercom device. The control method includes a voice recognition step (ST1), a control processing step (ST2), and an alert step (ST3). The voice recognition step (ST1) includes performing voice recognition processing based on a voice input to the microphone (131). The control processing step (ST2) includes performing control based on the voice recognition result in the voice recognition step (ST1). The alert step (ST3) includes performing an alert in the voice recognition step depending on the success or failure of the voice recognition processing in (ST1).

この態様によれば、ユーザの利便性の向上を図ることが可能となる。 This aspect makes it possible to improve user convenience.

第19の態様のプログラムは、1以上のプロセッサに、第18の態様の制御方法を実行させる。 The program of the 19th aspect causes one or more processors to execute the control method of the 18th aspect.

この態様によれば、ユーザの利便性の向上を図ることが可能となる。 This aspect makes it possible to improve user convenience.

1 インターホンシステム
10 情報端末
131 マイクロホン
151 スピーカ
16 表示部
182 音声認識部
183 制御処理部
184 表示処理部
20 ロビーインターホン(他の端末)
40 玄関子機(他の端末)
81 案内提示部
82 コマンド候補提示部
9 報知部
ST1 音声認識ステップ
ST2 制御処理ステップ
ST3 報知ステップ
REFERENCE SIGNS LIST 1 Intercom system 10 Information terminal 131 Microphone 151 Speaker 16 Display unit 182 Voice recognition unit 183 Control processing unit 184 Display processing unit 20 Lobby intercom (another terminal)
40 Entrance door unit (other terminal)
81 Guidance presentation unit 82 Command candidate presentation unit 9 Notification unit ST1 Voice recognition step ST2 Control processing step ST3 Notification step

Claims (19)

インターホン装置として動作する情報端末であって、
マイクロホンに入力された音声に対して音声認識を行う音声認識部と、
前記音声認識部の音声認識結果に基づく制御を行う制御処理部と、
前記音声認識部による前記音声認識の成否に応じた報知を行う報知部と、を備える、
情報端末。
An information terminal that operates as an intercom device,
a voice recognition unit that performs voice recognition on a voice input to a microphone;
a control processing unit that performs control based on a voice recognition result of the voice recognition unit;
and a notification unit that notifies the user according to whether the voice recognition by the voice recognition unit is successful or not.
Information terminal.
前記報知部は、前記マイクロホンに入力された前記音声に対して、前記音声認識部によってトリガーワードについての音声認識が成功した場合に、報知を行う、
請求項1に記載の情報端末。
The notification unit issues a notification when the voice recognition unit has successfully recognized a trigger word for the voice input to the microphone.
2. An information terminal according to claim 1.
前記トリガーワードについての前記音声認識の成功に対する前記報知は、表示による報知を含む、
請求項2に記載の情報端末。
The notification of the success of the voice recognition of the trigger word includes a notification by display.
3. An information terminal according to claim 2.
前記表示による前記報知は、表示灯の点灯又は点滅を含む、
請求項3に記載の情報端末。
The notification by the display includes lighting or blinking of an indicator light.
4. An information terminal according to claim 3.
前記表示灯は、前記表示による前記報知以外の用途と兼用される、
請求項4に記載の情報端末。
The indicator light is used for purposes other than the notification by the display.
5. An information terminal according to claim 4.
前記報知部は、前記マイクロホンに入力された前記音声に対して、前記音声認識部によって前記制御処理部が行う制御に関する制御コマンドについての音声認識が成功した場合に、報知を行う、
請求項1に記載の情報端末。
the notification unit issues a notification when the voice recognition unit has succeeded in recognizing a control command related to the control performed by the control processing unit with respect to the voice input to the microphone;
2. An information terminal according to claim 1.
前記制御コマンドについての前記音声認識の成功に対する前記報知は、音による報知を含む、
請求項6に記載の情報端末。
The notification of success of the voice recognition of the control command includes a sound notification.
7. An information terminal according to claim 6.
前記音による前記報知は、前記制御コマンドに基づく制御内容を示す音声の出力を含む、
請求項7に記載の情報端末。
The notification by the sound includes output of a voice indicating a control content based on the control command.
8. An information terminal according to claim 7.
前記報知部は、
前記マイクロホンに入力された前記音声に対して、前記音声認識部によりトリガーワードについての音声認識が成功した場合に、表示による報知を行い、
前記マイクロホンに入力された前記音声に対して、前記音声認識部により前記制御処理部が行う制御に関する制御コマンドについての音声認識が成功した場合に、音による報知を行う、
請求項1に記載の情報端末。
The notification unit is
When the voice recognition unit has successfully recognized a trigger word from the voice input to the microphone, a notification is given by displaying the trigger word.
a notification by sound is given when the voice recognition unit has succeeded in recognizing a control command related to the control performed by the control processing unit with respect to the voice input to the microphone;
2. An information terminal according to claim 1.
前記マイクロホンに入力された前記音声を表示部にテキスト表示させる表示処理部を更に備える、
請求項1に記載の情報端末。
a display processing unit that displays the voice input to the microphone as text on a display unit;
2. An information terminal according to claim 1.
前記音声認識部は、前記マイクロホンに入力された前記音声にトリガーワードが含まれているか否かについての音声認識を行い、
前記表示処理部は、前記マイクロホンに入力された前記音声のうち、前記音声認識部により前記トリガーワードが音声認識された後の音声をテキスト表示させる、
請求項10に記載の情報端末。
the voice recognition unit performs voice recognition as to whether or not the voice input to the microphone includes a trigger word;
the display processing unit causes the voice input to the microphone after the trigger word has been recognized by the voice recognition unit to be displayed as text.
An information terminal according to claim 10.
前記音声認識に関する案内を提示する案内提示部を、更に備える、
請求項1に記載の情報端末。
The system further includes a guidance presentation unit that presents guidance regarding the voice recognition.
2. An information terminal according to claim 1.
前記音声認識部は、前記マイクロホンに入力された前記音声に対して、前記制御処理部が行う制御に関する制御コマンドについての音声認識を行い、
前記情報端末は、音声認識可能な前記制御コマンドの候補を提示するコマンド候補提示部を、更に備える。
請求項1に記載の情報端末。
the voice recognition unit performs voice recognition on the voice input to the microphone for a control command related to a control to be performed by the control processing unit,
The information terminal further includes a command candidate presentation unit that presents candidates of the control command that can be voice-recognized.
2. An information terminal according to claim 1.
前記報知部は、前記音声認識が失敗した場合に、報知を行う、
請求項1に記載の情報端末。
The notification unit issues a notification when the voice recognition has failed.
2. An information terminal according to claim 1.
前記音声認識の失敗は、前記マイクロホンに入力された前記音声にトリガーワードが含まれていることを検出した後に、前記制御処理部が行う制御に関する制御コマンドが音声認識されることなく所定の待受時間が経過することを含む、
請求項14に記載の情報端末。
The failure of the voice recognition includes a state in which, after detecting that the voice input to the microphone contains a trigger word, a predetermined standby time elapses without a control command related to a control performed by the control processing unit being voice-recognized.
An information terminal according to claim 14.
前記報知部は、更に、前記音声認識結果に基づく制御が失敗した場合に報知を行う、
請求項1に記載の情報端末。
The notification unit further issues a notification when the control based on the voice recognition result has failed.
2. An information terminal according to claim 1.
請求項1~16のいずれか1項に記載の情報端末と、
前記情報端末と通話を含む通信を行う他の端末と、を備える、
インターホンシステム。
An information terminal according to any one of claims 1 to 16,
and another terminal that performs communication, including telephone calls, with the information terminal.
Intercom system.
インターホン装置として動作する情報端末の制御方法であって、
マイクロホンに入力された音声に基づいて音声認識処理を行う音声認識ステップと、
前記音声認識ステップでの音声認識結果に基づいて制御を行う制御処理ステップと、
前記音声認識ステップでの前記音声認識処理の成否に応じた報知を行う報知ステップと、を含む、
制御方法。
A method for controlling an information terminal that operates as an intercom device, comprising:
a voice recognition step of performing voice recognition processing based on a voice input to a microphone;
a control processing step for performing control based on a result of the voice recognition in the voice recognition step;
a notification step of performing a notification according to success or failure of the voice recognition process in the voice recognition step.
Control methods.
1以上のプロセッサに、請求項18に記載の制御方法を実行させるための、
プログラム。
20. A method for causing one or more processors to execute the control method of claim 18,
program.
JP2022182905A 2022-11-15 2022-11-15 Information terminal, intercom system, control method and program Pending JP2024072184A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022182905A JP2024072184A (en) 2022-11-15 2022-11-15 Information terminal, intercom system, control method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022182905A JP2024072184A (en) 2022-11-15 2022-11-15 Information terminal, intercom system, control method and program

Publications (1)

Publication Number Publication Date
JP2024072184A true JP2024072184A (en) 2024-05-27

Family

ID=91194051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022182905A Pending JP2024072184A (en) 2022-11-15 2022-11-15 Information terminal, intercom system, control method and program

Country Status (1)

Country Link
JP (1) JP2024072184A (en)

Similar Documents

Publication Publication Date Title
US11475745B2 (en) Self-contained security system including voice and video calls via the internet
CN105120122A (en) Alarm method and device
CN110473550A (en) Voice communication method, device and storage medium
US11108998B2 (en) Method and system for providing video intercom transmission of images
JP7422321B2 (en) Intercom system, setting method, and program
JP2024072184A (en) Information terminal, intercom system, control method and program
JP7095356B2 (en) Communication terminal and conference system
JP2022145842A (en) Intercom system, control method, and program
CN109521923A (en) Suspension window control method, device and storage medium
JP2024072185A (en) Information terminal, intercom system, voice recognition system, control method, and program
TWI818035B (en) Intercom door station, intercom system, control method, and program
JP2024072183A (en) Information terminal, intercom system, voice recognition system, control method, and program
JP2024072182A (en) Information terminal, intercom system, control method and program
WO2019187572A1 (en) Interphone device and program
CN111405225A (en) Method, device and system for realizing visual intercom service of access control and intelligent robot
JP2008153819A (en) Intercom system
EP4054163A1 (en) Multiple dwelling house interphone system
TWI806067B (en) Information device, intercom system, control method, and program
JP2021140114A (en) Information terminal, intercom system, processing method and program
JP7390582B2 (en) Call system, control method and program
JP7320720B2 (en) INTERCOM SYSTEM, CONTROL METHOD, AND PROGRAM
JP2021141572A (en) Information terminal, intercom system, processing method and program
JP2002033837A (en) Security system
JP5124331B2 (en) Housing information board in intercom system
JP2023010577A (en) Information terminal, intercom system, and program