JP6659514B2

JP6659514B2 - 電子機器及びその制御方法

Info

Publication number: JP6659514B2
Application number: JP2016200978A
Authority: JP
Inventors: 秀人井澤; 玲子嘉和知; 邦朗本沢; 弘之野本
Original assignee: Toshiba Visual Solutions Corp
Current assignee: Toshiba Visual Solutions Corp
Priority date: 2016-10-12
Filing date: 2016-10-12
Publication date: 2020-03-04
Anticipated expiration: 2036-10-12
Also published as: JP2018063328A; EP3309779A1; US11404060B2; US20180102127A1; US20200135202A1; US10522139B2

Description

本発明の実施形態は、家庭やオフィスや小規模事業所におけるホームオートメーションの分野における、音声によって複数の機器を制御する電子機器及びその制御方法に関するものである。

従来ホームオートメーションの分野において、音声入力により家庭やオフィスや小規模事業所における種々の機器を操作及び制御する音声認識装置及び方法が存在している。

この音声認識装置及び方法は、ユーザから入力された音声を解析することで、その入力された音声が当該装置の機能をオンにする音声であるか否かの判定を行ったり、当該装置の機能をオンにする音声であると判定した場合は、継続する音声の内容を分析しその分析結果に基づく処理を行ったりするものである。また、ユーザから入力された音声の特徴を認識することで、音声を発したユーザを特定し、そのユーザに適した処理を行ったりするものもある。

国際公開2015-029379号国際公開2015-033523号

ホームオートメーションシステムの形態としては、各々の機器が家庭内のネットワークにより互いに接続され、更にこの接続された複数の機器をトータルで制御するホスト機器がネットワークに接続されているものがある。この場合ホスト機器は、ネットワークで接続された各機器の動作の制御を行ったり、各機器に関する情報を集めてユーザが一元的に閲覧等できるよう管理したりしている。

実施形態の電子機器は、外部から入力される第１の音声の内容により、前記第１の音声
が入力された以降に入力される第２の音声の内容に基づいて１台または複数台の機器の制
御の実行を判定する電子機器において、前記第１の音声が所望の音声であることを判定す
るための判定用音声データを、複数回外部から入力された音声により作成管理し、作成管
理されている前記判定用音声データを用いて前記第１の音声が所望の音声であることを判
定する管理手段と、第２の音声の内容に基づいて前記１台または複数台の機器の制御を実
行する制御手段とを備え、前記管理手段により前記判定用音声データを用いて、前記第１
の音声が所望の音声であると判定された場合に、前記制御手段により前記第２の音声の内
容に基づいて前記１台または複数台の機器の制御を実行し、前記管理手段による判定結果を表示できる表示部を有し、前記第１の音声が、前記管理手段により前記判定用音声データを用いて所望の音声であると判定された場合は、その旨を前記表示部に表示し、前記管理手段は、前記判定用音声データを用いて前記第１の音声が所望のデータであることを判定する際に、複数の基準を持つ判定基準１を持ち、判定結果が満たす前記判定基準１の複数の基準のうちのいずれかに応じて、前記表示部に表示する内容を変える。

このような形態のホームオートメーションシステムは、制御対象の機器をネットワークにより容易に接続させることが可能なため、接続機器の数や種類が多数になる傾向がある。また、制御対象の機器の追加、変更、バージョンアップ、設置場所の移動及び廃棄等に伴うネットワークへの新たな参加、設定変更及びネットワークからの脱退が度々発生する傾向にある。また、接続している機器の動作内容や仕様等の種類が多数に及ぶことから、家庭内やオフィスでも老若男女問わずホームオートメーションシステムを使用する傾向にある。特に最近の多種多様な機能をもつ機器やセンサの小型化に伴い、この傾向はますます顕著になってきている。

しかし従来のホームオートメーションシステムでは、多種多様の機器の制御や幅広いユーザ層への対応が十分とは言えないものであった。例えば、家庭内でホームオートメーションシステムを使用する場合、家族一人ひとりの生活スタイルによりマッチした機器の制御が十分に行われているとは言えないものであった。

本実施形態は、上記課題を鑑みてなされたもので、ネットワークにより接続された多種多様な機器を、ユーザの個々の生活スタイルによりマッチするように制御する電子機器及びその制御方法を提案することを目的とする。

実施形態の電子機器は、外部から入力される第１の音声の内容により、前記第１の音声が入力された以降に入力される第２の音声の内容に基づいて１台または複数台の機器の制御の実行を判定する電子機器において、前記第１の音声が所望の音声であることを判定するための判定用音声データを、複数回外部から入力された音声により作成管理し、作成管理されている前記判定用音声データを用いて前記第１の音声が所望の音声であることを判定する管理手段と、第２の音声の内容に基づいて前記１台または複数台の機器の制御を実行する制御手段とを備え、前記管理手段により前記判定用音声データを用いて、前記第１の音声が所望の音声であると判定された場合に、前記制御手段により前記第２の音声の内容に基づいて前記１台または複数台の機器の制御を実行する。

図１は一実施形態に係るホームオートメーションシステムの全体像の例を示す図である。図２は一実施形態に係るセンサの他の例を示す一覧である。図３は一実施形態に係るホスト機器の例を示す図である。図４は一実施形態に係るホスト機器の機能ブロック図である。図５Ａは一実施形態に係る予約語の登録における処理シーケンスの例を示す図である。図５Ｂは一実施形態に係る予約語の登録における処理シーケンスの例を示す図である。図６Ａは一実施形態に係る予約語の登録における処理シーケンスの例を示す図である。図６Ｂは一実施形態に係る予約語の登録における処理シーケンスの例を示す図である。図７Ａは一実施形態に係る予約語の登録における処理シーケンスの例を示す図である。図７Ｂは一実施形態に係る予約語の登録における処理シーケンスの例を示す図である。図８Ａは一実施形態に係る予約語の認識における処理シーケンスの例を示す図である。図８Ｂは一実施形態に係る予約語の認識における処理シーケンスの例を示す図である。図９Ａは一実施形態に係る予約語の認識における処理シーケンスの例を示す図である。図９Ｂは一実施形態に係る予約語の認識における処理シーケンスの例を示す図である。図１０Ａは一実施形態に係る予約語を認識した以降に、継続してユーザが発した機器やセンサを制御する言葉をもとに該当する機器やセンサを制御する処理シーケンスの例を示す図である。図１０Ｂは一実施形態に係る予約語を認識した以降に、継続してユーザが発した機器やセンサを制御する言葉をもとに該当する機器やセンサを制御する処理シーケンスの例を示す図である。図１１Ａは一実施形態に係る予約語を認識した以降に、継続してユーザが発する機器やセンサを制御する言葉が、一定時間内に継続される場合の処理シーケンスの例を示す図である。図１１Ｂは一実施形態に係る予約語を認識した以降に、継続してユーザが発する機器やセンサを制御する言葉が、一定時間内に継続される場合の処理シーケンスの例を示す図である。図１２Ａは一実施形態に係る予約語を認識した以降に、継続してユーザが発する機器やセンサを制御する言葉が、一定時間を超えて継続される場合の処理シーケンスの例を示す図である。図１２Ｂは一実施形態に係る予約語を認識した以降に、継続してユーザが発する機器やセンサを制御する言葉が、一定時間を超えて継続される場合の処理シーケンスの例を示す図である。図１３は一実施形態に係る予約語を認識した以降に、機器やセンサを制御する際に用いる制御情報の内容を具体的に示した一覧である。図１４は一実施形態に係る複数の予約語に応じて変更する動作内容の例を示す一覧である。図１５Ａは一実施形態に係る複数の予約語の登録において、各予約語に応じて変更する動作内容もあわせて登録する処理シーケンスの例を示す図である。図１５Ｂは一実施形態に係る複数の予約語の登録において、各予約語に応じて変更する動作内容もあわせて登録する処理シーケンスの例を示す図である。図１６Ａは一実施形態に係る予約語の認識において、各予約語に応じて動作内容を設定する処理シーケンスの例を示す図である。図１６Ｂは一実施形態に係る予約語の認識において、各予約語に応じて動作内容を設定する処理シーケンスの例を示す図である。図１７は一実施形態に係る予約語において、その予約語に継続する言葉に応じて設定する動作内容の例を示す一覧である。図１８Ａは一実施形態に係る登録済み予約語の認識において、その予約語に継続する言葉に応じて動作内容を設定する処理シーケンスの例を示す図である。図１８Ｂは一実施形態に係る登録済み予約語の認識において、その予約語に継続する言葉に応じて動作内容を設定する処理シーケンスの例を示す図である。図１８Ｃは一実施形態に係る登録済み予約語の認識において、その予約語に継続する言葉に応じて動作内容を設定する処理シーケンスの例を示す図である。図１８Ｄは一実施形態に係る登録済み予約語の認識において、その予約語に継続する言葉に応じた動作内容を設定する処理シーケンスの別の例を示す図である。図１８Ｅは一実施形態に係る登録済み予約語の認識において、その予約語に継続する言葉に応じた動作内容を設定する処理シーケンスの別の例を示す図である。図１９Ａは一実施形態に係る予約語の認識において、その認識した予約語に継続する言葉に応じて動作内容を設定する処理シーケンスの例を示す図である。図１９Ｂは一実施形態に係る予約語の認識において、その認識した予約語に継続する言葉に応じて動作内容を設定する処理シーケンスの例を示す図である。図２０は一実施形態に係る複数の予約語の認識において、その予約語に応じて使用する音声認識辞書の種類の例を示す一覧である。図２１Ａは一実施形態に係る複数の予約語の認識において、その予約語に応じて使用する音声認識辞書の種類を変更する処理シーケンスの例を示す図である。図２１Ｂは一実施形態に係る複数の予約語の認識において、その予約語に応じて使用する音声認識辞書の種類を変更する処理シーケンスの例を示す図である。図２２は一実施形態に係る複数の予約語の認識において、その予約語に継続する言葉や応じて設定する動作内容や、使用する音声認識辞書の種類を変更する例を示す一覧である。図２３は一実施形態に係る音声認識辞書の種類の変更において、予約語以外の内容に応じて変更する例を示す一覧である。図２４は一実施形態に係る音声認識辞書の種類の変更において、予約語以外の内容に応じて変更する音声認識辞書の種類を登録する処理のシーケンスを示す図である。図２５は一実施形態に係る音声認識辞書の種類の変更において、予約語以外の内容に応じて登録する音声認識辞書の種類を変える場合の処理のシーケンスを示す図である。図２６は一実施形態に係る処理において、ユーザが登録済みの予約語を忘れてしまった場合の、予約語を表示するための予約語（救済用）と、それに対応して予約語を表示する範囲の例を示す一覧である。図２７は一実施形態に係るホスト機器の機能ブロック図である。図２８は一実施形態に係る処理において、予約語、付加語、あるいは付加情報を登録するシーンが発生したとき、あるいは予約語、付加語、を認識するシーンが発生したときに、ホスト機器３３２が登録のシーンあるいは認識のシーンを録音あるいは録画する場合の時間経過の一例を示している図である。図２９は一実施形態に係る録音あるいは録画されたシーンの各データを再生する際の再生対象のデータが表示されている様子の一例を示している図である。

図１は、本実施形態に係るホームオートメーションシステムの全体構成の一例を示した図である。ホームオートメーションシステムは、クラウドに置かれたサーバ群からなるクラウドサーバ１と、ＨＧＷ（ＨｏｍｅＧａｔｅＷａｙ）機能を持つホスト機器３３２を経由してネットワーク３３３で互いに接続されている各種センサ３１０や各種設備機器３２０や各種家電機器３４０が配置されているホーム３と、クラウドサーバ１とホスト機器３３２とを接続するインターネット２とから成る。

ホーム１は、ＨＧＷ機能を持つホスト機器３３２を経由して、家庭内のネットワーク３３３で互いに接続されている各種センサ３１０や各種設備機器３２０や各種家電機器３４０が配置された家庭やオフィスや小規模事業所であり、その規模は問わない。

ホスト機器３３２は、予め設定されている情報やネットワーク３３３で接続されたセンサから通知された情報をもとにネットワーク３３３で接続されている機器やセンサを制御したり、また各々の機器やセンサに関する情報を一元管理したりする機能を有する。

更にホスト機器３３２は、マイクを備えておりユーザ３３１が発した言葉を取り込むことが出来る。ホスト機器３３２は、ユーザ３３１が発した言葉の中から予め決められたキーワード（以降予約語と呼ぶ）を認識すると、その予約語に続いてユーザ３３１が発した言葉を取り込み、その取り込んだ言葉の内容を解析することで解析結果に応じた応答をユーザ３３１に返したり、或いはネットワーク３３３で接続されている機器やセンサを解析結果に応じて制御をしたりする機能を有する。

逆にホスト機器３３２は、ユーザ３３１が発した言葉の中から予約語を認識しない限り、ユーザ３３１が発した言葉を継続して取り込むことはしない。これによりホスト機器３３２は、周囲の不要な音声を拾って動作することを防いでいる。

予約語の認識はホスト機器３３２内で行われ、予約語に続いてユーザ３３１が発した言葉を継続して取り込み、その取り込んだ言葉の内容の解析は、クラウドサーバ１において行われる。ホスト機器３３２の機能の詳細については後で説明する。

各種設備機器３２０と各種家電機器３４０は、説明の便宜上設備機器３２０が移動があまり容易でない機器を意味しており、各種家電機器３４０が移動が比較的容易である機器を意味している。例示した設備機器や家電機器の名称は、個々の機器の能力や機能を制限するものではない。

各種センサ３１０の具体例として、防犯カメラ３１１、火災報知器３１２、人感センサ３１３、温度センサ３１４がある。また、各種設備機器３２０３２０の具体例として、インターフォン３２５、照明３２６、エアコン３２７、給湯器３２８がある。また、各種家電機器３４０の具体例として、洗濯機３４１、冷蔵庫３４２、電子レンジ３４３、扇風機３４４、炊飯器３４５、テレビ３４６がある。

図２は、図１に示す各種センサ３１０のその他の例を示したものである。

図３は、図１に示すホスト機器３３２の種々の例を示している。

ホスト機器３３２−１は、図１に示すホスト機器３３２であり、ＨＧＷ機能を内蔵する据え置き型の例である。ホスト機器３３２−１は、ネットワーク３３３を通じてホーム１内に配置されている他の機器やセンサと接続されており、またインターネット２を通じてクラウドサーバ１と接続されている。ホスト機器３３２−１は、据え置き型のため例えばモーター等の自律的に移動する手段を搭載しない例である。

ホスト機器３３２−２は、ＨＧＷ機能を内蔵しない据え置き型の例である。そのためホスト機器３３２−２は、ネットワーク３３３を通じてＨＧＷ３３０と接続されている。ホスト機器３３２−２は、ＨＧＷ３３０を経由してネットワーク３３３を通じてホーム１内に配置されている他の機器やセンサと接続され、またＨＧＷ３３０を経由してインターネット２を通じてクラウドサーバ１と接続されている。ホスト機器３３２−２は、据え置き型のため例えばモーター等の自律的に移動する手段を搭載しない例である。

ホスト機器３３２−３は、ＨＧＷ機能を内蔵する可動型の例である。ホスト機器３３２−３は、ネットワーク３３３を通じて他の機器やセンサと接続されており、またインターネット２を通じてクラウドサーバ１と接続されている。ホスト機器３３２−３は、可動型のため例えばモーター等の自律的に移動するための手段を搭載する例である。

ホスト機器３３２−４は、ＨＧＷ機能を内蔵しない可動型の例である。そのためホスト機器３３２−４は、ネットワーク３３３を通じてＨＧＷ３３０と接続されている。ホスト機器３３２−４は、ＨＧＷ３３０を経由してネットワーク３３３を通じて他の機器やセンサと接続され、またＨＧＷ３３０を経由してインターネット２を通じてクラウドサーバ１と接続されている。ホスト機器３３２−４は、可動型のため例えばモーター等の自律的に移動するための手段を搭載する例である。

図４は、図１に示すホスト機器３３２の機能ブロックを示したものである。ホスト機器３３２は、内部の処理全体を制御するシステムコントローラ４０２、とそれにより各機能を制御する制御管理部４０１、トリガー設定部４０３、トリガー認識部４０５、入力管理部４２０及びネットワーク３３３と接続するためのネットワークＩ／Ｆ４２７をもつ。制御管理部４０１は、内部にホスト機器３３２の各種動作を制御するための複数のアプリケーションを管理するＡＰＰ−Ｍｇ４０１−１、ホスト機器３３２の各機能ブロックの初期設定や種々の状態設定や動作設定などの設定内容を管理するＣＯＮＦ−Ｍｇ４０１−２からなる。

またホスト機器３３２は、ユーザ３３１とのインターフェース（Ｉ／Ｆ）として、ユーザ３３１が発する言葉を取り込むためのマイク４２１、ユーザ３３１に対して応答を音声で出力するためのスピーカ４２３及びユーザ３３１に対してホスト機器３３２の状態を通知するための表示部４２５とを持つ。

マイク４２１は、入力管理部４２０に接続されている。入力管理部４２０は、内部で管理する状態に応じて、マイク４２１から入力された音声データを、トリガー設定部４０３、トリガー認識部４０５及び音声処理部４０７の何れに送るかの制御をする。表示部４２５は、ホスト機器３３２の状態をユーザ３３１に通知するものであり、例えばＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）やＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）である。

メモリ４１０は、動作モード保存エリア４１０−１、予約語保存エリア４１０−２、音声蓄積エリア４１０−３の３つの領域に分かれている。各々のエリアに保存される情報の内容は後で説明する。

先に述べたようにホスト機器３３２の機能は、ユーザ３３１が発した言葉の中から予約語を認識すると、その予約語に継続するユーザ３３１の発した言葉を取り込み、その取り込んだ言葉の内容を解析することで、解析結果に応じた応答をユーザ３３１に返したりネットワーク３３３を通じて接続されている機器やセンサの動作を制御したりする機能を持つ。

これらの機能を実現するために、ホスト機器３３２は、大きく４つの処理を行う。１つ目の処理は、予約語の登録である。２つ目の処理は、予約語の認識である。３つ目の処理は、動作を制御する機器やセンサの制御内容の登録である。４つ目の処理は、制御内容が登録されている機器やセンサの制御である。

最初に、１つ目の処理である予約語の登録について説明する。
ホスト機器３３２は、予約語をホスト機器３３２に登録する機能を有している。予約語を登録するために、ホスト機器３３２は、予約語を登録するモード（以降予約語登録モードと呼ぶ）を有している。

図５Ａおよび図５Ｂは、予約語を登録するためにホスト機器３３２が「予約語登録モード」に遷移している状態において、予約語の登録開始から登録完了までのホスト機器３３２の処理シーケンスの例を示している。

なおホスト機器３３２は、モード変更するために予め決められた順番通りにユーザ３３１が発した言葉を認識することで、モード変更ができるようにしてもよい。あるいは表示部４２５にメニュー画面を表示し、そのメニュー画面をユーザ３３１が操作することでモード変更ができるようにしてもよい。あるいは、ネットワークＩ／Ｆ４２７を経由して接続されているスマートフォンやタブレットに表示されたホスト機器３３２のモードを変更するメニュー画面をユーザ３３１が操作することで、モード変更ができるようにしてもよい。

予約語として登録する言葉をユーザ３３１が発すると、ホスト機器３３２はマイク４２１から入力された音声データを入力管理部４２０に取り込む（Ｓ５０１）。入力管理部４２０は、内部で管理する状態に応じて入力された音声データの転送先を決める機能を有している。ホスト機器３３２のモードが設定モードである場合、入力管理部４２０は、受信した音声データをトリガー設定部４０３に転送する（Ｓ５０２）。トリガー設定部４０３は、受信した音声データをメモリ４１０の音声蓄積エリア４１０−３に保存する（Ｓ５０３）とともに、ユーザ３３１の音声を取り込んだ回数が規定回数に達しているかの確認（Ｓ５０４）を行う。

トリガー設定部４０３は、ユーザ３３１の音声を取り込んだ回数が規定回数に達しているかの確認の結果、規定回数に達していないと判定した場合、登録する言葉を発するようにユーザ３３１に促す表示を行う（Ｓ５０７）と共に、入力管理部４２０に対して入力継続通知を送付する（Ｓ５０６）。入力継続通知を受信した入力管理部４２０は、内部の状態をマイクからの音声の入力待ちの状態に遷移させる（Ｓ５００）。

なお、登録する言葉を入力するようにユーザ３３１に対して促す表示は、トリガー設定部４０３が表示装置４２５に対して登録未完了通知を送信（Ｓ５０５）し、その登録未完了通知を受信した表示装置４２５が例えば発光ダイオード（ＬＥＤ）を赤色で点滅させる（Ｓ５０７）、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。また表示による方法の代わりに音声による方法を用いて、登録する言葉の入力をユーザ３３１に促してもよい。この場合トリガー設定部４０３は、スピーカ４２３に対して登録未完了通知を送信し、この登録未完了通知を受け取ったスピーカ４２３は、例えば「もう一度入力してください」とユーザ３３１に対してアナウンスする方法でもよい。或いはトリガー設定部４０３は、ユーザ３３１に対して登録する言葉の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器３３２が可動型の場合、トリガー設定部４０３は、ホスト機器３３２が例えばある一定の角度幅で繰り返し回転移動するように、記載していない移動手段に対して指示を出してもよい。

トリガー設定部４０３は、ユーザ３３１の音声を取り込んだ回数が規定回数に達しているかの確認の結果、規定回数に達していると判定した場合、それまでに音声蓄積エリア４１０−３に保存してある音声データを読み出し（Ｓ５０８）、インターネット２を通じてクラウドサーバ１にある音声認識クラウド１０１の中の認識用データ変換部１０１−１に送付する（Ｓ５０９）。

認識用データ変換部１０１−１は、トリガー設定部４０３から送られてきた音声データを、予約語として認識するための認識用データに変換する（Ｓ５１０）。認識用データへの変換が完了すると、認識用データ変換部（１０１−１）は、インターネット２を通じて認識用データをトリガー設定部４０３に送付（Ｓ５１１）する。認識用データを受信したトリガー設定部４０３は、受信したデータをメモリ４１０の予約語保存エリア４１０−２に保存する（Ｓ５１２）。

トリガー設定部４０３は、予約語の登録が完了したことをユーザ３３１に対して知らせる表示（Ｓ５１４）を行う。予約語の登録が完了したことをユーザ３３１に対して知らせる表示は、トリガー設定部４０３が表示装置４２５に対して登録完了通知を送信（Ｓ５１４）し、その登録完了通知を受信した表示装置４２５が例えばＬＥＤを緑色で点灯させる、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。或いはトリガー設定部４０３は、予約語の登録が完了したことをユーザ３３１に対して通知するのに、表示による方法の代わりに音声による方法を用いてもよい。この場合トリガー設定部４０３は、スピーカ４２３に対して登録完了通知を送信し、この登録完了通知を受け取ったスピーカ４２３は、例えば「登録が完了しました」とユーザ３３１に対してアナウンスする方法でもよい。或いはトリガー設定部４０３は、ユーザ３３１に対して予約語の登録が完了したことを通知するのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器３３２が可動型の場合、トリガー設定部４０３は、ホスト機器３３２が例えばある一定の移動幅で繰り返し直線移動するように、記載していない移動手段に対して指示を出してもよい。

以上のように、トリガー設定部４０３は、予約語の登録においてデータの流れを管理する役割を持っている。

図６Ａおよび図６Ｂは、予約語の登録開始から登録完了までの別のシーケンス例を示している。ホスト機器３３２が取り込んだ音声データを予約語として登録するのに不十分な場合がある。このように取り込んだデータが不十分な場合の処理の例を示す。

図６Ａおよび図６Ｂに示すＳ６００からＳ６１５の処理は、それぞれ図５Ａおよび図５Ｂに示すＳ５００からＳ５１５の処理と同一である。図５Ａおよび図５Ｂにおける処理と図６Ａおよび図６Ｂにおける処理との相違点は、図６Ｂの処理にＳ６１６の処理からＳ６１９の処理が追加されている点である。

トリガー設定部４０３は、ユーザ３３１が発した言葉を取り込んだ回数が規定回数に達しているかの確認（Ｓ６０４）を行った結果、規定回数に達していると判定した場合、それまでに音声蓄積エリア４１０−３に保存してある音声データを読み出し（Ｓ６０８）、インターネット２を通じてクラウドサーバ１にある音声認識クラウド１０１の中の認識用データ変換部１０１−１に送付する（Ｓ６０９）。

トリガー設定部４０３は、ユーザ３３１が発した言葉を取り込んだ回数が規定回数に達していないと判定した場合、登録する言葉を発するようにユーザ３３１に促す表示を行う（Ｓ６０７）と共に、入力管理部４２０に対して入力継続通知を送付する（Ｓ６０６）。入力継続通知を受信した入力管理部４２０は、内部の状態をマイクからの音声の入力待ちの状態に遷移させる（Ｓ６００）。

なお、登録する言葉を入力するようにユーザ３３１に対して促す表示は、トリガー設定部４０３が表示装置４２５に対して登録未完了通知を送信（Ｓ６０５）し、その登録未完了通知を受信した表示装置４２５が例えばＬＥＤを赤色で点滅させる（Ｓ６０７）、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。また表示による方法の代わりに音声による方法を用いて、登録する言葉の入力をユーザ３３１に促してもよい。この場合トリガー設定部４０３は、スピーカ４２３に対して登録未完了通知を送信し、この登録未完了通知を受け取ったスピーカ４２３は、例えば「もう一度入力してください」とユーザ３３１に対してアナウンスする方法でもよい。或いはトリガー設定部４０３は、ユーザ３３１に対して登録する言葉の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器３３２が可動型の場合、トリガー設定部４０３は、ホスト機器３３２が例えばある一定の角度幅で繰り返し回転移動するように、記載していない移動手段に対して指示を出してもよい。

認識用データ変換部１０１−１は、トリガー設定部４２０より送られてきた全音声データを認識用データに変換する際に、送られてきた音声データが認識用データに変換できるかどうかを判定する（Ｓ６１６）。送られてきた音声データの幾つかが認識用データに変換できないと判定した場合、認識用データ変換部１０１−１は、インターネット２を通じてトリガー設定部４０３に対して音声データ追加要求を送信（Ｓ６１７）する。音声データ追加要求を受信したトリガー設定部４０３は、予約語として登録したい言葉をユーザ３３１に追加で入力してもらう回数を設定し（Ｓ６１８）、入力管理部４２０に対して入力継続通知（Ｓ６１９）を通知する。

トリガー設定部４０３がユーザ３３１に追加で入力してもらう追加回数を設定した（Ｓ６１８）時点では、表示部４２５の例えばＬＥＤは赤色で点灯したままである。この表示に従って、ユーザ３３１は、Ｓ６１８で追加設定された回数分、予約語として登録する言葉を発する。

入力管理部４２０は、入力継続通知を受信すると（Ｓ６１９）、内部状態を入力待ちに遷移させ（Ｓ６００）、ユーザ３３１が発する言葉の入力待ち状態となる。

図５Ａおよび図５Ｂに示す処理、図６Ａおよび図６Ｂに示す処理は、ユーザ３３１が発した音声を入力管理部４０２が取り込んだ回数が規定回数に達してから、その取り込んだ音声データをまとめてクラウドサーバ１にある認識用データ変換部１０１−１に送信する例であるが、ユーザ３３１が発した音声を入力管理部４２０が取り込むごとに、その取り込んだ音声データを認識用データ変換部１０１−１に送信してもよい。図７Ａおよび図７Ｂは、ユーザ３３１が発した音声を入力管理部４２０が取り込むごとに、その取り込んだ音声データを逐次クラウドサーバ１にある認識用データ変換部１０１−１に送付して、認識用データに変換する場合のシーケンス例である。

図７Ａに示すＳ７００からＳ７０２の処理は、それぞれ図５Ａに示すＳ５００からＳ５０２に示す処理と同一である。また図７Ａに示すＳ７０３とＳ７０４の処理は、それぞれ図５Ａに示すＳ５０５とＳ５０７の処理と同一である。

予約語として登録する言葉をユーザ３３１が発すると、ホスト機器３３２は、マイク４２１から入力された音声データを入力管理部４２０に取り込む（Ｓ７０１）。ホスト機器３３２のモードが予約語登録モードであるので、入力管理部４２０は、受信した音声データをトリガー設定部４０３に転送する（Ｓ７０２）。トリガー設定部４０３は、受信した音声データを、受信するごとに逐次クラウドサーバ１にある認識用データ変換部１０１−１に送信する（Ｓ７０６）。認識用データ変換部１０１−１は、トリガー設定部４０３より送られてきた音声データを認識用データに変換する際に、送られてきた音声データが認識用データに変換できるかどうかを判定する（Ｓ７０７）。

送られてきた音声データが認識用データに変換できないと判定した場合は、認識用データ変換部１０１−１はインターネット２を通じてトリガー設定部４０３に対して音声データ追加要求を送信する（Ｓ７０８）。音声データ追加要求を受信したトリガー設定部４０３（Ｓ７０８）は、ユーザ３３１の音声を取り込んだ回数が規定回数に達しているかの確認（Ｓ７１４）を行う。トリガー設定部４０３は、ユーザ３３１の音声を取り込んだ回数が規定回数に達しているかの確認の結果、規定回数に達していないと判定した場合、登録する言葉を発するようにユーザ３３１に促す表示を継続すると共に、入力管理部４２０に対して入力継続通知を送付する（Ｓ７１５）ことで、入力管理部４２０をマイクからの音声の入力待ちの状態に遷移させる（Ｓ７００）。入力管理部４２０は、入力継続通知を受信すると（Ｓ７１５）、内部状態を入力待ちに遷移させ（Ｓ７００）、ユーザ３３１が発する言葉の入力待ち状態となる。

認識用データ変換部１０１−１は、送られてきた音声データが認識用データに変換できると判定（Ｓ７０７）した場合は、音声データを認識用データに変換する（Ｓ７０９）。認識用データ変換部１０１−１は、認識用データに変換した（Ｓ７０９）結果、既に認識用データに変換したものも含めてすべての認識用データを用いて、マイク４２１より入力された音声データを予約語として認識できる精度を確保しているかどうかの判定を行う（Ｓ７１０）。

すべての認識用データにより、マイク４２１より入力された音声データを予約語として認識するのに十分な精度を確保していると判定した場合は、予約語として登録したい言葉をユーザ３３１が発するのを止めてもらうために、インターネット２を通じて、認識用データが十分である旨の情報を付加した認識用データ（認識用データ充足通知付）をトリガー設定部４０３に通知する（Ｓ７１１）。認識用データ（認識用データ充足）を受信したトリガー設定部４０３は、この時点までに受信した認識用データで、マイク４２１より入力された音声データを予約語として認識するのに十分な認識用データが存在すると認識し、ユーザ３３１の音声を取り込んだ回数が規定回数に達していなくても、これ以上ユーザ３３１に対して登録する言葉の入力を促すことを中止する（Ｓ７１２）。トリガー設定部４０３は、この時点までに受信した認識用データすべてを予約語保存エリア４１０−２に保存する（Ｓ７１６）とともに、入力管理部４２０、表示部４２５、認識用データ変換部１０１−１に登録完了通知を送付する（Ｓ７１７）（Ｓ７１８）（Ｓ７１９）。これにより、変換された認識用データの精度により、ユーザ３３１の音声を取り込んだ回数が規定回数に達しなくて予約語として登録する言葉をユーザ３３１に発してもらうのを止めてもらうことが可能となり、より自由度のある予約語の登録処理が可能となる。なお、規定回数は、ホスト機器３３２の設定値としてユーザ３３１による変えることが可能であり、また後述する付加情報の１つとして変えることが可能である。

認識用データ変換部１０１−１は、この時点までに作成した認識用データにより、マイク４２１より入力された音声データを予約語として認識するのに十分な精度を確保していないと判定した場合は、変換した認識用データのみをトリガー設定部４０３に送付する（Ｓ７１３）。認識用データを受信したトリガー設定部４０３は、ユーザ３３１の音声を取り込んだ回数が規定回数に達しているかの確認（Ｓ７１４）を行う。トリガー設定部４０３は、規定回数に達しているかの確認の結果規定回数に達していないと判定した場合、登録する言葉を発するようにユーザ３３１に促す表示を継続すると共に、入力管理部４２０に対して入力継続通知を送付する（Ｓ７１５）ことで、入力管理部４２０をマイクからの音声の入力待ちの状態に遷移させる（Ｓ７００）。

なお、登録する言葉を入力するようにユーザ３３１に対して促す表示は、トリガー設定部４０３が表示装置４２５に対して登録未完了通知を送信（Ｓ７０３）し、その登録未完了通知を受信した表示装置４２５が例えばＬＥＤを赤色で点滅させる（Ｓ７０４）、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。また表示による方法の代わりに音声による方法を用いて、登録する言葉の入力をユーザ３３１に促してもよい。この場合トリガー設定部４０３は、スピーカ４２３に対して登録未完了通知を送信し、この登録未完了通知を受け取ったスピーカ４２３は、例えば「もう一度入力してください」とユーザ３３１に対してアナウンスする方法でもよい。或いはトリガー設定部４０３は、ユーザ３３１に対して登録する言葉の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器３３２が可動型の場合、トリガー設定部４０３は、ホスト機器３３２が例えばある一定の角度幅で繰り返し回転移動するように、記載していない移動手段に対して指示を出してもよい。

認識用データを受信したトリガー設定部４０３は、規定回数に達しているかの確認（Ｓ７１４）の結果規定回数に達していると判定した場合、登録完了通知を入力管理部４２０、表示部４２５、認識用データ変換部１０１−１に登録完了通知を送付する（Ｓ７１７）（Ｓ７１８）（Ｓ７１９）。登録完了通知を受信（Ｓ７１８）した認識用データ変換部１０１−１は、Ｓ７１０の処理を行うために一時的に保存していた変換済み認識用データをクリアする。

次に、ホスト機器３３２の２つ目の処理である予約語の認識について説明する。

ホスト機器３３２は、ユーザ３３１が発した言葉の中から予約語を認識した場合、継続するユーザ３３１が発した言葉の内容を解析することで、その解析結果をもとに機器やセンサを制御する機能を有している。この予約語を認識し、予約語を認識した以降に機器やセンサを制御するために、ホスト機器３３２は、予約語を認識および機器やセンサを制御するモード（以降動作モードと呼ぶ）を有している。

図８Ａおよび図８Ｂは、動作モードにおいて、ユーザ３３１が発した言葉が登録済みの予約語の１つであると認識するまでの、ホスト機器３３２の処理シーケンスの例を示している。

ユーザ３３１が言葉を発すると、ホスト機器３３２は、マイク４２１から入力された音声データを入力管理部４２０に取り込む（Ｓ８０１）。ホスト機器３３２のモードが動作モードである場合、入力管理部４２０は、受信した音声データをトリガー認識部４０５に転送する（Ｓ８０２）。トリガー認識部４０５は、入力管理部４２０から転送されてきた音声データを受け取ると、転送されてきた音声データが予約語であるかどうかを判定するために、メモリ４１０の予約語保存エリア４１０−２から読みだし（Ｓ８０３）た認識用データと比較を行う（Ｓ８０４）。

トリガー認識部４０５は、入力された音声データが予約語と認識出来ないと判定した場合（Ｓ８０５）、予約語を発するようにユーザ３３１に促す表示を行う（Ｓ８０８）と共に、入力管理部４２０に入力継続通知を送付する（Ｓ８０７）。なお、予約語を発するようにユーザ３３１に促す表示は、トリガー認識部４０５が表示部４２５に対して認識未完了通知を送信（Ｓ８０６）し、その認識未完了通知を受信した表示部４２５が例えばＬＥＤを赤色で点滅させる（Ｓ８０８）、というようにユーザ３３１３が認識できる表示方法で行うことが望ましい。またトリガー設定部４０３は、表示による方法の代わりに音声による方法を用いて、音声の入力をユーザ３３１に促してもよい。この場合トリガー認識部４０５は、スピーカ４２３に対して、認識未完了通知を送信し、この認識未完了通知を受け取ったスピーカ４２３は、例えば「聞こえなかったよ」とユーザ３３１に対してアナウンスする方法でもよい。或いはトリガー認識部４０５は、ユーザ３３１に対して音声の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器３３２が可動型の場合、トリガー設定部４０３は、ホスト機器３３２が例えばある一定の角度幅で繰り返し回転移動するように、記載していない移動手段に対して指示を出してもよい。

トリガー認識部４０５は、入力された音声データが予約語と認識出来た場合（Ｓ８０５）、ユーザ３３１が発した音声を予約語として認識したことを示す表示を行う（Ｓ８１０）。なお、ユーザ３３１が発した音声を予約語として認識したことを示す表示は、トリガー認識部４０３が表示装置４２５に対して認識完了通知を送信（Ｓ８０９）し、その認識完了通知を受信した表示装置４２５が例えばＬＥＤを緑色で点灯させる（Ｓ８１０）、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。またトリガー認識部４０５は、表示による方法の代わりに音声による方法を用いて、ユーザ３３１が発した音声を予約語として認識しことを通知してもよい。この場合トリガー認識部４０５は、スピーカ４２３に対して認識完了通知を送信し、この認識完了通知を受け取ったスピーカ４２３は、例えば「はいはい」や「聞こえたよ」とユーザ３３１に対してアナウンスする方法でもよい。或いはトリガー認識部４０５は、ユーザ３３１が発した音声を予約語として認識したことを示すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器３３２が可動型の場合、トリガー設定部４０３は、ホスト機器３３２が例えばある一定の移動幅で繰り返し直線移動するように、記載していない移動手段に対して指示を出してもよい。

図９Ａおよび図９Ｂは、動作モードにおいて、ユーザ３３１が発した言葉を登録済みの予約語の１つであると認識するまでのホスト機器３３２の処理シーケンスの他の例である。

図９Ａおよび図９Ｂのシーケンス例と図８Ａおよび図８Ｂのシーケンス例との違いは、予約語の認識を行う過程で、認識確率を考慮に入れている点である。認識確率とは、認識用データと、入力管理部４２０から転送されてきた音声データの周波数成分や強さ等の特徴点の比較を行い、両者が一致しているレベルことを意味している。図９Ａおよび図９Ｂに示すＳ９００からＳ９１２の処理は、それぞれＳ８００からＳ８１２に示す処理と同一で、図９Ａおよび図９Ｂにおける処理において図８Ａおよび図８Ｂとの処理との違いは、Ｓ９１３からＳ９１６の処理が追加されている点である。

トリガー認識部４０５は、入力管理部４２０から転送されてきた音声データを受け取ると、メモリ４１０の予約語保存エリア４１０−２から認識用データを読み出し（Ｓ９０３）、入力管理部４２０から転送されてきた音声データとの比較を行う（Ｓ９０４）。

トリガー認識部４０５は、入力された音声データが予約語と認識出来たと判定（Ｓ９０５）した場合、認識確率の判定処理（Ｓ９１３）に移る。

ここでトリガー認識部４０５が行う音声認識処理は、メモリ４１０の予約語保存エリア４１０−２から読み出した認識用データと入力管理部４２０から転送されてきた音声データの周波数成分や強さ等の特徴点との比較を行い、両者が一定のレベル以上一致する場合に、入力管理部４２０から転送された音声データは認識用データである、と判定するものである。

ホスト機器３３２は、認識用データと入力管理部４２０から転送されてきた音声データの周波数成分や強さ等の特徴点との比較を行う際に、両者が一致しているレベルを判定する閾値を複数設けることも可能である。このようにすることで、ホスト機器３３２は、ユーザが発した言葉の中から予約語を認識する際に、予約語を認識出来た／予約語を認識出来ない、という２通りの判定ではなく、例えば予約語を認識出来た／予約語を認識出来ない／予約語を認識出来たとは言えない、というように、予約語に近いが正しい予約語ではない、という判定を加えることも出来る。このように認識確率の閾値を複数設けることで、ユーザ３３１が例えば予約語を正確に覚えていない場合、ユーザ３３１が予約語に近い言葉を繰り返し発することで、そのユーザ３３１の発した言葉を取り込んだホスト機器３３２は「予約語を認識出来たとは言えない」という判定結果に応じた応答をし、その応答内容を見たユーザ３３１は、正しい予約語に近づくことができる、というメリットがある。

図９Ａおよび図９Ｂの例は、認識確率の閾値を２つ設けた場合の例である。予約語を認識出来る閾値を閾値１とし予約語を認識出来ない閾値を閾値０とすると、Ｓ９０４において比較の結果、認識確率が閾値１以上の場合は、予約語が認識出来た、との判定結果となる。また認識確率が閾値０以上閾値１未満の場合は、予約語を認識出来たいと言えない、との判定結果となる。また認識確率が閾値０未満の場合は、予約語が認識出来ない、との判定結果となる。したがってＳ９０５の処理は、認識確率を閾値０と大小比較を行う処理である。またＳ９１３の処理は、認識確率を閾値１と大小比較を行う処理となる。

ホスト機器３３２は、認識確率が閾値０以上閾値１未満である、と判定した場合（Ｓ９１３）、予約語を発するようにユーザ３３１に促す表示を行う（Ｓ９１５）と共に、入力管理部４２０に入力継続通知を送付する（Ｓ９１６）。なお、予約語を発するようにユーザ３３１に促す表示は、トリガー認識部４０５が表示部４２５に対して認識不十分通知を送付（Ｓ９１４）し、その認識不十分通知を受信した表示部４２５が例えばＬＥＤを緑色で点滅させる（Ｓ９１５）、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。

このように、認識確率が低い場合に、予約語を発するようにユーザ３３１に促す表示は、認識に失敗した場合の表示（Ｓ９０８）や認識に成功した場合の表示（Ｓ９１０）と変えることで、ユーザ３３１は、自分が発した言葉が予約語に近いが正しく予約語を発していない、と認識することができる。

またトリガー設定部４０３は、表示による方法の代わりに音声による方法を用いて、音声の入力をユーザ３３１に促してもよい。この場合トリガー認識部４０５は、スピーカ４２３に対して認識不十分通知を送信（Ｓ９１４）し、この認識不十分通知を受け取ったスピーカ４２３は、例えば「何か呼んだ？」とユーザ３３１に対してアナウンスする方法でもよい。或いはトリガー認識部４０５は、ユーザ３３１に対して音声の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器３３２が可動型の場合、トリガー設定部４０３は、ホスト機器３３２が例えばある一定の角度幅で繰り返し回転移動するように、記載していない移動手段に対して指示を出してもよい。

次に、ホスト機器３３２の３つ目の処理である、動作を制御する機器やセンサの制御内容の登録と、４つ目の処理である、制御内容が登録されている機器やセンサの制御について説明する。

まずは、ホスト機器３３２を用いた機器やセンサの制御の全体像を説明する。

ホスト機器３３２は、ユーザ３３１が発した言葉の中から予約語を認識した場合、予約語を認識した以降にユーザが発した言葉を継続して取り込み、その取り込んだ言葉の内容を解析することで機器やセンサを制御する機能を有している。

図１０Ａおよび図１０Ｂは、ホスト機器が、予約語の認識が完了した以降において、マイク４２１から取り込んだ機器やセンサの制御内容を含んだ音声データの内容に基づいて、機器やセンサを制御する場合の処理シーケンスの例を示している。入力管理部４２０の内部状態は、予約語の認識は完了しているので認識済み（Ｓ１０００）に遷移している。

ユーザ３３１が、機器やセンサを制御する内容を含んだ言葉を発すると、ホスト機器３３２はマイク４２１を通じて（Ｓ１００１）、その音声データ（制御内容）を入力管理部４２０に取り込む（Ｓ１００２）。入力管理部４２０は、内部状態が認識済みであるので、入力された音声データ（制御内容）を音声処理部４０７に転送する（Ｓ１００２）。音声処理部４０７は、転送された音声データ（制御内容）をインターネット２を通じて、クラウドサーバ１にある音声認識クラウド１０１の中の音声テキスト変換部１０１−２に送る。

音声テキスト変換部１０１−２は、インターネット２を通じて送られてき音声データを、テキストデータに変換する処理を行う（Ｓ１００４）。この処理により、もともとマイク４２１を通じて取り込まれたユーザ３３１が発した音声が、テキストデータに変換される。

テキストデータへの変換が完了すると音声テキスト変換部１０１−２は、変換したテキストデータを内部に保存すると共に変換完了通知を音声処理部４０７に送付する（Ｓ１００５）。

音声処理部４０７は、変換完了通知を受け取ると、音声テキスト変換部１０１−２に対してテキスト分析要求を送信する（Ｓ１００６）。音声テキスト変換部１０１−２は、テキスト分析要求を受信すると、内部に保存してあるテキストに変換済みのデータとともにテキスト分析要求をテキスト分析部１０２−１に送付する（Ｓ１００７）。テキスト分析部１０２−１は、テキスト分析要求を受信（Ｓ１００７）したら、付随しているテキストデータの内容の解析を実施する（Ｓ１００８）。テキスト分析部１０２−１は、送られてきたテキストデータの内容の解析が完了すると、その解析結果をテキスト分析結果通知として応答・アクション生成部１０２−２に送付する（Ｓ１００９）。応答・アクション生成部１０２−２は、テキスト分析結果を受信（Ｓ１００９）すると、その内容に基づいて対象となる機器とその機器を制御するコマンドを生成し（Ｓ１０１０）、生成したコマンドを応答・アクション生成結果通知として音声処理部４０７に送付する（Ｓ１０１１）。

音声処理部４０７は、応答・アクション生成結果通知を受信する（Ｓ１０１１）と、応答・アクション生成結果通知の内容から制御対象の機器やセンサとその制御内容を特定する（Ｓ１０１２）。音声処理部４０７は、特定した制御対象の機器やセンサとその制御内容を、制御対象の機器やセンサが認識出来るフォーマットに変換して、必要なタイミングにおいてネットワーク３３３を通じて対象機器や対象センサにアクション通知として送信する（Ｓ１０１３）。

アクション通知の通知先である制御対象の機器やセンサは、アクション通知を受け取る（Ｓ１０１３）と、その中に含まれる制御内容に基づいて動作を行う（Ｓ１０１４）。

ホスト機器３３２は、ユーザ３３１が連続して音声を発する場合、この連続した音声を一連の音声と判定して途中でユーザ３３１に対して予約語を発することを要求することなく、この連続した音声を取り込むことが出来る。逆にホスト機器３３２は、ユーザ３３１が、ある程度時間をおいて音声を発する場合は、再度予約語の入力を要求する。各々の場合について、図１１Ａおよび図１１Ｂと図１２Ａおよび図１２Ｂを用いて説明する。

図１１Ａおよび図１１Ｂは、予約語の認識が完了した以降において、ユーザ３３１が時間Ｔ０以内に連続的に言葉を発する場合の処理シーケンスの例である。ホスト機器３３２が、マイク４２１から入力された音声データ（制御内容）を入力管理部４２０に取り込む（Ｓ１１０１）と、入力管理部４２０は入力間隔確認タイマＴを起動させる。入力間隔確認タイマＴが満了する時間（＝Ｔ０）以前の時間Ｔ１に、マイク４２１を通じてユーザ３３１が発した次の音声データ（制御内容）を入力管理部４２０に取り込んだ場合（Ｓ１１２１）、入力管理部４２０は、その取り込んだ音声データ（制御内容）を音声処理部４０７に転送する（Ｓ１１２２）。同時に、起動中の入力間隔確認タイマＴを再度起動させる。音声処理部４０７は、転送されてきた音声データ（制御内容）をインターネット２を通じて、クラウドサーバ１にある音声認識クラウド１０１の中の音声テキスト変換部１０１−２に送る（Ｓ１１２３）。以降は、Ｓ１１０４からＳ１１１０の処理と同様に、音声認識クラウド１０１において送られてきた音声データ（Ｓ１１２３）の処理を継続する。

なお入力間隔確認タイマＴは、入力管理部４２０がマイク４２１から入力された音声データを取り込んだタイミングで起動しているが、これに限らず例えば入力管理部４２０が、マイク４２１から送られてきたデータをトリガー設定部４０３や音声処理部４０７に転送するタイミングで起動してもよい。また、入力管理部４２０の内部状態が認識済みに遷移（Ｓ１１００）したタイミングで、起動してもよい。

図１２Ａおよび図１２Ｂは、ユーザ３３１が時間Ｔ０以内に連続的に音声を発しない場合の例である。ホスト機器３３２は、マイク４２１から入力された音声データ（制御内容）を入力管理部４２０に取り込む（Ｓ１２０１）と、入力管理部４２０は入力間隔確認タイマＴを起動させる。入力管理部４２０は、入力間隔確認タイマＴが満了する時間（＝Ｔ０）を過ぎると、内部状態を入力待ちに遷移させる（Ｓ１２２０）。

ホスト機器３３２は、入力間隔確認タイマＴが満了する時間（＝Ｔ０）を過ぎてからマイク４２１から入力された次の音声データを取り込んだ場合（Ｓ１２２４）、この取り込んだ音声データをもとに機器やセンサを制御する処理を実行せず、予約語を発するようにユーザ３３１を促す表示を行う。

入力間隔確認タイマＴが満了すると、入力管理部は内部の状態を入力待ちに遷移させる（Ｓ１２２０）とともに、タイムアウト通知を音声処理部４０７に通知する（Ｓ１２２１）。タイムアウト通知を受け取った音声処理部４０７は、表示部４２５に対して認識未完了通知を送信し（Ｓ１２２２）、その認識未完了通知を受信した表示部４２５は、予約語を発するようにユーザ３３１に促す表示、例えばＬＥＤを赤色で点滅させる（Ｓ１２２３）。

入力間隔確認タイマＴが満了後に、マイク４２１から入力された次の音声データを取り込んだ場合（Ｓ１２２４）、入力管理部４２０は、内部状態を認識中に遷移させる（Ｓ１２２５）とともに、その取り込んだ音声データをトリガー認識部４０５に転送する（Ｓ１２２６）。以降、ホスト機器３３２は、図８Ａおよび図８ＢのＳ８０３からＳ８１２までの処理あるいは図９Ａおよび図９ＢのＳ９０３からＳ９１６までの処理を行い、予約語の認識を再度行う。

次にホスト機器３３２を用いた機器やセンサを制御するための制御内容の登録と、その登録された制御内容に基づいて行う機器やセンサの制御について説明する。

図１３は、ホスト機器３３２が、予約語を認識した後図１０Ａおよび図１０Ｂのシーケンス図に示したように各種センサ３１０や各種設備機器３２０や各種家電機器３４０を制御する際に用いる制御情報の内容の具体的な例を示したものである。

項目１は、応答・アクション生成部１０２−２より送信される応答・アクション生成結果通知に含まれている、各種センサ３１０や各種設備機器３２０や各種家電機器３４０を制御する情報（以降応答・アクション情報と呼ぶ）の具体例である。この応答・アクション生成情報は、機器３３２が制御する機器やセンサ等の「対象」と、その制御対象を制御する内容を表す「命令」とから成る。ホスト機器３３２は、応答・アクション生成結果通知を受信すると、その中に含まれるアクション情報を抽出し、そのアクション情報の内容に基づいて、対象となる機器の制御を行う。

「命令」の例としては、制御する対象の機器を起動させる（動作させる）「起動命令」、終了させる（停止させる）「停止命令」、動作中の内容（モード）を変更する「動作変更命令」、対象機器に予め設定している内容（モード）を変更する「設定変更命令」等がある。

応答・アクション生成部１０２−２が応答・アクション生成結果通知に含む応答・アクション情報を生成するために、ユーザ３３１は予め制御対象の機器とその制御内容、及びその機器を制御させるためにホスト機器３３２に対して発する言葉、の組み合わせを、ホスト機器３３２の初期設定として応答・アクション生成部１０２−２に登録する必要がある。以下図１３の例を用いて、ホスト機器３３２の初期設定における応答・アクション情報の登録に関して説明する。

項目２は、ホスト機器３３２を通して制御する機器である「対象」である。この「対象」は、各種センサ３１０や各種設備機器３２０や各種家電機器３４０に含まれる機器やセンサの識別名称であり、具体例としてエアコン１を記載している。

項目３は、「項目２」に示す機器の制御内容である「命令」である。この「命令」は、具体例として項目２に挙げたエアコン１の命令を記載しており、エアコンを動かす「起動命令」、エアコンを停止させる「停止命令」、エアコンの動作内容を変える「動作変更命令」、エアコンの設定内容を変える「設定変更命令」を例として記載している。

項目２及び項目３の各機器やセンサの製品仕様は、記載していない製品仕様の情報が保存されている製品仕様クラウドサーバに予め保存されている。ユーザ３３１は、ホスト機器３３２を通して制御したい対象機器や対象センサの項目２及び項目３の製品仕様の情報を製品仕様クラウドサーバから入手する。

次にユーザ３３１は、ホスト機器３３２を通して項目２及び項目３の制御内容を実行する際に、ホスト機器３３２に発する言葉である項目４＝「フレーズ」を決定する。この「フレーズ」は、項目３に挙げたエアコン１の命令に対応する内容であることが望ましく、例えばエアコンを動かす「起動命令」に対しては「エアコンつけて」、エアコンを停止させる「停止命令」に対しては「エアコンけして」、エアコンの動作内容である「冷房」を「ドライ」に変える「動作変更命令」に対しては「ドライにして」、エアコンの設定内容である運転開始時間を「夜１０時運転開始」に変える「設定変更命令」に対しては「夜１０時にエアコンつけて」を例として記載している。

以上より決定した（対象、命令、フレーズ）の組み合わせを、ユーザ３３１は、ホスト機器３３２の初期設定として作成する。ユーザ３３１は、ホスト機器３３２を通じて制御したい機器すべてに対して同様の作成を行い、最終的に制御対象すべての機器に関する（対象、命令、フレーズ）を１つにまとめた応答・アクション情報一覧を生成する。作成された応答・アクション情報一覧は、ホスト機器３３２を通して応答・アクション生成部１０２−２に登録される。

応答・アクション生成部１０２−２に応答・アクション情報一覧が登録されると、図１０Ａおよび図１０Ｂに示すように、ホスト機器３３２は、予約語の認識が完了した以降、引き続きユーザ３３１が発する言葉を取り込んで解析することで、機器やセンサを制御することができる。

例えば、ユーザ３３１が発した言葉＝エアコンつけて、の場合、音声テキスト変換部１０１−２は入力された音声データを「えあこんつけて」というテキストに変換し、テキスト分析部１０２−１は、テキストデータ「えあこんつけて」を「エアコンつけて」という内容であると分析する。この分析結果をもとに応答・アクション生成部１０２−２は、既に登録されている応答・アクション情報一覧を参照し、「エアコンつけて」という「フレーズ」の分析結果に対応する応答・アクション情報を検索する。これにより、（対象＝エアコン１、命令＝運転開始）と言う応答・アクション情報を抽出し、応答・アクション生成結果通知に（対象＝エアコン１、命令＝運転開始）の応答・アクション情報を設定して音声処理部４０７に通知する。

音声処理部４０７は、受信した応答・アクション生成結果通知に設定されている応答・アクション情報を参照して、各種センサ３１０や各種設備機器３２０や各種家電機器３４０の中の該当する機器やセンサを制御する。

次にホスト機器３３２を用いて機器やセンサを制御する場合、種々の条件により機器やセンサを制御する制御内容や、ホスト機器３３２の動作内容を変更する場合について説明する。

図１４は、ホスト機器３３２に予約語が複数登録されている場合、ホスト機器３３２がユーザ３３１の発した言葉を予約語の１つであると認識し、その認識した予約語に応じて行う動作内容の例の一覧である。

ホスト機器３３２は、複数の予約語を登録することが可能であり、またその複数の予約語の各々を認識した場合に、その認識した予約語に応じた動作内容（以降付加情報１と呼ぶ）を設定することが出来る。

図１４に示すようにホスト機器３３２は、予約語として例えば「いろは」「オレ様だ」「息子や」の３つを登録しているものとする。ホスト機器３３２は、ユーザ３３１が発した言葉を予約語「いろは」と認識した場合は、既に設定されている動作内容を変えないが、ユーザ３３１が発した言葉を予約語「オレ様だ」と認識した場合は、以降ユーザ３３１の発する言葉を認識したら必ず「ご主人様喜んで」とスピーカ４２３を通じてアナウンスするように動作を変更する。また、ユーザ３３１が発した言葉を予約語「息子や」と認識した場合、ホスト機器３３２は、ユーザ３３１がシニアユーザであると判定し、シニアの場合はゆっくりと話をする傾向にあるため、図１１Ａおよび図１１Ｂに示す入力間隔確認タイマの満了時間Ｔ０を通常の設定時間より長くするように設定変更する。

図１４の例は、ホスト機器３３２が、ホスト機器自身の動作内容を変える例を示しているが、それに限らず、ホスト機器３３２とネットワーク３３３で接続されている機器やセンサに対する動作の制御を行ってもよい。

ホスト機器３３２は、複数の予約語に応じてホスト機器３３２の動作を変えるために、各々の予約語に対する付加情報１を予めホスト機器３３２に登録しておく必要がある。

ホスト機器３３２は、予約語をホスト機器３３２に登録する際に、登録する予約語に対応する付加情報１もあわせて登録するモード（以降予約語登録（付加情報１）モードと呼ぶ）を有している。

図１５Ａおよび図１５Ｂは、予約語およびそれに対応する付加情報１を合わせて登録するために、ホスト機器３３２が「予約語登録（付加情報１）モード」に遷移している状態において、予約語の登録開始から付加情報１の登録完了までのホスト機器３３２の処理シーケンスの例を示している。図１５Ａおよび図１５Ｂに示すＳ１５００からＳ１５１４の処理は、それぞれ図５Ａおよび図５Ｂに示すＳ５００からＳ５１４の処理と同一である。図１５Ａおよび図１５Ｂにおける処理の図５Ａおよび図５Ｂとの処理の相違点は、Ｓ１５１５がＳ５１５と異なる点と、Ｓ１５１６からＳ１５２３が追加されている点である。

トリガー設定部４０３は、予約語の登録が完了したことをユーザ３３１に対して知らせる表示（Ｓ１５１４）を行う。予約語の登録が完了したことをユーザに対して知らせる表示（Ｓ１５１５）は、トリガー設定部４０３が表示装置４２５に対して登録完了通知を送信（Ｓ１５１４）し、その登録完了通知を受信した表示装置４２５が例えばＬＥＤを緑色で点滅させる、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。これにより、トリガー設定部４０３は、付加情報１の登録を行うようにユーザ３３１に促すことが可能となる。

ＬＥＤが緑色に点滅している（Ｓ１５１５）ことを認識したユーザ３３１は、Ｓ１５１１で登録が完了した予約語に対応した付加情報１を設定することができる。

付加情報１の設定方法は、ユーザ３３１が発した音声をマイク４２１を通じてホスト機器３３２が取り込み、その取り込んだ音声データを解析することで、登録できるようにしてもよい。或いはまた表示装置４２５に、付加情報１を設定するメニューを表示させ、ユーザ３３１がそのメニューに従って操作することで登録できるようにしてもよい。或いは図４に示すネットワークＩ／Ｆ４２７を経由して接続されている外部のデバイス、例えばスマートフォンやタブレットを用いて、そのスマートフォンやタブレットの表示画面に予約語に対応した付加情報１を設定するメニューを表示させ、ユーザ３３１がその表示されたメニュー画面に従って操作することで登録できるようにしてもよい。図１５Ａおよび図１５Ｂは、表示部４２５に表示された付加情報１を設定するメニューを表示させ、ユーザ３３１がそのメニューに従って操作することで付加情報１を登録する場合の処理シーケンスの例である。

ユーザ３３１に付加情報１の入力を促すためにＬＥＤが緑色に点滅する（Ｓ１５１５）と、表示部４２５に付加情報１を登録するためのメニューが表示される。ユーザ３３１は、表示されたメニュー画面に従って操作することで、付加情報１を作成する。作成が完了した付加情報１は、入力管理部４２０に取り込まれる（Ｓ１５１７）。入力管理部４２０は、取り込んだ付加情報１をトリガー設定部４０３に転送する。トリガー設定部４０３は、転送された付加情報１をメモリ４１０の予約語保存エリア４１０−２に保存する（Ｓ１５１９）。

なおトリガー設定部４０３は、付加情報１をメモリ４１０の予約語保存エリア４１０−２に保存する際にはＳ１５１３で登録した予約語と関連付けて保存する。

また、音声処理部４０７は、付加情報１の登録が完了したことをユーザ３３１に対して知らせる表示（Ｓ１５２２）を行う。付加情報１の登録が完了したことをユーザ３３１に対して知らせる表示（Ｓ１５２２）は、音声処理部４０７が表示装置４２５に対して登録完了通知を送信（Ｓ１５２０）し、その登録完了通知を受信した表示装置４２５が例えばＬＥＤを緑色で点灯させる、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。

図１６Ａおよび図１６Ｂは、図１５Ａおよび図１５Ｂに示す処理によりメモリ４１０の予約語保存エリア４１０−２に付加情報１が保存された場合に、ユーザ３３１が発した言葉の中から予約語の認識し、その認識した予約語の付加情報１を予約語保存エリア４１０−２から読み出して、ホスト機器３３２に対して動作を設定する場合のシーケンスの例である。

図１６Ａおよび図１６Ｂに示すＳ１６００からＳ１６１２の処理は、それぞれ図８Ａおよび図８Ｂに示すＳ８００からＳ８１２の処理と同一である。図１６Ａおよび図１６Ｂの処理における図８Ａおよび図８Ｂの処理との違いは、Ｓ１６１３とＳ１６１４の処理が追加されている点である。

ユーザ３３１が発した言葉を予約語として認識すると（Ｓ１６０５）、トリガー認識部４０５は、該当する予約語に対応した付加情報１をメモリ４１０の予約語保存エリア４１０−２から読み出す。付加情報１を読み出したトリガー認識部４０５は、読み出した付加情報１（Ｓ１６１３）の内容の動作をホスト機器３３２に設定する（Ｓ１６１４）。図１４に示されている例の内容が予約語保存エリア４１０−２に保存されている場合、Ｓ１６０５で予約語として「息子や」を認識した場合、トリガー認識部４０５は、Ｓ１６１４にて入力間隔確認タイマＴの満了時間Ｔ０を、通常の値をより長くするように設定する。

図１７（Ａ）は、ユーザ３３１が発した言葉を、ホスト機器３３２に登録されている予約語として認識した場合、その認識した予約語に継続するユーザ３３１が発した言葉に応じて、ホスト機器３３２が特定の動作をする動作内容の例の一覧である。

ホスト機器３３２は、ユーザ３３１が発した言葉を、登録されている予約語であると認識した場合、その認識した予約語に継続してユーザ３３１が発した言葉（以降付加語と呼ぶ）の内容に応じて動作内容（以降付加情報２と呼ぶ）を設定することが出来る。

例えば図１７（Ａ）に示すように、予約語として「いろは」が登録されているとする。この場合、ホスト機器３３２は、予約語「いろは」を認識した場合、この予約語「いろは」に続くユーザ３３１の発した言葉を認識しない場合は、既に設定されている動作内容を変更しない。ホスト機器３３２は、予約語「いろは」に続くユーザ３３１の発した言葉として「ちゃん」を認識した場合は、ユーザ３３１の機嫌がよいと判定し、スピーカ４２３を通して応答する場合は、応答する際のトーンを上げるように動作内容を変更する。また、ホスト機器３３２は、予約語「いろは」に続くユーザ３３１の発した言葉として「や」を認識した場合は、ユーザ３３１がシニアユーザであると推定し、ユーザ３３１がゆっくりと話す傾向にあるため、図１１Ａおよび図１１Ｂに示す入力間隔確認タイマの満了時間Ｔ０を通常の設定時間より長くするように変更する。またホスト機器３３２は、予約語「いろは」に続くユーザ３３１の発した言葉として「おい」を認識した場合は、ユーザ３３１が怒っていると判定し、「申し訳ございません」とスピーカ４２３を通じてすぐにアナウンスするようにする。

図１７（Ａ）の例は、１つの予約語に対して複数の付加語を設定し予約語に対する複数の付加語の組み合わせごとに付加情報２を設定することで、ホスト機器３３２が付加情報２の内容に基づいて動作内容を変える例を示しているが、複数の予約語と複数の付加語との組み合わせごとに付加情報２を設定することも可能である。図１７（Ｂ）に示すように、例えばホスト機器３３２が予約語として「いろは」と「おおきに」「あーしんど」の３つを登録しているとする。この場合、各予約語に対して付加語を定義し、その予約語＋付加語の組み合わせごとに付加情報２を設定してもよい。

また、ユーザによっては、予約語を発するだけで、ある特定の動作をしてほしいときがある。例えば、ある個人の口癖がある場合、その口癖を予約語としてホスト機器３３２に登録し、併せてこの予約語に対応した動作をホスト機器３３２に登録することで、その個人の特性にあった機器やセンサの動作の制御を簡易に実行することができる。図１７（Ｂ）の予約語「あーしんど」の例では、「あーしんど」という予約語をホスト機器３３２が認識した場合に、ホスト機器３３２がユーザ３３１の発した言葉の中から予約語を認識しただけで、ネットワーク３３３に接続されている冷蔵庫の中に保存されているビールの情報をスピーカ４２３を通してアナウンスする、ということも可能である。

ホスト機器３３２は、予約語に対する付加語の内容に応じて動作を変えるために、予約語に対応した付加語と、この予約語と付加語の組み合わせに対する動作内容である付加情報２、の組み合わせを予めホスト機器３３２に登録しておく必要がある。このためホスト機器３３２は、登録済み予約語に対して、対応する付加語や付加情報を追加登録するモードを有している。ホスト機器３３２に既に登録されている予約語に対して、付加情報１を追加するモードを付加情報１追加登録モード、付加語と付加情報２を追加するモードを付加情報２追加登録モードと呼ぶこととする。

付加情報２の設定方法は、付加情報１の設定同様にユーザ３３１が発した音声をマイク４２１を通じてホスト機器３３２が取り込み、その取り込んだ音声データを解析することで、登録できるようにしてもよい。或いはまた表示装置４２５に、付加情報２を設定するメニューを表示させ、ユーザ３３１がその表示されたメニューに従って操作することで登録できるようにしてもよい。或いは図４に示すネットワークＩ／Ｆ４２７を経由して接続されている外部のデバイス、例えばスマートフォンやタブレットを用いて、そのスマートフォンやタブレットの表示画面に予約語および付加語に対応した付加情報２を設定するメニューを表示させ、ユーザ３３１がその表示されたメニュー画面に従って操作することで登録できるようにしてもよい。

図１８Ａ、図１８Ｂおよび図１８Ｃは、図１７（Ａ）（Ｂ）に示す登録済みの予約語に対して、付加語の登録とその付加語に対する動作内容（付加情報２）の登録を行う場合の処理シーケンスの例である。

登録済みの予約語に対する付加語を追加登録するために、ユーザ３３１はホスト機器３３２を「付加情報２追加登録モード」に変更する。ホスト機器を「付加情報２追加登録モード」に変更すると、ユーザ３３１は、ホスト機器３３２に登録済みの予約語と、その予約語に対して登録したい付加語を発する。ホスト機器３３２は、ユーザ３３１の発した言葉の中から、最初に予約語の認識を行う（Ｓ１８０５）。

ホスト機器３３２は、ユーザ３３１が発した言葉をマイク４２１を通じて入力管理部４２０に取り込む（Ｓ１８０１）。入力管理部４２０は、音声データを取り込むと内部で管理する内部状態を認識中（予約語）に遷移させる（Ｓ１８０２）とともに、入力された音声データをトリガー認識部４０５に転送する（Ｓ１８０３）。

トリガー認識部４０５は、入力管理部４２０から転送されてきた音声データを受け取ると、メモリ４１０の予約語保存エリア４１０−２から認識用データを読み出し（Ｓ１８０４）、入力管理部４２０から転送されてきた音声データとの比較を行う（Ｓ１８０５）。トリガー認識部４０５は、入力された音声データが予約語と認識出来た場合、入力管理部４２０に認識完了通知（Ｓ１８０６）を通知する。認識完了通知を受け取った入力管理部４２０は、内部で管理する内部状態を認識中（予約語）から入力待ち（付加語）に遷移（Ｓ１８０７）させる。

ホスト機器３３２は、ユーザ３３１が予約語に続いて発した言葉をマイク４２１を通じて入力管理部４２０に取り込む（Ｓ１８０８）。入力管理部４２０は、内部で管理する内部状態が入力待ち（付加語）である（Ｓ１８０７）ので、入力された音声データをトリガー設定部４０３に転送する（Ｓ１８０９）。以降、図５Ａおよび図５Ｂで説明した予約語の登録同様に、トリガー設定部４０３は、受信した音声データをメモリ４１０の音声蓄積エリア４１０−３に保存（Ｓ１８１０）しながら、規定回数の付加語の取り込みを行う（Ｓ１８１１）。

トリガー設定部４０３は、規定回数に達しているかの確認の結果規定回数に達していないと判定した場合、登録する付加語の音声の入力をユーザ３３１に促す表示を行う（Ｓ１８１２）と共に、入力管理部４２０に入力継続通知を送信する（Ｓ１８１４）。なお、付加語として登録する音声の入力をユーザ３３１に対して促す表示（Ｓ１８１３）は、トリガー設定部４０３が表示装置４２５に対して登録未完了通知を送信（Ｓ１８１２）し、その登録未完了通知を受信した表示装置４２５が例えばＬＥＤを赤色で点滅させる、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。また表示による方法の代わりに音声による方法を用いて、登録する音声の入力をユーザ３３１に促してもよい。この場合トリガー設定部４０３は、スピーカ４２３に対して登録未完了通知を送信し、この登録未完了通知を受け取ったスピーカ４２３は、たとえば「もう一度入力してください」とユーザ３３１に対してアナウンスする方法でもよい。或いはトリガー設定部４０３は、ユーザ３３１に対して登録する音声の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。

トリガー設定部４０３は、規定回数に達しているかの確認の結果規定回数に達していると判定した場合、それまでに音声蓄積エリア４１０−３に保存している音声データを読み出し（Ｓ１８１５）、インターネット２を通じてクラウドサーバ１にある音声認識クラウド１０１の中の認識用データ変換部１０１−１に送付する（Ｓ１８１６）。

認識用データ変換部１０１−１は、トリガー設定部４０３から送られてきた音声データを、付加語を認識するための認識用データに変換する（Ｓ１８１７）。認識用データへの変換が完了すると、認識用データ変換部１０１−１は、インターネット２を通じて認識用データをトリガー設定部４０３に送付（Ｓ１８１８）する。付加語を認識するための認識用データ（以降認識用データ（付加語）と呼ぶ）を受信したトリガー設定部４０３は、受信したデータをメモリ４１０の予約語保存エリア４１０−２に保存する（Ｓ１８１９）。トリガー設定部４０３は、認識用データ（付加語）を保存する際には、Ｓ１８０６で認識した予約語と関連づけて保存する。これにより、Ｓ１８０６で認識した予約語に関連付けされて認識用データ（付加語）を保存することが可能となる。

また、トリガー設定部４０３は、付加語の登録が完了したことをユーザ３３１に対して知らせる表示（Ｓ１８２２）を行う。予約語の登録が完了したことをユーザ３３１に対して知らせる表示（Ｓ１８２２）は、トリガー設定部４０３が表示装置４２５に対して登録完了通知を送信（Ｓ１８２１）し、その登録完了通知を受信した表示装置４２５が例えばＬＥＤを緑色で点滅させる（Ｓ１８２２）、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。或いはトリガー設定部４０３は、予約語の登録が完了したことをユーザ３３１に対して通知するのに、表示による方法の代わりに音声による方法を用いてもよい。この場合トリガー設定部４０３は、スピーカ４２３に対して登録完了通知を送信し（Ｓ１８２１）、この登録完了通知を受け取ったスピーカ４２３が例えば「登録が完了しました」とユーザ３３１に対してアナウンスする方法でもよい。或いはトリガー設定部４０３は、予約語の登録が完了したことをユーザ３３１に対して通知するのに、表示による方法と音声による方法の両方を用いてもよい。これにより、ユーザ３３１は、付加語に対応した動作内容である付加情報２の内容を言葉で発するタイミングを知ることができる。

ユーザ３３１に付加情報２の入力を促すためにＬＥＤが緑色に点滅させる（Ｓ１８２２）と、表示部４２５に付加情報２を登録するためのメニューが表示される。ユーザ３３１は、表示されたメニュー画面に従って操作することで、付加情報２を作成する。作成が完了し付加情報２は、入力管理部４２０に取り込まれる（Ｓ１８２４）。入力管理部４２０は、取り込んだ付加情報２をトリガー設定部４０３に転送する（Ｓ１８２５）。トリガー設定部４０３は、転送された付加情報２をメモリ４１０の予約語保存エリア４１０−２に保存する（Ｓ１８２６）。

なおトリガー設定部４０３は、付加情報２をメモリ４１０の予約語保存エリア４１０−２に保存する際にはＳ１８０６で認識した予約語と関連付けて保存する。これにより、Ｓ１８０６で認識した予約語に関連付けされ、かつＳ１８１９で保存された付加語に関連付けされた動作内容（付加情報２）を保存することが可能となる。

登録済みの予約語に対して、付加情報だけをあとから追加することも可能である。

図１８Ｄおよび図１８Ｅは、図１８Ａ、図１８Ｂおよび図１８Ｃとは異なり登録済みの予約語に対して、付加情報だけを追加する場合の処理シーケンスの例である。

図１８Ｄに示すＳ１８５０からＳ１８５６の処理は、それぞれ図１８Ａに示すＳ１８００からＳ１８０６の処理と同一である。また、図１８Ｄおよび図１８Ｅに示すＳ１８７１からＳ１８８０の処理は、それぞれ図１８Ｃに示すＳ１８２１からＳ１８３０の処理と同一である。図１８Ａ、図１８Ｂおよび図１８Ｃのシーケンス例と図１８Ｄおよび図１８Ｅとのシーケンス例との違いは、図１８Ａ、図１８Ｂおよび図１８ＣのＳ１８０７からＳ１８２０の付加語登録処理に対応する処理が、図１８Ｄおよび図１８Ｅには無い点である。

ユーザ３３１に付加情報１の入力を促すためにＬＥＤが緑色に点滅させる（Ｓ１８７１）と、表示部４２５に付加情報１を登録するためのメニューが表示される。ユーザ３３１は、表示されたメニュー画面に従って操作することで、付加情報１を作成する。作成が完了し付加情報１は、入力管理部４２０に取り込まれる（Ｓ１８７４）。入力管理部４２０は、取り込んだ付加情報１をトリガー設定部４０３に転送する（Ｓ１８７５）。トリガー設定部４０３は、転送された付加情報１をメモリ４１０の予約語保存エリア４１０−２に保存する（Ｓ１８７６）。

なおトリガー設定部４０３は、付加情報１をメモリ４１０の予約語保存エリア４１０−２に保存する際にはＳ１８５６で認識した予約語と関連付けて保存する。これにより、Ｓ１８５６で認識した予約語に関連付けされた動作内容を保存することが可能となる。

図１９Ａおよび図１９Ｂは、図１８Ａ、図１８Ｂおよび図１８Ｃに示す処理によりメモリ４１０の予約語保存エリア４１０−２に付加語及び付加情報２が保存された場合に、ユーザ３３１が発した言葉の中から予約語と付加語を認識し、その認識した予約語と付加語の組み合わせに対応する付加情報２を予約語保存エリア４１０−２から読み出して、ホスト機器３３２に対して動作を設定する場合のシーケンス例である。

図１９Ａに示すＳ１９００からＳ１９０８の処理は、それぞれ図１６Ａに示すＳ１６００からＳ１６０８の処理と同一である。図１９Ａおよび図１９Ｂの処理における処理の図１６Ａおよび図１６Ｂの処理との違いは、Ｓ１９０９からＳ１９１１の付加語の認識の処理が追加されている点と、Ｓ１９１２からＳ１９１３の付加情報２の読み出し処理を行う点である。

ユーザ３１１が発した言葉を取り込んだデータに対して、図１９ＡのＳ１９０５において予約語の認識が成功すると、トリガー認識部４２０は、ユーザ３１１が発した言葉を取り込んだデータに対して、認識に成功した予約語に継続して入力された音声データが、付加語であるかの判定を判定するために、メモリ４１０の予約語保存エリア４１０−２から読み出した認識用データ（付加語）との比較を行う（Ｓ１９１１）。予約語に継続する音声データが付加語であると認識した場合、トリガー認識部４０５は、該当する予約語と付加語に対応した付加情報２をメモリ４１０の予約語保存エリア４１０−２から読み出す（Ｓ１９１２）。付加情報２を読み出したトリガー認識部４０５は、読み出した付加情報２の内容の動作をホスト機器３３２に設定する（Ｓ１９１３）。

以上のように、ホスト機器３３２に予約語、付加語、付加情報を登録することで、ホスト機器３３２は、ホスト機器３３２の動作や、ホスト機器３３２とネットワークで接続されている機器やセンサに対する動作を自由に制御することが出来、個々人の生活スタイルにあった機器やセンサの制御が可能となる。

図２０は、ホスト機器３３２に予約語が複数登録された場合、ユーザ３３１が発した言葉の中から予約語のいずれかであると認識した場合、その認識した予約語に応じて、音声認識クラウド１０１の音声テキスト変換部１０１−２で用いる音声認識辞書を変更する例の一覧である。

ホスト機器３３２は、複数の予約語を登録することが可能である。ホスト機器３３２は、ユーザ３３１が発した言葉を、登録された複数の予約語のいずれかであると認識した場合、その認識した予約語に応じて音声認識クラウド１０１の音声テキスト変換部１０１−２で用いる音声からテキストに変換するための音声認識辞書を変更することができる。例えば図２１Ａおよび図２１Ｂに示すように、ホスト機器３３２は、予約語として「こんにちは」「Ｈｅｌｌｏ」「おおきに」の３つを登録しているものとする。この場合ホスト機器３３２は、予約語「こんにちは」を認識した場合は、音声認識クラウド１０１の音声テキスト変換部１０１−２で用いる音声認識辞書を日本語辞書に変更するように命令を出すことができる。また、予約語「Ｈｅｌｌｏ」を認識した場合は、ホスト機器３３２は、音声認識クラウド１０１の音声テキスト変換部１０１−２に対して、音声認識辞書の種類を英語辞書に変更するように命令を出すことができる。さらにまた、予約語「おおきに」を認識した場合は、ホスト機器３３２は、音声認識クラウド１０１の音声テキスト変換部１０１−２で用いる音声認識辞書の種類を方言辞書（関西弁）に変更するように命令を出すことができる。

ホスト機器３３２が認識した予約語に応じて音声認識クラウド１０１の音声テキスト変換部１０１−２で用いる音声認識辞書の種類を変えるためには、ユーザ３３１は、ホスト機器３３２に対して予約語を登録する際に、予約語に対応して音声テキスト変換部１０１−２で使用する音声認識辞書の種類（以降付加情報３と呼ぶ）をあわせて登録する必要がある。

予約語に対応する音声認識辞書の種類（付加情報３）を、予約語の登録とあわせて登録する処理シーケンスは、図１５Ａおよび図１５Ｂに示す予約語に対して付加情報１を登録する処理シーケンスと同一であり、表示部４２５に表示されるメニュー画面で付加情報１を入力する（Ｓ１５１６）代わりに、付加情報３の入力画面を選択して入力すればよい。以降、図１５ＢのＳ１５１４以降の処理を用いて、付加情報３を登録する処理の流れについて説明する。図１５ＢのＳ１５１４以降に記載されている付加情報１は、付加情報３と読み替えて説明する。

ユーザ３３１に付加情報３の入力を促すためにＬＥＤが緑色点滅する（Ｓ１５１４）と、表示部４２５に付加情報３を登録するためのメニューが表示される。ユーザ３３１は、表示されたメニュー画面に従って付加情報３の入力操作することで、付加情報３として辞書の種類を選択することができる。作成が完了し付加情報３は、入力管理部４２０に取り込まれる（Ｓ１５１６）。入力管理部４２０は、取り込んだ付加情報３をトリガー設定部４０３に転送する。トリガー設定部４０３は、転送された付加情報３をメモリ４１０の予約語保存エリア４１０−２に保存する。

なおトリガー設定部４０３は、付加情報３をメモリ４１０の予約語保存エリア４１０−２に保存する際にはＳ１５１３で登録した予約語と関連付けて保存する。

図２１Ａおよび図２１Ｂは、図２０に示したようにホスト機器３３２に予約語が複数登録された場合の、各予約語がホスト機器３３２で認識された場合に、音声テキスト変換部１０１−２で使用する音声認識辞書の種類を変更するシーケンス例を示している。図２１Ａおよび図２１Ｂに示すＳ２１００からＳ２１１３の処理は、それぞれ図１６Ａおよび図１６Ｂに示すＳ１６００からＳ１６１３の処理と同一である。図２１Ａおよび図２１Ｂにおける処理の図１６Ａおよび図１６Ｂの処理との相違点は、図１６Ａおよび図１６Ｂの処理の場合は、トリガー認識部４０３が付加情報１を読み出した後、その付加情報１の内容に基づいてホスト機器３３２の動作の設定を行う（Ｓ１６１４）のに対して、図２１Ａおよび図２１Ｂの場合は、トリガー認識部４０３が付加情報３を読み出した後、その付加情報３の内容に基づいて音声テキスト変換部１０１−２で使用する音声認識辞書の種類を変えるために音声テキスト変換部１０１−２とのやり取りを行う（Ｓ２１１４−１からＳ２１１４−３）点である。

なお、予約語の認識及び音声認識辞書の変更が完了したことをユーザに対して知らせる表示は、トリガー設定部４０３が表示装置４２５に対して登録完了通知を送信（Ｓ２１０９）し、その登録完了通知を受信した表示装置４２５が例えばＬＥＤを緑色で点灯させる、というようにユーザ３３１が認識できる表示方法で行うことが望ましい。或いはトリガー認識部４０５は、スピーカ４２３に対して認識完了通知を送付することで、その認識完了通知を受け取ったスピーカ４２３が例えば「はいはいなんでしょうか？。ところで、音声認識の辞書は方言辞書（関西弁）に変えましたよ」とユーザ３３１に対して音声によりアナウンスする方法でもよい。或いはトリガー認識部４０５は、予約語の認識と認識した予約語に対応した音声認識辞書の変更とが完了したことをユーザ３３１に対して通知するに、表示装置４２５を用いた表示による方法とスピーカ４２３を用いた音声による方法の両方を用いてもよい。

なお、図１４に示す予約語に対応する動作内容（付加情報１）、図１７（Ａ）（Ｂ）に示す予約語に対する付加語ごとの動作内容（付加情報２）、及び図２０に示す予約語に対する音声認識辞書の種類（付加情報３）は、組み合わせて登録を行うことができる。

図２２は、図１４に示す予約語に対応する動作内容の登録、図１７（Ａ）に示す予約語に対する付加語の登録、付加語に対する動作内容の登録及び図２０に示す予約語に対する音声認識辞書の種類の登録を組み合わせて行う場合の組み合わせの一覧である。ホスト機器３３２は、例えば予約語「こんにちは」に対しては、音声認識辞書の種類として日本語辞書を使用するように設定する。ホスト機器３３２は、また予約語「こんにちは」に対して付加語として「ちゃん」「や」「おい」を登録し、付加語が「ちゃん」の場合は応答する際のトーンを上げるようにホスト機器３３２の動作内容を変更し、付加語が「や」の場合は入力間隔確認タイマＴの満了時間Ｔ０を長くするように設定内容を変更し、また付加語が「おい」の場合は、「申し訳ございません」とすぐにアナウンスするように動作内容をする。

図２３は、予約語以外の内容（以降変更条件と呼ぶ）に応じてテキスト変換部１０１−２で使用する音声認識辞書の種類を変更する例の一覧である。例えば図２３（Ａ）は、変更条件として時刻を設定した場合の例である。ホスト機器３３２は、音声認識クラウド１０１のテキスト変換部１０１−２が音声データをテキストに変換する際に使用する音声認識辞書の種類を、その音声認識辞書を使用する時間によって変更するように指示する例を示している。

ホスト機器３３２は、例えば、時刻０５：００から０８：００までは家族一般用辞書を使用し、時刻０８：００から１６：００までは奥様用辞書を使用し、時刻１６：００から２０：００までは家族一般用辞書を使用し、時刻２０：００から０５：００までは大人用辞書を使用するように、インターネット２を通じてテキスト変換部１０１−２に指示する。

また図２３（Ｂ）は、変更条件＝ホスト機器３３２の動作ステータスとした場合の例である。ホスト機器３３２は、テキスト変換部１０１−２が使用する音声認識辞書の種類を、その音声認識辞書を使用する際のホスト機器３３２の動作ステータスの種類によって変更するように指示することができる。

ホスト機器３３２は、例えば、動作ステータス＝今から出勤の時は時刻・ルート検索辞書を使用し、動作ステータス＝外出の時は一般辞書を使用し、動作ステータス＝夜モードの時はリフレッシュ辞書を使用するように、インターネット２を通じてテキスト変換部１０１−２に指示する。

ホスト機器３３２は、条件に応じて使用する音声認識辞書の種類の情報である、変更条件種類情報を登録するモード（以降変更条件登録モードと呼ぶ）以降を有している。

ユーザ３３１は、変更条件に応じて音声認識辞書の種類を使い分けるために、変更条件種類情報をホスト機器３３２に予め登録する必要がある。

変更条件に応じて音声認識辞書の種類を使い分けるための登録方法は、ユーザ３３１が発した音声をマイク４２１を通じてホスト機器３３２が取り込み、その取り込んだ音声データを解析することで、登録できるようにしてもよい。或いはまた表示装置４２５に、付加情報１を設定するメニューを表示させ、ユーザ３３１がそのメニューに従って操作することで登録できるようにしてもよい。或いは図４に示すネットワークＩ／Ｆ４２７を経由して接続されている外部のデバイス、例えばスマートフォンやタブレットを用いて、そのスマートフォンやタブレットの表示画面に予約語に付加情報１を設定するメニューを表示さ、ユーザ３３１がその表示されたメニュー画面に従って操作することで登録できるようにしてもよい。

図２４は、表示部４２５に表示された変更条件種類情報を設定するメニューを表示させ、ユーザ３３１がそのメニューに従って操作することで変更条件に応じて使い分ける音声認識辞書の種類を登録する場合の処理シーケンスの例である。図２４に示すＳ２４１７からＳ２４２３の処理は、付加情報１の登録シーケンスである図１５ＢのＳ１５１７からＳ１５２３の処理と同一である。

ユーザ３３１は、表示されたメニュー画面に従って操作することで、変更条件に応じて使い分ける音声認識辞書の種類を入力する。入力が完了した変更条件種類情報は、入力管理部４２０に取り込まれる（Ｓ２４１７）。入力管理部４２０は、取り込んだ変更条件種類情報をトリガー設定部４０３に転送する（Ｓ２４１８）。トリガー設定部４０３は、転送された変更条件種類情報をメモリ４１０の予約語保存エリア４１０−２に保存する（Ｓ２４１９）。

図２５は、図２３に示すように変更条件に応じて音声認識辞書の種類を変更するための変更条件種類情報がメモリ４１０の予約語保存エリア４１０−２に保存されている場合に、その保存されている変更条件種類情報の内容に応じて、ホスト機器３３２が音声テキスト変換部１０１−２に、音声認識辞書の変更を通知する場合の処理シーケンスの例である。

図２５の処理は、例えば図９Ｂに示す予約語の認識の処理が終了した（Ｓ９１１）あとに、継続して行うことが望ましい。或いは、予約語の認識が行われた後に、図１０Ａおよび図１０Ｂに示すように、機器やセンサを制御するためにユーザ３３１がホスト機器３３２に発した場合に、その言葉をホスト機器３３２が取り込んだタイミング（Ｓ１００１）で行うことが望ましい。

図２５は、図１０Ａおよび図１０Ｂに示すように機器やセンサを制御するためにユーザ３３１がホスト機器３３２に言葉を発した場合に、その言葉をホスト機器３３２が取り込んだタイミング（Ｓ１００１）で、音声認識辞書の変更の判定とその結果の通知を行う場合の例である。

予約語の認識が完了した場合、ホスト機器３３２は、継続してユーザの発した音声を、マイク４２１を通じて入力管理部４２０に取り込む（Ｓ２５０１）。入力管理部４２０は、音声データを取り込んだタイミングで、変更条件種類情報を読み出すために、音声処理部４０７に読み出し要求（変更条件種類情報）を送信する（Ｓ２５０２）とともに取り込んだ音声データに対する処理は一時停止する。読み出し要求（変更条件種類情報）を受信した音声処理部４０７は、メモリ４１０の予約語保存エリア４１０−２から、変更条件と音声認識辞書の種類の組み合わせが含まれている変更条件種類情報を読み出す（Ｓ２５０３）。音声処理部４０７は、読み出した変更条件種類情報の「変更条件」を解析し、その内容がホスト機器３３２の状態に適合しているかの判定を行う（Ｓ２５０４）。判定の結果適合していると判定された場合、音声処理部４０７は、「変更条件」に対応する「音声認識辞書の種類」を読み出し、音声認識辞書種類通知により変更後の音声認識辞書の種類をインターネット２を通じて音声テキスト変換部１０１−２に通知する（２５０５）。音声認識辞書種類通知を受信した音声テキスト変換部１０１−２は、通知された音声認識辞書の種類を参照し、現在使用中の音声認識辞書の種類を通知された音声認識辞書の種類に変更する（Ｓ２５０６）
音声テキスト変換部１０１−２は、音声認識辞書の種類の変更が完了すると、変更完了の通知として、音声処理部４０７に対して音声認識辞書変更完了通知を通知する（Ｓ２５０７）。

音声処理部４０７は、音声認識辞書変更完了通知を受信すると（Ｓ２５０７）、入力管理部４２０に対して、変更条件種類情報の読み出しが完了した旨の通知として、読み出し完了通知を送信する（Ｓ２５０８）。入力管理部４２０は、読み出し完了通知を受信する（Ｓ２５０８）と、Ｓ２５０１において取り込んでいた音声データに対する処理を再開する。

ユーザ３３１は、ホスト機器３３２に登録した予約語を忘れてしまう場合がある。そのような場合に備えて、ユーザ３３１は、登録済みの予約語を簡易な方法で確認できることが望ましい。

図２６は、図５Ａおよび図５Ｂに示す処理シーケンスの例で予約語を登録したユーザ３３１が、登録済みの予約語を忘れてしまった場合、登録済みの予約語の一部または全部をユーザ３３１に通知するための予約語（以降救済予約語と呼ぶ）と表示内容（表示範囲）の例の一覧を示している。例えば「わからない」という予約語に対しては、ホスト機器３３２に登録済みの予約語の全てを表示部４２５に表示する、或いはホスト機器に３３２に接続された外部のデバイスの表示エリアに表示する場合を示している。また「ちょっと教えて」という予約語に対しては、ホスト機器３３２に登録済みの予約語のうち予め決められた一部を表示部４２５に表示する、或いはホスト機器３３２に接続された外部のデバイスの表示エリアに表示する場合を示している。また「使ってないヤツ」という予約語に対しては、ホスト機器３３２に登録済みの予約語のうち使用履歴が過去１年間ない予約語を表示部４２５に表示する、或いはホスト機器３３２に接続された外部のデバイスの表示エリアに表示する場合を示している。ホスト機器３３２に接続された外部のデバイスとしては、例えばスマートフォンやタブレット、液晶テレビ等の表示画面が比較的大きくユーザが一度に多くの予約語を参照することができるデバイスであることが望ましい。

このように、登録済みの予約語を表示させるための予約語の登録は、ホスト機器のモード＝設定モード（予約語（表示用））に変更して、図５Ａおよび図５Ｂに示す予約語の登録の処理シーケンスに従って登録すればよい。

上記の例は、図２６に示した「救済予約語」をユーザが発することで、すぐに該当する予約語が表示される例である。しかし、ホスト機器３３２が、該当する予約語を表示するまえに、ユーザ３３１に対して合言葉を聞くようにしてもよい。ユーザが「救済予約語」を発した後、ホスト機器３３２はスピーカ４２３を通じて例えば「山」と音声を発し、これに対して例えばユーザ３３１が「川」と応答したときに、該当する予約語を表示してもよい。

更に、ホスト機器３３２は、ユーザ３３１が発した言葉を取り込んで、予約語、付加語、あるいは付加情報を登録するシーンを録音あるいは録画することも出来る。あるいは、予約語、付加語、を認識した場合に、その認識するシーンを録音あるいは録画することもできる。

図２７は、ホスト機器３３２が、ユーザ３３１が発した言葉を取り込んで、予約語、付加語、あるいは付加情報の登録、予約語あるいは付加語の認識、のシーンを録音あるいは録画する場合、ホスト機器３３２の機能ブロック図を示している。図４との違いは、ホスト機器２７００が予約語、付加語、あるいは付加情報を登録するシーンを録画する、あるいは予約語あるいは付加語を認識するシーンを録画するためのカメラ２７０２を有する点、また制御管理部２７０１がＡＰＰ−Ｍｇ２７０１−１、ＣＯＮＦ−Ｍｇ２７０１−２に加えＥＶＴ−Ｍｇ２７０１−３を有する点、システムコントローラ４０２が録音あるいは録画したシーンのデータを再生するための再生制御機能を有している点である。ＥＶＴ−Ｍｇ２７０１−３は、予約語、付加語、あるいは付加情報を登録するシーンの発生、また、予約語、付加語、を認識するシーンの発生、に起因して後述する録音あるいは録画を行う機能を有している。以下、ホスト機器３３２が、ユーザ３３１が発した言葉を取り込んで、予約語、付加語、あるいは付加情報を登録するシーンを録音あるいは録画する処理の流れ、また予約語、付加語を認識するシーンを録音あるは録画する処理の流れ、について説明する。

図２８は、予約語、付加語、あるいは付加情報を登録するシーンが発生したとき、あるいは、予約語、付加語、を認識するシーンが発生した場合に、登録のシーンあるいは認識のシーンをホスト機器３３２が録音あるいは録画する場合の時間経過を示している。

時刻t1において、ホスト機器３３２は、ユーザが発した言葉を予約語として登録を開始したとする。予約語の登録の開始は、例えば図５Ａおよび図５Ｂの予約語の登録シーケンスにおける、入力管理部４２０がＳ５０２の処理を行うタイミングとしてもよい。入力管理部４２０は、予約語の登録の開始を認識すると、その旨をＥＶＴ−Ｍｇ２７０１−３に通知する。予約語の登録開始の旨の通知を受信したＥＶＴ−Ｍｇ２７０１―３は、マイク４２１を通じて予約語登録のシーンをＲｅｃ１として録音する、あるいはカメラ２７０２を通じて予約語登録のシーンをＲｅｃ１として録画する。予約語の登録の終了は、例えば図５Ａおよび図５Ｂの予約語の登録シーケンスにおける、入力管理部４２０がＳ５１２の登録完了通知を受け取ったタイミングとしてもよい。予約語の登録の終了を把握した入力管理部４２０は、その旨とＥＶＴ−Ｍｇ２７０１−３に通知する。予約語の登録完了の旨を受信したＥＶＴ−Ｍｇ２７０１−３は、マイク４２１を通じて行っていた予約語登録のシーンの録音を終了させる、あるいはカメラ２７０２を通じて行っていた予約語登録のシーンの録画を終了させる。

同様に、時刻t2において、ホスト機器３３２はユーザが発した言葉を予約語として認識を開始したとする。予約語の認識の開始は、例えば図８Ａおよび図８Ｂの予約語の認識シーケンスにおける、入力管理部４２０がＳ８０２の処理を行うタイミングとしてもよい。入力管理部４２０は、予約語の認識の開始を認識すると、その旨をＥＶＴ−Ｍｇ２７０１−３に通知する。予約語の認識開始の旨の通知を受信したＥＶＴ−Ｍｇ２７０１―３は、マイク４２１を通じて予約語認識のシーンをＲｅｃ２として録音する、あるいはカメラ２７０２を通じて予約語認識のシーンをＲｅｃ２として録画する。予約語の認識の終了は、例えば図８Ａおよび図８Ｂの予約語の登録シーケンスにおける、入力管理部４２０がＳ８１１の認識完了通知を受け取ったタイミングとしてもよい。予約語の登録の終了を把握した入力管理部４２０は、その旨とＥＶＴ−Ｍｇ２７０１−３に通知する。予約語の登録完了の旨を受信したＥＶＴ−Ｍｇ２７０１−３は、マイク４２１を通じて行っていた予約語認識のシーンの録音を終了させる、あるいはカメラ２７０２を通じて行っていた予約語認識のシーンの録画を終了させる。

同様に、t3およびt4において発生した登録あるいは認識のイベントを録画あるいは録音する。

ホスト機器３３２は、録音または録画された登録のシーンまたは認識のシーンを再生することができる。

図２９は、録画あるいは録音されたシーンの各データを再生する際に、再生対象のデータが表示されている様子の一例を示している。図２９の例では、図２８の時間軸に対するイベントの発生する様子に対応する形で、４つの再生対象のデータのアイコンが表示されている。この再生対象のデータのアイコン表示は、例えば表示部４２５に表示されてもよい。あるいはホスト機器３３２に接続された外部デバイス、例えばスマートフォンやタブレット、液晶テレビ等に表示されてもよい。

表示されているアイコンは、録音または録画された日時と、録画または録音の対象のデータの内容を表している。例えばアイコンの表示内容が、予約語登録「おおきに」の場合は、録画または録音されているデータの内容が、「おおきに」を予約語として登録したシーンであることを示している。同様にアイコンの表示内容が、予約語認識「おおきに」の場合は、録画または録音されているデータの内容が、「おおきに」を予約語として認識したシーンであることを示している。

ユーザ３３１は、再生したいデータのアイコンを選択することが、対象となるデータの録音または録画された内容を確認することが出来る。

更にまたホスト機器３３２は、ネットワーク３３３で接続されているカメラやマイクに指示を出し、これらのカメラやマイクにより、予約語、付加語、あるいは付加情報を登録するシーンが発生した場合に、あるいは、予約語、付加語、を認識するシーンが発生した場合に、登録のシーンあるいは認識のシーンを録音あるいは録画してもよい。

既に説明したようにホスト機器３３２は、ユーザ３３１が発した言葉の中から予約語を認識することで、その予約語に対応した付加情報の内容をもとに、ネットワークで接続された機器やセンサを制御することが出来る。この対象となる機器やセンサの制御内容は、高いセキュリティを必要とする場合もある。例えば、金庫の扉の開閉の制御をホスト機器を用いて実施できるように、ホスト機器３３２に付加情報として金庫の扉の開閉動作が設定されている予約語が登録されているとする。この場合、ホスト機器３３２は、該当する予約語を認識した場合、金庫の扉の開閉を行うとともに、金庫の周辺にあるマイクやカメラを用いて、制御対象の機器である金庫の周辺を録音あるいは録画することで、金庫の扉の開閉動作のセキュリティを保つことが可能となる。ユーザ３３１は、ネットワークで接続されたマイクやカメラを用いて録音あるいは録画されたデータも、ホスト機器３３２に内蔵されているマイクやカメラを用いて録音あるいは録画されたデータ同様に、その内容を確認することが出来る。ホスト機器３３２による制御対象となる機器やセンサの制御内容が高いセキュリティを必要とする場合、ホスト機器３３２は更にまた、制御内容を実施するまえに、制御対象の機器やセンサの周辺にあるマイクやカメラを用いて録音した音声や録画した映像を用いて、録音された音声を発した人物あるいは録画された映像の人物の正当性確認を行ってもよい。ホスト機器３３２は、特定の付加情報における制御内容を実行する前に、あらかじめ登録してある特定人物の声や顔などの特徴点と、制御対象の機器やセンサの周辺にあるマイクやカメラを用いて集音された音声や撮影された映像とを比較し、該当人物の正当性が確認された場合のみ、該当する制御内容を実行するようにしてもよい。

以上の実施形態の説明は、認識用データ変換部１０１−１、音声テキスト変換部１０１−２、テキスト分析部１０２−１、応答・アクション生成部１０２−２が、いずれもクラウドサーバ１の中に存在しているものとして説明したが、これらの一部あるいは全てがホスト機器３３２の中に存在していても構わない。その場合も、既に説明した各処理の動作シーケンスの例は、記載済みのものと同様となる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１・・・クラウドサーバ、２・・・インターネット、３・・・ホーム、１０１・・・音声認識クラウド、１０２・・・対応アクション生成クラウド、３１０・・・各種センサ、３２０・・・各種設備機器、３３０・・・ＨＧＷ（ＨｏｍｅＧａｔｅＷａｙ）、３３１・・・ユーザ、３３２・・・ホスト機器、３４０・・・各種家電機器。

Claims

外部から入力される第１の音声の内容により、前記第１の音声が入力された以降に入力される第２の音声の内容に基づいて１台または複数台の機器の制御の実行を判定する電子機器において、
前記第１の音声が所望の音声であることを判定するための判定用音声データを、複数回外部から入力された音声により作成管理し、作成管理されている前記判定用音声データを用いて前記第１の音声が所望の音声であることを判定する管理手段と、
第２の音声の内容に基づいて前記１台または複数台の機器の制御を実行する制御手段と、を備え
前記管理手段により前記判定用音声データを用いて、前記第１の音声が所望の音声であると判定された場合に、前記制御手段により前記第２の音声の内容に基づいて前記１台または複数台の機器の制御を実行する電子機器であって、
前記管理手段による判定結果を表示できる表示部を有し、前記第１の音声が、前記管理手段により前記判定用音声データを用いて所望の音声であると判定された場合は、その旨を前記表示部に表示し、
前記管理手段は、前記判定用音声データを用いて前記第１の音声が所望のデータであることを判定する際に、複数の基準を持つ判定基準１を持ち、判定結果が満たす前記判定基準１の複数の基準のうちのいずれかに応じて、前記表示部に表示する内容を変える電子機器。
前記第２の音声の内容に基づいて制御する前記１台または複数台の機器とは、ネットワークにより接続されている請求項１に記載の電子機器。
前記管理手段は、複数の前記判定用音声データを作成管理することができる、請求項１に記載の電子機器。
前記管理手段による判定結果を音声で出力する出力部を有し、前記第１の音声が、前記管理手段により前記判定用音声データを用いて所望の音声であると判定された場合は、その旨を前記出力部から出力する請求項１に記載の電子機器。
前記第１の音声が、前記管理手段により前記判定用音声データを用いて所望の音声であると判定された場合に、前記第２の音声の内容の一部あるいは全部の内容に基づいて、前記１台または複数台の機器の制御の内容を変える請求項１から請求項４のいずれかに記載の電子機器。
前記第１の音声が、前記管理手段により前記判定用音声データを用いて所望の音声であると判定された場合に、前記第２の音声の内容の一部あるいは全部の内容に基づいて、前記電子機器の動作内容を変える請求項１から請求項５のいずれかに記載の電子機器。
前記管理手段は、外部から入力される音声の入力されるタイミングを確認する確認タイマを持ち、前記確認タイマにより外部から入力される音声のタイミングが一定時間以上離れていると判定した場合は、前記第１の音声の入力を要求する請求項１から請求項６のいずれかに記載の電子機器。
前記第２の音声の内容を解析するために用いる音声認識辞書の種類を選択する選択手段を持ち、
前記管理手段が複数の前記判定用音声データを持つ場合、前記第１の音声が所望の音声であると判定するために用いた前記判定用音声データの種類に応じて、前記選択手段は前記音声認識辞書の種類を決定する、請求項１から請求項７のいずれかに記載の電子機器。
前記第２の音声の内容を解析するために用いる前記音声認識辞書の種類を選択する前記選択手段を持ち、
前記電子機器の状態に応じて、前記選択手段は前記音声認識辞書の種類を決定する、請求項８に記載の電子機器。
外部から入力される第１の音声の内容により、前記第１の音声が入力された以降に入力される第２の音声の内容に基づいて１台または複数台の機器の制御の実行を判定する制御方法において、
前記第１の音声が所望の音声であることを判定するための判定用音声データを、複数回外部から入力された音声により作成管理し、作成管理されている前記判定用音声データを用いて前記第１の音声が所望の音声であることを判定する管理手段と、
第２の音声の内容に基づいて前記１台または複数台の機器の制御を実行する制御手段と、を備え
前記管理手段により前記判定用音声データを用いて、前記第１の音声が所望の音声であると判定された場合に、前記制御手段により前記第２の音声の内容に基づいて前記１台または複数台の機器の制御を実行する制御方法であって、
前記管理手段による判定結果を表示できる表示部を有し、前記第１の音声が、前記管理手段により前記判定用音声データを用いて所望の音声であると判定された場合は、その旨を前記表示部に表示し、
前記管理手段は、前記判定用音声データを用いて前記第１の音声が所望のデータであることを判定する際に、複数の基準を持つ判定基準１を持ち、判定結果が満たす前記判定基準１の複数の基準のうちのいずれかに応じて、前記表示部に表示する内容を変える制御方法。