JP7179834B2

JP7179834B2 - 音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法

Info

Publication number: JP7179834B2
Application number: JP2020512956A
Authority: JP
Inventors: 康宣橋本; 郁也荒井; 聡高清水; 和彦吉澤; 宏清水; 貞雄鶴賀; 治川前
Original assignee: Maxell Ltd
Current assignee: Maxell Ltd
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2022-11-29
Anticipated expiration: 2038-04-09
Also published as: WO2019198132A1; EP3779667A1; JP2023025061A; US11810567B2; CN111971647A; JPWO2019198132A1; EP3779667A4; US20210104242A1; JP7543373B2

Description

本発明は、音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法に関する。

近年、発話者の発する音声内容を音声認識し、発話内容を解析することで、発話内容に則した応答を付属するスピーカーから音声出力する、所謂スマートスピーカー、あるいはＡＩスピーカーと呼ばれる音声認識技術及び人工知能技術を用いた音声認識デバイスが製品化されつつある。例えば、特許文献１には音声認識技術の一例として「発話入力に音声認識アルゴリズムを適用した結果得られた解釈候補が、冗長性を減少させて統合化された方法で提示される方法を提供するために、ユーザに解釈候補の中から選択する機会を提示し、重複要素なしでこれらの選択肢を提示するように構成される（要約抜粋）」との記載がある。また特許文献２には「自動音声認識システムにおける、音声認識モデル及びデータの使用を管理するための機能として、ユーザがいつシステムを利用する可能性があるかを予測するために追跡され得る（要約抜粋）」とする記載がある。

特開２０１３－６８９５２号公報特表２０１５－５３７２５８号公報

上記のスマートスピーカー等の音声認識デバイスは、当該デバイスに対して当該デバイスの周辺にいる者が音声で指示等を与えることにより当該デバイスで処理し応答を得るものであるが、当該デバイスを複数個で連携して使用することについては開示していない。つまり、宅内での使用例としてはリビングで家族が当該デバイスを共有して天気予報、ニュース、音楽などのインターネット上に存する情報取得を要求すると、それに応じた内容を音声出力するだけで、リビング以外の例えば、子供部屋にある、更に別の音声認識デバイスとの間では何らのコミュニケーションや連携動作を行うことが想定されていない。このため、複数の音声認識デバイスを連携して使用することができず、音声認識デバイスの新たな利用態様について工夫の余地がある。

本発明は上記実情に鑑みてなされたものであり、複数の音声認識デバイスを連携して利用することができる音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法を提供することを目的とする。

上記目的を達成するために、本発明は特許請求の範囲に記載の構成を有する。

本発明によれば、複数の音声認識デバイスを連携して利用することができる音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法を提供することができる。上記以外の目的・構成・効果は下記実施形態において明らかにされる。

本実施形態に係る音声認識デバイスのハードウェア構成図音声認識デバイスの機能ブロック図参照メモリに記憶されるホットワードデータの例を示す図参照メモリに記憶される声認証データの例を示す図音声認識デバイスを用いた連携システムを示す図連携システムにおける第１の呼びかけ動作を示すフローチャート所在推定データの一例を示す図通常モード／会話モードの第１の切り替え処理の流れを示すフローチャート通常モード／会話モードの第２の切り替え処理の流れを示すフローチャート新規設置時の第１の設定処理について示す概念図新規設置時の第２の設定処理について示す概念図新規設置時の第２の設定処理の流れを示すフローチャート第２実施形態における家屋内の音声認識デバイスの連携システムの概要構成を示す図人物についての時間帯ごとの利用状況を記録した利用状況データの一例を示す図人物についての時間帯ごとの呼び出し先優先順位を記録した呼び出し優先順位データの一例を示す図音声認識デバイスと携帯通信端末とをドックで接続する例を示す図留守番モードへの切替処理を示すフローチャート

以下、本発明の実施形態の例を、図面を用いて説明する。なお、各種の図面において、同一の機能には同一の符号を付し、重複説明を省略する。

＜第１実施形態＞
図１は、本実施形態に係る音声認識デバイス１のハードウェア構成図である。音声認識デバイス１は、音声認識専用の装置であっても、携帯電話端末、スマートフォン、パーソナルコンピュータ、ゲーム機器、等のように従来から存する通信機能を有する電子機器であっても良い。また、音声認識デバイス１は、通信機能として、有線ＬＡＮ、無線ＬＡＮ、携帯電話回線の無線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＲＦＩＤなどの近接無線、等の一般的な通信機能を用いてもよく、それら通信機能に対応する通信インタフェースを一つ、又は複数備える。

具体的には、音声認識デバイス１は、ＣＰＵ１０１、メモリ１０３、外部インターフェースとしての有線ＬＡＮＩ／Ｆ１０４、無線ＬＡＮＩ／Ｆ１０５、及び無線通信Ｉ／Ｆ１０６、音声入力部１０７（例えばマイク）、音声出力部１０８（例えばスピーカ）、表示出力部１０９（例えば液晶画面）がバス１０２を介して互いに接続される。またバス１０２には、人物検知センサＩ／Ｆ１１０、タイマー１１１、ＲＴＣ１１２、カメラ１１３が接続されてもよい。

メモリ１０３は、揮発性メモリからなる内部メモリ１０３１及び不揮発性メモリからなる参照メモリ１０３２を含む。

人物検知センサＩ／Ｆ１１０は、例えば人感センサーや集音センサー等種類を問わず、人物検知センサを外付けするためのＩ／Ｆである。

図２は、音声認識デバイス１の機能ブロック図である。

音声認識デバイス１は、音声処理エンジン１２０を備える。音声処理エンジン１２０は、主に音声処理部１２０１、音声認識部１２０２、ホットワード検出部１２０３、音声解析部１２０４、及び特徴抽出部１２０５を含む。

音声処理エンジン１２０は、ＣＰＵ１０１が参照メモリ１０３２に保持される音声処理プログラムを読み出して内部メモリ１０３１にロードし、音声処理プログラムに沿った処理を実行することにより、音声処理エンジン１２０の機能が実現する。

具体的には、音声認識デバイス１に向けて人が何か話しかけると、その声が音声入力部１０７で取り込まれ、声（アナログデータ）がデジタルデータからなる音声データに変換される。

音声処理部１２０１は、音声データに含まれる周辺ノイズ除去等の調整等を行う。

音声認識部１２０２は、音声データを文字列データへ変換する音声認識処理を行う。

ホットワード検出部１２０３は、文字列データが音声認識デバイス１に対する動作の開始、待機状態からの復帰などの起動を求める所定の語句（以下「ホットワード」という）を含む文字列データであるかを判定する。

図３Ａは、参照メモリ１０３２に記憶されるホットワードデータ１５０の例を示す図である。ホットワードデータ１５０は、登録ホットワード１５０１と、その登録ホットワード１５０１の音声認識デバイス１に対する動作を規定した種別１５０２と、登録ホットワード１５０１を用いて呼びかける音声認識デバイス１を特定する機器固有情報が規定された呼びかけ先１５０３とが関連付けられたデータである。ホットワード検出部１２０３は、文字列データがホットワードデータ１５０に記載されているかを基にホットワードの検出を行う。

音声解析部１２０４は、音声認識デバイス１に向けて話した内容の解釈、即ち文字列データに対応する応答データや制御コマンドを決定し、応答データを音声出力部１０８から出力したり、制御コマンドをＣＰＵ１０１へ出力し、音声データが示す処理をＣＰＵ１０１に実行させる。例えば、制御コマンドとして特定の音楽の再生コマンドがある。

音声認識部１２０２は、音声認識デバイス１ではなく、音声認識デバイス１に接続された外部サーバ２０１（図４参照）に備え、音声認識処理を外部サーバ２０１で実行してもよい。これにより、音声認識デバイス１の負荷を減らすことができる。音声認識デバイス１で音声認識処理を実行する場合は、外部サーバ２０１とのデータ通信量を下げることができる。

また第１実施形態に係る音声認識デバイス１に特徴的な機能として、従来の音声認識デバイスのように単独での動作のほかに、話しかけられた音声を家屋や建物内と言った所定の空間内に設置されるプライベートな通信ネットワーク（以下、宅内ＬＡＮ２１０：図４参照を例示する）上に存する別の音声認識デバイス１へ転送して会話を行うことができる点がある。そのため、ホットワード検出部１２０３は、会話を行うための会話モードへと移行する端緒であるホットワードを検出する。更に、音声認識デバイス１は、宅内ＬＡＮ２１０を介した会話に参加可能な人物から声や画像の特徴を抽出し、登録データとの一致判定を行う特徴抽出部１２０５を有する。

図３Ｂは、参照メモリ１０３２に記憶される声認証データ１６０の例を示す図である。

声認証データ１６０は、宅内ＬＡＮ２１０を介した会話に参加可能な人物を固有に特定する情報としての話者１６０１と、話者の属性、例えば音声認識デバイス１や通信ネットワークの設定権限を有する「マスター」か、又は設定権限を有さず、宅内ＬＡＮ２１０での会話への参加権限だけを有する「一般」か、を示す話者種別１６０２と、各個人の声の特徴を示す話者テンプレート１６０３とが関連付けられたデータである。

図４は、音声認識デバイス１を用いた連携システム１００を示す図であり、宅内で使用する場合の一例を示している。なお、この例では宅内としているが、家屋内に限定されるものではなく、事務所や教室などの特定の人たちが集まる空間でも本実施形態は適用可能である。

（第１の呼びかけ動作）
図４で家屋内の各部屋１、部屋２、部屋３、部屋４にそれぞれ設置される第１音声認識デバイス１Ａ、第２音声認識デバイス１Ｂ、第３音声認識デバイス１Ｃ、第４音声認識デバイス１Ｄは、図１の音声認識デバイス１と同一機能を有するものである。ここで、各部屋に存する第１～第４音声認識デバイス１Ａ～１Ｄの其々は、部屋２～４の其々に設置されたアクセスポイント或いは無線中継器である第２ＡＰ２０３２～第４ＡＰ２０３４の其々を介して部屋１に設置してあるルーター２０２に接続される。そして、第１～第４音声認識デバイス１Ａ～１Ｄの其々は、ルーター２０２を介して外部のインターネット２００に接続されている。

以下、図５の各ステップ順に沿って、連携システム１００における第１の呼びかけ動作について説明する。本ステップの処理を開始するに当たり、第１～第４音声認識デバイス１Ａ～１Ｄは、全て電源が入っており、音声入力部１０７及び音声処理エンジン１２０は起動しているものとする。この状態をスタンバイモードという。

部屋１に居る人物Ａが第１音声認識デバイス１Ａに向けて呼びかけを行うと、人物Ａの声は第１音声認識デバイス１Ａの音声入力部１０７で取り込まれた後に、ホットワード検出部１２０３で起動要求を意味する第１ホットワードか否かの判定を行う。ホットワード検出部１２０３が呼びかけ音声は第１ホットワードであると判定すると（Ｓ１０１／Ｙｅｓ）、「何かご用でしょうか？」と言った所定の定型語句の音声応答データを音声出力部１０８から再生する。ホットワード検出部１２０３は、第１ホットワードを音声解析部１２０４へ出力し、音声解析部１２０４は通常モード実行部１４０６に対して実行命令を出力する。これにより、第１音声認識デバイス１Ａは、通常モードに切り替わる。通常モードは、第１音声認識デバイス１Ａが有する機能を全て実行可能な動作モードである。

ホットワード検出部１２０３がホットワードではないと判定すると（Ｓ１０１／Ｎｏ）、スタンバイモードを維持する。

次に人物Ａが他の部屋にいる人物Ｂに向けて「Ｂ君！」と言う呼び掛けを発すると、その音声は音声入力部１０７を介して音声データとして取り込まれた後、音声処理エンジン１２０の音声処理部１２０１で周囲ノイズ除去等の調整を行った後にホットワード検出部１２０３で第２ホットワード（会話モードへの切替要求を指示するホットワード）か否かを判定する（Ｓ１０２）。

「Ｂ君！」と言う呼び掛け音声データがホットワードとしてホットワードデータ１５０に予め登録されており、ホットワード検出部１２０３が「Ｂ君！」という語が第２ホットワードであると判定すると（Ｓ１０２／Ｙｅｓ）、音声解析部１２０４に第２ホットワードを出力する。本実施態様では、会話モードへ移行する端緒となるホットワードを宅内に存する人物の名前としているが、これに限るものではなく、別の定型フレーズ、例えば、「話す」とか「つなぐ」等と言った言葉でも何であっても良い。

音声解析部１２０４は、第２ホットワードが会話モードへの切替要求であると解析し、それに必要な制御コマンドを選択する（Ｓ１０３）。本例では、第１～第４音声認識デバイス１Ａ～１Ｄを会話モードへと切り替えるモード切替コマンド、及び「Ｂ君！」という音声データを第１音声認識デバイス１Ａから第２～第４音声認識デバイス１Ｂ～１Ｄの其々に送信し、其々の音声出力部１０８から出力させる音声転送コマンド及び音声再生コマンドが該当する。

第１音声認識デバイス１Ａでも会話モード実行部１４０３が起動し、会話モードに切り替わる（Ｓ１０４）。

第１音声認識デバイス１Ａのコマンド送信部１４０２は、音声転送コマンドに基づいて通信制御部１４１０を介して第２～第４音声認識デバイス１Ｂ～１Ｄに対して「Ｂ君！」と言う呼び掛け音声データを転送し、かつ其々に対して会話モードに切替えるモード切替コマンド及び音声再生コマンドを送信する。また、第１音声認識デバイス１Ａのコマンド送信部１４０２は、第２～第４音声認識デバイス１Ｂ～１Ｄに対して呼び掛け音声データを転送してからの経過時間の計測を開始する（Ｓ１０５）。

第２～第４音声認識デバイス１Ｂ～１Ｄの其々は、呼びかけ音声データを其々が有する音声出力部１０８から「Ｂ君！」という音声を再生し、会話モード実行部１４０３が起動して会話モードに切り替わる。音声データの再生の順番については、第２～第４音声認識デバイス１Ｂ～１Ｄの其々が同時に音声再生することとしても良いし、所定の順番で第２～第４音声認識デバイス１Ｂ～１Ｄから音声出力することでも良い。この所定の順番としては、例えば、音声認識デバイスを設置した順番であったり、部屋ごとの優先順位を付けた順番であったり（図１４参照）、等でも良い。

部屋２にいる人物Ｂが応答し、例えば、「はい！」の様に呼びかけに応じた返答がなされると第２音声認識デバイス１Ｂが音声入力部１０７を介して音声データとして取り込み、当該応答音声データを呼びかけ元である第１音声認識デバイス１Ａへ返送する。この際に、第２音声認識デバイス１Ｂと人物Ｂの紐づけが行われる。更に、第２音声認識デバイス１Ｂの存する部屋２に居る人物は人物Ｂであるとする紐づけ情報が、第１、第３、第４音声認識デバイス１Ａ、１Ｃ、１Ｄにも共有登録される。

図６に、所在推定データの一例を示す。

人物Ｂと第２音声認識デバイス１Ｂとの紐づけ登録例として、第１音声認識デバイス１Ａが上記応答音声データを受領すると、「人物Ｂ＝第２音声認識デバイス１Ｂ」として参照メモリ１０３２にあらかじめ登録された所在推定データ（図６参照）に追記してもよい。宅内の第１～第４音声認識デバイス１Ａ～１Ｄの識別は、機器のＭａｃアドレスや宅内ＬＡＮ２１０での機器割り当てＩＰアドレスなどの特定の識別子を使用すればよい。

更に、上記の所在推定データは、第１音声認識デバイス１Ａから宅内の他の音声認識デバイス、即ち第２～第４音声認識デバイス１Ｂ～１Ｄに対して登録要求が展開され、各第２～第４音声認識デバイス１Ｂ～１Ｄの参照メモリ１０３２に保持される。なお、上記所在推定データが各第１～第４音声認識デバイス１Ａ～１Ｄ内の参照メモリ１０３２に既に保持されている場合は、既登録として紐づけ操作は行わない。人物の登録は、図２の「Ｂ君！」の呼びかけ音声中に含まれる名前の部分を音声処理エンジン１２０、あるいは外部サーバ２０１上で抽出して名前データとして用いると「人物Ｂの名前＝第２音声認識デバイス１Ｂ」の対応付けが可能となる。

なお、会話モードへの切り替えを判断するためのホットワードの登録方法については後述する方法で初期設定時等の音声認識デバイス設置時や新規登録設定時に行う。

第１音声認識デバイス１Ａのコマンド送信部１４０２は、タイマー１１１で計測した経過時間が応答の有無を判断するための待機時間閾値以上になった場合（Ｓ１０６／Ｙｅｓ）、第２～第４音声認識デバイス１Ｂ～１Ｄのうち応答がなかったデバイスに対して、会話モードからスタンバイモードに戻すコマンドを送信する（Ｓ１０７）。

第２～第４音声認識デバイス１Ｂ～１Ｄのうちの少なくとも一つから音声データの応答があり時間閾値未満の経過時間で応答があった場合（Ｓ１０６／Ｎｏ）、第１音声認識デバイス１Ａと応答があったデバイス、例えば第２音声認識デバイス１Ｂの会話モードを維持する（Ｓ１０８）。

会話モード実行部１４０３は、ステップＳ１０４において会話モードに切り替えられてから後に、第１音声認識デバイス１Ａの音声入力部１０７に入力された音声、及びステップＳ１０５において第２音声認識デバイス１Ｂの音声入力部１０７に入力された音声を第１音声認識デバイス１Ａと第２音声認識デバイス１Ｂとの間で音声の送受信を行う。

第１音声認識デバイス１Ａと第２音声認識デバイス１Ｂのいずれか一方が、会話モードを終了させる第３ホットワードを検出すると（Ｓ１０９／Ｙｅｓ）、ホットワードを検出した機器、例えば第２音声認識デバイス１Ｂはスタンバイモードに切り替わる（Ｓ１１０）と共に、第１音声認識デバイス１Ａに対してスタンバイモードへに切り替えるコマンドを送信する（Ｓ１０７）。これを受けて、第１音声認識デバイス１Ａもスタンバイモードに切り替わり、会話モードが終了する。

また、ステップＳ１０２において第２ホットワードを検出しなければ（Ｓ１０２／Ｎｏ）、第１音声認識デバイス１Ａは、会話モードに移行することなく、通常モードを維持したまま（Ｓ１１１）、処理を終了する。

上記例では紐づけ操作は最初に呼びかけを実施した方の第１音声認識デバイス１Ａがマスター機器となって、家屋２内の呼びかけられた方の第２～第４音声認識デバイス１Ｂ～１Ｄの其々に対して制御指示を実施しているが、これに限るものでは無く、呼びかけられ応答した方の第２音声認識デバイス１Ｂがマスターとなってもよい。

別の紐づけ手法としては、例えば宅内に初めて第４音声認識デバイス１Ｄを設置する際に、第４音声認識デバイス１Ｄの主たる使用者あるいは操作者が人物Ｄであることを登録しておくことで、設置直後に宅内ＬＡＮ２１０を介して第１～第３音声認識デバイス１Ａ～１Ｃへ紐づけデータを展開し、第１～第４音声認識デバイス１Ａ～１Ｄ内の参照メモリ１０３２に「人物Ｄ＝第４音声認識デバイス１Ｄ」として登録させることも可能である。

上記例は第１音声認識デバイス１Ａから第２音声認識デバイス１Ｂに向けての呼びかけの例であるが、この手順は宅内に存する全ての音声認識デバイスとの間に適用可能であり、上記例以外の音声認識デバイスから他の音声認識デバイスに対する呼びかけであっても同様にできる。

また、上記例では、第１～第４音声認識デバイス１Ａ～１Ｄは各部屋との通信に無線ＬＡＮを利用しているが、有線ＬＡＮによる接続でも、携帯電話回線を用いた接続でも可能である。更には、会話モード時だけ通信モードを別のインタフェースに代えることも可能である。例えば、通常モードでは無線ＬＡＮを使用し、会話モードではＢｌｕｅｔｏｏｔｈの様な別の無線システムを利用するといったことでも良い。

（第２の呼びかけ動作）
上記の実施形態の様に、音声認識デバイス１と人物との紐づけが完了すると、以降に人物Ａと人物Ｂが会話を行う際には、人物Ａが使用する第１音声認識デバイス１Ａと人物Ｂが使用する第２音声認識デバイス１Ｂ間の通信のみを開放し、上記以外の音声認識デバイス１との間の通信は閉じることで会話内容の秘匿性を高めることができる。

例えば、２回目以降に人物Ａが人物Ｂを呼ぶと、第１音声認識デバイス１Ａのコマンド送信部１４０２は、所在推定データ（図６）に登録されている人物Ｂに紐づけられた第２音声認識デバイス１Ｂとの通信を確立（モード切替コマンドを送信し、それに応答することで通信が確立する）し、音声データを第２音声認識デバイス１Ｂに送付する。

会話モード実行部１４０３は、これ以降、第１音声認識デバイス１Ａと第２音声認識デバイス１Ｂとの間だけで音声データの通信を実施し、人物Ａと人物Ｂとが直接会話する状態を可能とする。これにより、宅内のすべての音声認識デバイスに向けて、いちいち音声データを送付する必要はなくなる。

この会話モード実行中に、例えば、呼びかけから所定時間内に人物Ｂからの応答としての音声データ受信がないと、第１音声認識デバイス１Ａの会話モード実行部１４０３は、会話相手が不在となったと判定する。そして、会話モード実行部１４０３からコマンド送信部１４０２に対して、今まで通信を閉じていた家屋内の他の音声認識デバイスとの通信チャネルを再開、即ち他の音声認識デバイス（第３、第４音声認識デバイス１Ｃ、１Ｄ）に向けて音声データを送付して、応答を待つ。

ここで、例えば、部屋４に存する第４音声認識デバイス１Ｄから応答があれば、第１音声認識デバイス１Ａは、当該第４音声認識デバイス１Ｄとの間で通信を開始し、会話を再開する。この場合、第１音声認識デバイス１Ａは内部の参照メモリ１０３２の所在推定データ１９０へ人物Ｂと第４音声認識デバイス１Ｄとの紐づけ情報を格納することは行わずに一時的に人物Ｂが他所へ移動したと看做すことでも良いし、あるいは人物Ｂと第４音声認識デバイス１Ｄの紐づけ情報を作成して優先順位を付し、人物Ｂと第２音声認識デバイス１Ｂの紐づけを上位、人物Ｂと第４音声認識デバイス１Ｄとの紐づけを下位に優先順を設定することでも良く、優先順に接続して応答の有無を待つことになる。

更に、第４音声認識デバイス１Ｄからも応答が無ければ、順次、宅内に存する他の音声認識デバイス（本例では第３音声認識デバイス１Ｃ）に対して音声データを送付して、応答を待つ。そして、第３音声認識デバイス１Ｃに対して音声データを送付し応答を待ち、最終的に所定時間内にすべての部屋の音声認識デバイスから全く応答がない場合は、応答なしとして第１音声認識デバイス１Ａが判定し、操作者である人物Ａに対して、例えば「応答が有りませんでした。」等の所定のフレーズで返答を行う。あるいは、上記の様に第１音声認識デバイス１Ａが他の音声認識デバイスから無応答であることを判定する代わりに、他の音声認識デバイスが所定時間内に人物Ｂからの応答音声が無いことを判定して、無応答情報を第１音声認識デバイス１Ａへ戻すことで第１音声認識デバイス１Ａは無応答であることを認識して「応答が有りませんでした。」等の所定の返答音声を出力することでも良い。

なお、所定の返答音声データはメモリ１０３に予め格納しておいても良いし、インターネット２００上の外部サーバ２０１等上に保持するものを用いることでも良い。

（第３の呼びかけ動作）
本例では、図１の音声認識デバイス１の人物検知センサＩ／Ｆ１１０に、人物を確認可能な撮像センサー、あるいは人物の有無を判別する人感センサー等の人物検知センサーが接続され、その検知結果を基に呼びかけ動作を行う。また音声認識デバイス１に内蔵されたカメラ１１３を用いてもよい。

例えば、人物Ａからの呼びかけに応じて第１音声認識デバイス１Ａが、各部屋に存する第２～第４音声認識デバイス１Ｂ～１Ｄに人物Ａの呼びかけ音声データを送信する際に、第２～第４音声認識デバイス１Ｂ～１Ｄの其々に備えられた人物検知センサーで人の有無を判断し、無人と判断できる部屋ではその場所に設置される音声認識デバイスが不在通知を第１音声認識デバイス１Ａへ戻し、コマンド送信部１４０２が受信する。

そして、第１音声認識デバイス１Ａのコマンド送信部１４０２は、不在通知を第１音声認識デバイス１Ａに対して送信した音声認識デバイスへは呼びかけの音声出力を行わない。

一方、第１音声認識デバイス１Ａのコマンド送信部１４０２は、不在通知を第１音声認識デバイス１Ａに対して送信した音声認識デバイスへは、音声データを送信し、音声データを受信した音声認識デバイスは、再生して呼びかけを行う。この後の動作は前記の各実施形態の場合と同様にできる。

また、上記の人物の認識判定は、一般に用いられる方法で良い。赤外線センサー等を用いた人感センサーで感知された人物の動きから人物の有無を検出することが可能である。

更には、人物検知センサーとしてカメラ１１３を用いてもよい。そして、顔認識部１４０４がカメラ１１３で撮られた画像から人の特徴（例えば顔画像）を抽出して人物の有無を判定してもよい。更に、顔画像と人物とを対応付けた顔認証データを予め参照メモリ１０３２に保持しておいた人物との対応情報とを照合し、呼びかけられた人物の在室の有無を判定してもよい。呼びかけられた人物がカメラ１１３で捉えられ在室と判断できれば、第１音声認識デバイス１Ａと第２音声認識デバイス１Ｂとの通信接続により人物Ａと人物Ｂとの会話が可能となる。

（第４の呼びかけ動作）
別の実施態様では、図４の人物Ａが人物Ｂに対して呼びかけを行い、人物Ｂ以外の者が返答した場合には、第１音声認識デバイス１Ａと第２音声認識デバイス１Ｂ間の通信接続を確立せずに、再度の呼びかけを実施する。

先ず、各部屋に設置される第１～第４音声認識デバイス１Ａ～１Ｄの其々には、家屋内に居住する人物の声認証データ１６０（図３Ｂ）が参照メモリ１０３２に予め保持される。声認証データ１６０は、音声処理エンジン１２０の特徴抽出部１２０５で人物の声紋、音声の抑揚、あるいは声の持つ周波数特性等を利用して話者テンプレート１６０３を作成し、第１～第４音声認識デバイス１Ａ～１Ｄの参照メモリ１０３２に声認証データ１６０として予め格納しておくことで生成される。

声認証データ１６０は、第１～第４音声認識デバイス１Ａ～１Ｄの其々の初期設定時に登録することができる。その上で、第１音声認識デバイス１Ａの声認識部１４０５は、声認証データ１６０に登録された人物Ｂの声特徴データと返答を行った者の声の特徴とを比較して、一致していれば人物Ｂとして判定し、コマンド送信部１４０２へ判定結果を受け渡す。これを受けて、コマンド送信部１４０２は、第２音声認識デバイス１Ｂに対して会話モードに移行させるためのコマンドを送信する。

もし、声認識部１４０５が声の特徴が一致していないと判断すると、人物Ｂではないとして処理する。

声認証データ１６０は、上記の様に各部屋に存する全ての第１～第４音声認識デバイス１Ａ～１Ｄの其々に予め格納し、それぞれの部屋にいる人物が応答する音声が人物Ａの呼びかけで求められる人物Ｂの音声と合致しているかを比較することでも良いが、それに代えて、特定のマスターとなる第１音声認識デバイス１Ａの参照メモリ１０３２にだけ声認証データ１６０を格納して、第１音声認識デバイス１Ａ上で声の特徴が合致するか否かを判定しても良い。

あるいは宅内に設置されるサーバ等の機器に声認証データ１６０を格納しておき、第１～第４音声認識デバイス１Ａ～１Ｄの其々から送られてくる音声データと声認証データ１６０とを比較して一致／不一致を判定してもよい。

更には、宅外に設置される外部サーバ上に声認証データ１６０を格納して、声の特徴を比較することでも良い。

上記例の様に話者１６０１の声の特徴を判定することによって、家屋内に居住する家族以外の者や家族から許可されて会話に参加可能な者以外の部外者が会話に参加することを防ぎ、セキュリティーの向上を図ることができる。

また、登録してある話者以外の声の特徴が検出された場合には、例えば、呼びかけを行う側の第１音声認識デバイス１Ａに備わる表示出力部１０９にアラーム表示を行わせることや、音声出力部１０８から「部外者からの応答があります」と言うような音声出力を行って警告を促しても良い。

（通常モード／会話モードの切り替え１）
図７は、通常モード／会話モードの第１の切り替え処理の流れを示すフローチャートであり、図５の例とは逆に会話モードがデフォルトで設定される。

本例では、第１～第４音声認識デバイス１Ａ～１Ｄを設置後、主電源が投入されている状態では会話モード実行部１４０３が起動し、操作者から他の人物への呼びかけを待つ会話モードとなる。この時に操作者からモード切替のホットワード、例えば「モードチェンジ」と言ったような所定の言葉が発せられると（Ｓ２０１／Ｙｅｓ）、モード切替部１４０１は通常モードに切り替え（Ｓ２０２）、通常モード実行部１４０６が起動する（Ｓ２０３）。

ステップＳ２０１において、モード切替のホットワードが検出されない場合は（Ｓ２０１／Ｎｏ）、会話モード実行部１４０３により会話モードが維持される。

通常モード実行部１４０６は、会話モードへの復帰条件が非充足となる間は（Ｓ２０４／Ｎｏ）、通常モードを維持する。

通常モードから会話モードへの復帰条件が充足すると（Ｓ２０４／Ｙｅｓ）、再び会話モード実行部１４０３が起動し、会話モードへ復帰する。復帰条件として、復帰させるためのホットワードを設定しても良いし、所定時間の間に操作者からの応答が無ければ復帰する様にしても良い。

（通常モード／会話モードの切り替え２）
図８は、通常モード／会話モードの第２の切り替え処理の流れを示すフローチャートである。

本例では、音声認識デバイス１は、始めに音声入力部１０７が起動して音声の有無のみを監視し続ける（Ｓ３０１／Ｎｏ）。音声入力部１０７が音声を検出すると（Ｓ３０１／Ｙｅｓ）、ホットワード検出部１２０３が、検出した音声が音声認識デバイス１に対する起動を要求（通常モードの起動を要求）する第１ホットワード、又は会話モードの起動を要求する第２ホットワードであるかを判別する（Ｓ３０２）。第１ホットワード、又は第２ホットワードのいずれにも該当しなければ（Ｓ３０２／Ｎｏ）、音声検出処理に戻る。

第１ホットワードが検出された場合（Ｓ３０２／第１ホットワード）、通常モード実行部１４０６が起動する（Ｓ３０３）。例えば、音声認識デバイス１を起動させるために設定されるニックネームを呼ばれた場合は、通常モードとして以降は処理する。

また第２ホットワードが検出された場合（Ｓ３０２／第２ホットワード）、会話モード実行部１４０３が起動する（Ｓ３０４）。例えば、家族や宅内に居る人物の名前を呼ぶ場合は、会話モードと判別して以降の処理を行う。

第１ホットワードや第２ホットワードは予め設定しておいても良いし、設置後に操作者の使い易さに合わせたホットワードに変更することでも良い。ホットワードの変更設定には、スマートフォンやパソコンに設定用の専用アプリケーションソフトウェアをインストールして実施することができる。あるいは、マスター操作者５０１を予め決めておき、マスター操作者５０１の声でホットワード変更を第１～第４音声認識デバイス１Ａ～１Ｄに指示することでも、あるいはマスター音声認識デバイス、例えば第１音声認識デバイス１Ａから他の宅内に存するスレーブデバイス、例えば第２～第４音声認識デバイス１Ｂ～１Ｄに向けて変更指示を発するようにしても良い。この際に、マスター操作者５０１の声であると認識した場合のみホットワード変更可能とすることで容易に変更されてしまうことを防止する。マスター操作者５０１の声の設定は、スマートフォンやパソコンの設定用専用アプリケーションを用意して、声の登録を行う。マスター操作者５０１の声は、第１音声認識デバイス１Ａの音声処理エンジン１２０内の特徴抽出部１２０５で声特徴データを作成して参照メモリ１０３２に登録しても良いし、あるいはスマートフォンやパソコン上で声認証データ１６０を作成して参照メモリ１０３２に登録することでも良い。更には、宅内のネットワーク環境に繋がるホームサーバ６０１を有する場合は、声特徴データを当該ホームサーバ６０１上に格納して、該サーバと音声認識デバイスとで連携しながら呼びかけられた声の特徴と格納データの声の特徴とを比較確認することでも良い。

（新規設置時の設定１）
図９は、新規設置時の第１の設定処理について示す概念図である。

音声認識デバイス１を宅内に新たに設置する際には、スマートフォンやパソコンの様な電子機器４０１に専用のアプリケーションソフトウェア（初期設定用アプリケーションソフト）４１０をインストールする。そして、宅内のルーター２０２等とのネットワーク接続設定、既設の音声認識デバイス１が有る場合の機器登録、宅内の家族等の人物と音声認識デバイス１との対応関係に関する紐づけデータ、家族等の人物の声認証データ１６０等の設定を行う。この例では、新規に設置する音声認識デバイスと宅内に存する、例えば無線ルーターの様な通信機器との接続設定は上記のスマートフォンやパソコン等を使用して設定する方法、あるいはＷＰＳ（ＷｉＦｉＰｒｏｔｅｃｔｅｄＳｅｔｕｐ）の様な自動設定手法を用いることで接続設定を行う。

また、上記の人物と音声認識デバイス１との対応関係としては、人物Ａが主として使用するデバイスは第１音声認識デバイス１Ａ、人物Ｂが主として使用するデバイスは第２音声認識デバイス１Ｂと言うように関連付けの設定を前記スマートフォンやパソコン等のアプリケーションソフトウェア上で行う。

更に、人物の声認証データ１６０は既存のデバイス、例えば第３音声認識デバイス１Ｃに格納されているデータを読み出して、共有することでも良いし、上記の電子機器上で管理しておき、そのデータを設定することでも良い。

（新規設置時の設定２）
図１０は、新規設置時の第２の設定処理について示す概念図であり、図１１は、新規設置時の第２の設定処理の流れを示すフローチャートである。

この例では、宅内の通信機器の設定権限を有するマスター操作者５０１が音声によって新規音声認識デバイス１Ｓの接続設定を行う。

まず、マスター操作者５０１が新規音声認識デバイス１Ｓに向けて発話を開始し、音声入力部１０７が音声の入力を受け付けることで接続設定処理を開始し、タイマー１１１の計測を開始する（Ｓ４０１）。

新規音声認識デバイス１Ｓのホットワード検出部１２０３が初期設定のための第４ホットワードＷ５０１を検出すると（Ｓ４０２／ＯＫ）、新規音声認識デバイス１Ｓの初期設定部１４０８は、初期設定処理を開始する。具体的には、初期設定部１４０８は、マスター操作者５０１の音声データ及び初期設定要求データを宅内の既存のデバイス、例えば第１～第４音声認識デバイス１Ａ～１Ｄやホームサーバ６０１に向けて送信する（Ｓ４０３）。以上までの送信処理を所定時間内に行う（Ｓ４０４）。

送信処理を所定時間内に限定するのは、送信時に宅外等に拡散する初期設定要求データとマスター操作者５０１の音声データが盗聴される可能性を低減するためである。

送信された前記要求データや音声データは、宅内に既にある第１～第４音声認識デバイス１Ａ～１Ｄにて受信される（Ｓ４０３）。

第１～第４音声認識デバイス１Ａ～１Ｄの其々の特徴抽出部１２０５は、上記ブロードキャストされた初期設定要求データに基づき送信された音声データがマスター操作者５０１のものであるかを検証する（Ｓ４０５）。特徴抽出部１２０５は、第１～第４音声認識デバイス１Ａ～１Ｄの其々の参照メモリ１０３２に保持されるマスター操作者５０１の音声特徴を示す話者テンプレートとブロードキャストされた音声データとの其々から声特徴データを抽出して比較し、一致すれば（Ｓ４０５／ＯＫ）新規音声認識デバイス１Ｓに対して初期設定を実行し（Ｓ４０６）、接続設定処理を終了する。

ステップＳ４０２、Ｓ４０５において判定結果がＮＧの場合（Ｓ４０２／ＮＧ）、（Ｓ４０５／ＮＧ）も本処理を終了する。

初期設定の実行は、第１～第４音声認識デバイス１Ａ～１Ｄのうち、宅内ですべての音声認識デバイスを統括するマスター音声認識デバイスが行う。マスター音声認識デバイスは、例えば、宅内のリビング等に設置されるデバイス（家人により比較的高頻度で使用される音声認識デバイス）や、最初に宅内に設置されたデバイスがその役割を担う。あるいは、マスター操作者５０１がマスター音声認識デバイスとして設定したものでも良い。

又は、宅内にあるホームサーバ６０１をマスター機器として、上記の音声データの検証や新規接続機器の初期設定を実行しても良い。ホームサーバ６０１で音声データの検証を実施する場合、マスター操作者５０１の音声データや初期設定要求データは、既設の第１～第４音声認識デバイス１Ａ～１Ｄが受信してホームサーバ６０１へ転送する、あるいはホームサーバ６０１自体で受信する。そして、ホームサーバ６０１にはマスター操作者５０１の声特徴データである音声テンプレートを格納しておき、音声の特徴が一致するかの検証を行い、一致すればホームサーバ６０１から新規音声認識デバイス１Ｓに対して、宅内ＬＡＮ２１０への接続を可能とする様に通信の各種設定を指示する。

＜第２実施形態＞
本実施形態では、音声認識デバイス１を用いる宅内での会話システムで、更にホームサーバ機器を含むシステムから成る。図１２は第２実施形態における家屋内の音声認識デバイス１の連携システム１００ａの概要構成を示す図である。

図４との違いは、宅内ＬＡＮ２１０上にホームサーバ６０１を有する点である。ホームサーバ６０１上には、宅内に存する人物の音声データや音声の特徴点を含む声認証データ１６０が保持してある。そして、ホームサーバ６０１は、第１～第４音声認識デバイス１Ａ～１Ｄの其々から送られてくる音声データや人物の有無を通知するデータにより、宅内に存する人物が第１～第４音声認識デバイス１Ａ～１Ｄのいずれの機器の付近に居るかを常に監視する。

これにより、図１２において人物Ａから人物Ｄを呼び出す場合でも、人物Ａの呼びかけを受け取る第１音声認識デバイス１Ａは、ホームサーバ６０１から人物Ｄにもっと近いと判断される音声認識デバイス（第４音声認識デバイス１Ｄ）の情報を取得する。

そして第１音声認識デバイス１Ａから第４音声認識デバイス１Ｄに対してのみ音声データを送付し、会話相手の所在を都度、確認することなく、呼び出したい人物の近くにある音声認識デバイスとの間だけでの会話が可能となる。

図１２では、人が在室しているのは、部屋２の人物Ｂと部屋４にいる人物Ｄである。第１～第４音声認識デバイス１Ａ～１Ｄの其々は、自機に備えられた人物検知センサＩ／Ｆ１１０で在室状況を把握し、その結果をホームサーバ６０１に送信する。よって、第１音声認識デバイス１Ａは、ホームサーバ６０１に人物を検知している音声認識デバイスがどれであるかを問い合わせることにより、部屋２と部屋４とに存する第２音声認識デバイス１Ｂ及び第４音声認識デバイス１Ｄとの通信接続を優先する。

更に、人物の有無や音声の有無等の情報をホームサーバ６０１が収集することにより、どの人物がどの部屋に居るかを常に把握することができる。この様にして、第１音声認識デバイス１Ａから人物Ｄに対する呼びかけデータの送付先をホームサーバ６０１で確認し、人物Ｄのいる部屋４に存する第４音声認識デバイス１Ｄへ呼びかけデータを送付することができる。

次に、第４音声認識デバイス１Ｄで再生する呼びかけに人物Ｄが応答することで、第１音声認識デバイス１Ａと第４音声認識デバイス１Ｄとの間の通信接続が確立して、人物Ａと人物Ｄとの間での会話が可能となる。

なお、上記の例ではホームサーバ６０１は、第１～第４音声認識デバイス１Ａ～１Ｄの其々に備わる人物検知センサーによる在室状況の把握を行っているが、これに代える、もしくは更に加えて、各音声認識デバイスの利用状況のデータを用いることでも良い。

図１３は、人物Ａについての時間帯ごとの利用状況を記録した利用状況データ１７０の一例を示す。また図１４は、利用状況データ１７０を基に決定した人物Ａについての時間帯ごとの呼び出しの優先順位データ１８０の一例を示す。また図示しないが、他の人物に関しても同様のデータを作成するものとする。

第１～第４音声認識デバイス１Ａ～１Ｄの其々の参照メモリ１０３２には、利用状況データ１７０、呼び出し優先順位データ１８０が其々格納されている。例えば人物Ａに対して呼びかけがされて第１音声認識デバイス１Ａで応答すると、第１～第４音声認識デバイス１Ａ～１Ｄの其々は、自機に格納された利用状況データ１７０、及び呼び出し優先順位データ１８０に応答実績及び呼び出し優先順位を書きこんで更新する。

更に第１音声認識デバイス１Ａは、更新された利用状況データ１７０及び呼び出し優先順位データ１８０を宅内ＬＡＮ２１０にブロードキャスト送信する。第２～第４音声認識デバイス１Ｂ～１Ｄの其々は、受信した更新後の利用状況データ１７０及び呼び出し優先順位データ１８０を用いて自機の参照メモリ１０３２に記憶された利用状況データ１７０及び呼び出し優先順位データ１８０を更新する。

この状態で、第４音声認識デバイス１Ｄから人物Ｂが人物Ａを月曜日の７：００に呼びだしたとする。第４音声認識デバイス１Ｄのコマンド送信部１４０２は、呼び出し優先順位データ１８０を参照し、自機を除く第１～第３音声認識デバイス１Ａ～１Ｃのうち、優先順位が高い順、即ち第２音声認識デバイス１Ｂ、第１音声認識デバイス１Ａ、第３音声認識デバイス１Ｃの順に順次読み出す。

なお、呼び出し優先順位データ１８０は、利用状況データ１７０だけによらず、ユーザの指定により変更してもよい。例えばある時間帯に特定のデバイスのそばにいることが分かっている場合は、一時的に呼び出し優先順位データ１８０を変更して、そのデバイスの優先順位を１位にしてもよい。

また、例えば、第１利用状況データ１７０において、人物Ａが第２音声認識デバイス１Ｂの利用頻度は土、日の２０時から翌朝８時の間に頻繁に利用していることが把握できれば、その時間内であれば、人物Ａは在室の可能性が高いと判断して会話モードでの接続を試みることができる。上記以外の時間帯ではホームサーバ６０１は人物Ａが不在として処理することもできる。

（宅外との会話）
上記例の場合で、もしも呼びかけられた人物Ｄが不在であると判断される場合、人物Ｄの所有するスマートフォン等の通信機器に音声データを転送することも可能である。

この場合、人物Ｄと所有する通信機器のインターネットアドレス、回線情報、機器ＩＤと言った機器情報がホームサーバ６０１の参照メモリ１０３２に登録しておくことで、当該情報に沿って通信機器に呼びかけデータを転送する。

人物Ｄの所有する通信機器に呼びかけ情報が届くと画面表示、音声出力、振動等で人物Ｄに通知することになる。ここで、人物Ｄが応答することで宅内の第１音声認識デバイス１Ａと宅外の人物Ｂが有する通信機器との間で通話が開始することもできる。

もし、人物Ｄがこの段階でも呼びかけに応えなければ、ホームサーバ６０１から第１音声認識デバイス１Ａに対して不在通知データを発し、第１音声認識デバイス１Ａからは人物Ｄが出ないことを、例えば「只今、応答がありません」と言った様に所定の音声出力を行う。

なお、以上に述べてきた実施形態では、第１音声認識デバイス１Ａから他の第２～第４音声認識デバイス１Ｂ～１Ｄに対して呼びかけを行う例を示しているが、これに限るものではなく、第２～第４音声認識デバイス１Ｂ～１Ｄのいずれからでも呼びかけができる。従って、宅内に存するいずれかの音声認識デバイスからその他の音声認識デバイスを呼び出すことが可能である。また、本実施形態に係る音声認識デバイスは複数台の設置が可能であり、新たに設置する場合は、上記の設置手法によることで増設ができる。

（宅外からの通知）
図１５は、音声認識デバイス１と携帯通信端末７１とをドック７０１で接続する例を示す。

音声認識デバイス１は、ドック７０１を更に備える。ドック７０１は、携帯通信端末７１に対して充電を行う充電制御インタフェース７１１と、接続端子を介して通信する通信制御インタフェース７１２とを含む。具体的な機能としては、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）や特定の携帯通信端末インタフェースでの有線接続、あるいはワイヤレス充電機能及び無線通信機能と言ったもので実現できる。

携帯通信端末７１に対して着信があった場合には、携帯通信端末７１から通信制御インタフェース７１２を介して音声認識デバイス１に出力し、音声出力部１０８から「電話です。」や「メールです。」と言った着信通知音声を出力する。

携帯通信端末７１の所有者が「再生してください。」や「誰から？」や「内容は？」と言った応答を行うと、携帯通信端末７１に対して受話指示やメール内容の転送指示を行い、通知相手の名前を知らせたり、電話のスピーカーフォンとして動作したり、メールであればメール内容を音声出力することができる。

更に、携帯通信端末７１の所有者が在室していない場合は、所定時間内での応答の有無から家屋内の別の場所にいるものとして図１２に示すホームサーバ６０１から携帯通信端末７１の所有者の現在の居場所に最も近いと判断される音声認識デバイス１を割り出し、当該音声認識デバイス１に対して着信通知を転送する。転送された着信通知に基づき、上記の呼び出し動作と同様の動作を行う。

なお、携帯通信端末７１の所有者の現在の居場所を認識する方法としては、ホームサーバ６０１で家屋内に存する個々の音声認識デバイス１の使用状況、個々の音声認識デバイス１に話しかけられた声の特徴抽出データ、個々の音声認識デバイス１が拾う音、ドック７０１と携帯通信端末７１との接続状況等を用い、家屋内の人物が、どの音声認識デバイス１の近くに居るかを判定してもよい。

更に、携帯通信端末７１のように通常その所有者が身に着けているデバイス（ウエアラブルデバイスでも可）がドック７０１との接続のように音声認識デバイス１と十分に近くにいると判定できるような近距離通信を用いて通信できるか、音声認識デバイス１のカメラ１１３で同じ部屋にその端末があることを確認できる場合は、その部屋に端末所有者がいると推定して、その部屋にある音声認識デバイス１に対する呼びかけの優先順位を上げる等の対応をとってもよい。

＜第３実施形態＞
（留守宅の監視）
第３実施形態は、図１２に示した第２実施形態の構成を別の利用形態に適用したものであり、留守番モードに関するものである。図１６は、留守番モードへの切替処理を示すフローチャートである。

宅内の人物で個々の音声認識デバイス１へのアクセスを許可されている者が留守番モードに切り替えるための第５ホットワード、例えば「留守番宜しく！」と発する。第１～第４音声認識デバイス１Ａ～１Ｄのいずれかが第５ホットワードを検出すると（Ｓ５０１／Ｙｅｓ）、第５ホットワードを検出した音声認識デバイスの特徴抽出部１２０５は、声認証データ１６０に宅内ＬＡＮのアクセスを許可されている人物として登録された者の声の特徴と、当該音声認識デバイス１で抽出した声特徴データと比較判定する。

この判定の仕方は、前述の各実施態様中でも述べている様な手法を用いることで可能である。また、ホットワードの確認とアクセス許可の判定の手順はどちらが先でも後でも良い。

特徴抽出部１２０５が一致すると判定すると（Ｓ５０２／Ｙｅｓ）、コマンド送信部１４０２は、ホームサーバ６０１に留守番モードへの移行を指示を送信する（Ｓ５０３）。

ホームサーバ６０１は、留守番モードへの移行指示を受信すると、受信してから所定時間経過後に宅内に在る第１～第４音声認識デバイス１Ａ～１Ｄの全てに対して所定音量以上の音を感知した場合に、異常音発生の通知をホームサーバ６０１に送付する留守番モードへ移行させるべく、留守番モード移行指示を行う（Ｓ５０４）。

第１～第４音声認識デバイス１Ａ～１Ｄの其々は、自機に備えられたモード切替部１４０１により留守番モードに切り替え、留守番モード実行部１４０７が留守番モードの処理を実行する（Ｓ５０５）。

少なくとも１台以上の第１～第４音声認識デバイス１Ａ～１Ｄが留守番モード中に音声を検出すると（Ｓ５０６／Ｙｅｓ）、音声を検出した第１～第４音声認識デバイス１Ａ～１Ｄの特徴抽出部１２０５は、声認証データ１６０に登録された者（家人）の声特徴データとの比較を行う。検出された音声が声認証データ１６０に登録された声特徴データと一致すると（Ｓ５０７／Ｙｅｓ）、モード切替部１４０１は留守番モードから通常モードへ復帰させる（Ｓ５０８）。

ステップＳ５０７において、特徴抽出部１２０５が検出された音声データが声認証データ１６０に登録された者（家人）の声特徴データと一致しないと判定すると（Ｓ５０７／Ｎｏ）、モード切替部１４０１は警戒モードに切り替え（Ｓ５０９）、警戒モード実行部１４０９が起動する。

警戒モード実行部１４０９は、警戒モード、例えば第１～第４音声認識デバイス１Ａ～１Ｄの其々に備えらえたカメラ１１３を起動して室内の画像データの記録をしたり、音声入力部１０７が検知した音声の記録処理を実行する。また、ホームサーバ６０１に対して異常発生情報を送信してもよい。ホームサーバ６０１は、異常発生情報を受信すると予め登録してある家人の有する携帯電話やスマートフォン等の携帯通信端末７１へメール等のアラームを送付する。

アラームを受け取った家人は、ホームサーバ６０１と通信接続することもでき、ホームサーバ６０１は異常音を検知した音声認識デバイス１の音声入力部１０７が拾う音を音声データとして受け取り、当該データを家人宛てに直接送付することで宅内の状況を確認することもできる。

警戒モードに実行中に、警戒モードの解除条件が充足、例えば帰宅した家人が発した通常モードへの復帰を指示する第１ホットワードを検出すると（Ｓ５１０／Ｙｅｓ）、モード切替部１４０１は警戒モードを解除し、通常モードに復帰させる（Ｓ５０８）。

上記は複数の音声認識デバイス１を用いた例を示したが、音声認識デバイス１は単独でも監視動作が可能である。単独で動作する場合は、音声認識デバイス１がホームサーバ６０１で実行する機能を備えることになる。又は、ホームサーバ６０１に代えてインターネット上に存在するクラウドサーバ等を利用することでも良い。

本実施形態によれば、宅内の音声認識デバイス１を連携させて、家人が留守の間の音声入力の有無と音声の特徴が登録済の音声か否かに基づいて、警戒モードを起動することができる。これにより、複数の部屋に設置された音声認識デバイス１を用いて宅内への侵入を監視し、異常を感知した後は宅内全体の音声認識デバイス１で警戒モードを実行し、侵入者の追跡や行動及び顔画像記録、また家人への通報が行える。

また、上記の異常音を検出した場合には、警告音や警告音声を音声認識デバイス１から出力することも可能である。警告音としては、サイレンなど、音声としては「誰ですか」と言ったものを登録しておけば、異常音検知後に再生可能となり、防犯効果が期待できる。

以上の実施態様においては、音声認識デバイス間の１対１の通話について説明しているが、これに限るものではなく、１対複数や複数対複数での通話モードも可能である。この場合、会話モードでの人物の音声データが複数の音声認識デバイスへ送付される。

本実施形態によれば、複数の音声認識デバイスを連携して使用することで家庭内等のネットワークを介して宅内コミュニケーションを取ることができる。すなわち、他の部屋や他の場所に設置される音声認識デバイスとの間であたかも同じ部屋や同じ場所にいる者同士の様にコミュニケーションを取ることができるため、別の場所に存する音声認識デバイスを介して他者と円滑なコミュニケーションが図れる。

１：音声認識デバイス
１００：連携システム
１００ａ：連携システム
１０１：ＣＰＵ
１０２：バス
１０３：メモリ
１０４：有線ＬＡＮＩ／Ｆ
１０５：無線ＬＡＮＩ／Ｆ
１０６：無線通信Ｉ／Ｆ
１０７：音声入力部
１０８：音声出力部
１０９：表示出力部
１１１：タイマー
１１３：カメラ

Claims

音声認識デバイスであって、
音声認識デバイスは、通信ネットワークを介して複数の他の音声認識デバイスに接続さ
れ、
音声入力部と、
音声出力部と、
他の音声認識デバイスとの間でデータの送受信を行う通信制御部と、
前記他の音声認識デバイスに対して前記音声入力部から入力された音声データを送信し
、前記他の音声認識デバイスから受信した音声データを前記音声出力部から出力する会話
モード実行部と、
前記音声入力部から入力された音声をテキストデータに変換する音声認識部と、
前記テキストデータから前記会話モード実行部の起動を指示する会話起動ホットワード
を検出するホットワード検出部と、
前記他の音声認識デバイスに対して制御コマンドを送信するコマンド送信部と、
前記音声認識デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐
づけた声認証データ、及び、前記会話が許可された人物と、当該人物が各音声認識デバイ
スからの応答回数とを関連付けた第１利用状況データを記憶する記憶部と、
前記音声入力部から入力される音声データの声特徴データを抽出し、前記声認証データ
との一致を検出する特徴抽出部と、を備え、
前記音声入力部は、特定の人物を呼び出す音声の入力を受け付け、
前記コマンド送信部は、前記特徴抽出部が前記声認証データとの一致を検出した人物が
、前記第１利用状況データにおいて応答回数が高い順に従って、前記複数の他の音声認識
デバイスの其々に対して前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
音声認識デバイスであって、
音声入力部と、
音声出力部と、
他の音声認識デバイスとの間でデータの送受信を行う通信制御部と、
前記他の音声認識デバイスに対して前記音声入力部から入力された音声データを送信し、前記他の音声認識デバイスから受信した音声データを前記音声出力部から出力する会話
モード実行部と、
前記音声入力部から入力された音声をテキストデータに変換する音声認識部と、
前記テキストデータから前記会話モード実行部の起動を指示する会話起動ホットワードを検出するホットワード検出部と、
前記他の音声認識デバイスに対して制御コマンドを送信するコマンド送信部と、
人感センサーと、
前記人感センサーが人物を検知しているかを監視する留守番モード実行部と、
前記音声認識デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐
づけた声認証データを記憶する記憶部と、
前記入力される音声データの声特徴データを抽出し、当該声特徴データと前記声認証デ
ータとの一致を検出する特徴抽出部と、を備え、
前記ホットワード検出部が前記会話起動ホットワードを検出すると、前記コマンド送信
部は、前記他の音声認識デバイスに対して当該他の音声認識デバイスに備えられた会話モ
ード実行部を起動させる制御コマンドを送信し、
前記ホットワード検出部は、前記留守番モード実行部の起動を指示する留守番ホットワ
ードを更に検出し、
前記留守番モード実行部の実行中に前記特徴抽出部が前記声特徴データと前記声認証デ
ータとの一致を検出すると、前記留守番モード実行部は停止する、
ことを特徴とする音声認識デバイス。
請求項１又は２に記載の音声認識デバイスであって、
前記ホットワード検出部が前記会話起動ホットワードを検出すると、前記コマンド送信
部は、前記会話起動ホットワードが検出された音声データと当該音声データの再生コマン
ドを前記他の音声認識デバイスに送信する、
ことを特徴とする音声認識デバイス。
請求項１又は２に記載の音声認識デバイスであって、
前記コマンド送信部は、前記特徴抽出部が前記声特徴データと前記声認証データとの一
致を検出した場合に、前記他の音声認識デバイスに対して前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
請求項１又は２に記載の音声認識デバイスであって、
撮像部を更に備え、
前記記憶部は、前記音声認識デバイスを用いた会話が許可された人物と当該人物の撮像
画像とを紐づけた顔認証データを更に記憶し、
前記特徴抽出部は、前記撮像部が撮像した撮像画像と、前記顔認証データとの一致を更
に検出し、
前記特徴抽出部が前記撮像画像と前記顔認証データとの一致を検出した場合に、前記コ
マンド送信部は、前記他の音声認識デバイスに対して前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
請求項１又は２に記載の音声認識デバイスであって、
前記コマンド送信部は、前記他の音声認識デバイスが人物の存在を検知したことを示す
人物検知情報に基づき、前記人物検知情報を出力した前記他の音声認識デバイスに対して
前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
請求項１又は２に記載の音声認識デバイスであって、
タイマーを更に備え、
前記音声入力部は、特定の人物を呼び出す音声の入力を受け付け、
前記コマンド送信部は、前記特定の人物を呼び出す音声及び当該音声を前記他の音声識
別デバイスにおいて再生させる再生コマンドを前記他の音声認識デバイスに送信し、
前記特定の人物を呼び出す音声及び前記再生コマンドを送信してからの経過時間を前記
タイマーから取得し、
前記経過時間が予め定められた待機時間以上になると、前記特定の人物からの応答メッ
セージが無いことを通知する応答メッセージを前記音声出力部から出力させる、
ことを特徴とする音声認識デバイス。
請求項１に記載の音声認識デバイスであって、
前記音声入力部は、特定の人物を呼び出す音声の入力を受け付け、
前記コマンド送信部は、前記特定の人物を呼び出す音声及び当該音声を前記複数の他の
音声識別デバイスの其々において再生させる再生コマンドを前記複数の他の音声認識デバ
イスの全てに対して送信し、
前記通信制御部は、複数の他の音声認識デバイスの内の一つから、前記特定の人物から
の応答メッセージを受信すると、当該応答メッセージを送信した他の音声認識デバイスと
の通信は接続を維持し、残りの他の音声認識デバイスとの通信は切断する、
ことを特徴とする音声認識デバイス。
請求項２に記載の音声認識デバイスであって、
前記音声認識デバイスは、通信ネットワークを介して複数の他の音声認識デバイスに接
続され、
前記音声入力部は、特定の人物を呼び出す音声の入力を受け付け、
前記コマンド送信部は、前記特定の人物を呼び出す音声及び当該音声を前記複数の他の
音声識別デバイスの其々において再生させる再生コマンドを前記複数の他の音声認識デバ
イスの全てに対して送信し、
前記通信制御部は、複数の他の音声認識デバイスの内の一つから、前記特定の人物から
の応答メッセージを受信すると、当該応答メッセージを送信した他の音声認識デバイスと
の通信は接続を維持し、残りの他の音声認識デバイスとの通信は切断する、
ことを特徴とする音声認識デバイス。
請求項１に記載の音声認識デバイスであって、
時刻計測部を更に備え、
前記記憶部は、前記音声認識デバイスから、前記複数の他の音声認識デバイスを呼びか
ける順序を時間帯に応じて定めた第２利用状況データを更に記憶し、
前記コマンド送信部は、前記会話起動ホットワードを検出した時刻を前記時刻計測部か
ら取得し、前記第２利用状況データの前記時刻が含まれる時間帯に定められた呼びかけ優
先順位に従って、前記複数の他の音声認識デバイスの其々に対して前記制御コマンドを送
信する、
ことを特徴とする音声認識デバイス。
請求項２に記載の音声認識デバイスであって、
前記音声認識デバイスは、通信ネットワークを介して複数の他の音声認識デバイスに接
続され、
時刻計測部を更に備え、
前記記憶部は、前記音声認識デバイスから、前記複数の他の音声認識デバイスを呼びか
ける順序を時間帯に応じて定めた第２利用状況データを更に記憶し、
前記コマンド送信部は、前記会話起動ホットワードを検出した時刻を前記時刻計測部か
ら取得し、前記第２利用状況データの前記時刻が含まれる時間帯に定められた呼びかけ優
先順位に従って、前記複数の他の音声認識デバイスの其々に対して前記制御コマンドを送
信する、
ことを特徴とする音声認識デバイス。
第１音声認識デバイスと少なくとも一つ以上の第２音声認識デバイスとを通信ネットワークで接続した音声認識デバイスの連携システムであって、
前記第１音声認識デバイス及び前記第２音声認識デバイスの其々は、
音声入力部と、
音声出力部と、
他の音声認識デバイスとの間でデータの送受信を行う通信制御部と、
前記他の音声認識デバイスに対して前記音声入力部から入力された音声データを送信し
、前記他の音声認識デバイスから受信した音声データを前記音声出力部から出力する会話
モード実行部と、
前記音声入力部から入力された音声をテキストデータに変換する音声認識部と、
前記テキストデータから前記会話モード実行部の起動を指示する会話起動ホットワード
を検出するホットワード検出部と、
前記他の音声認識デバイスに対して制御コマンドを送信するコマンド送信部と、
前記音声認識デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐
づけた声認証データ、及び、前記会話が許可された人物と、当該人物が各音声認識デバイ
スからの応答回数とを関連付けた第１利用状況データを記憶する記憶部と、
前記音声入力部から入力される音声データの声特徴データを抽出し、前記声認証データ
との一致を検出する特徴抽出部と、を備え、
前記第１音声認識デバイスの前記音声入力部は、特定の人物を呼び出す音声の入力を受け付け、前記ホットワード検出部が前記会話起動ホットワードを検出すると、前記コマンド送信部は、前記少なくとも一つ以上の第２音声認識デバイスに対して前記特徴抽出部が前記声認証データとの一致を検出した人物が、前記第１利用状況データにおいて応答回数が高い順に従って、当該第２音声認識デバイスの会話モード実行部を起動させる制御コマンドを送信し、
前記第２音声認識デバイスは前記制御コマンドを受信し、前記第２音声認識デバイスに
備えられた前記会話モード実行部が起動する、
ことを特徴とする音声認識デバイスの連携システム。
第１音声認識デバイスと第２音声認識デバイスとを通信ネットワークで接続した音声認
識デバイスの連携システムであって、
前記第１音声認識デバイス及び前記第２音声認識デバイスの其々は、
音声入力部と、
音声出力部と、
他の音声認識デバイスとの間でデータの送受信を行う通信制御部と、
前記他の音声認識デバイスに対して前記音声入力部から入力された音声データを送信し
、前記他の音声認識デバイスから受信した音声データを前記音声出力部から出力する会話
モード実行部と、
前記音声入力部から入力された音声をテキストデータに変換する音声認識部と、
前記テキストデータから前記会話モード実行部の起動を指示する会話起動ホットワード
を検出するホットワード検出部と、
前記他の音声認識デバイスに対して制御コマンドを送信するコマンド送信部と、
人感センサーと、
前記人感センサーが人物を検知しているかを監視する留守番モード実行部と、
前記音声認識デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐
づけた声認証データを記憶する記憶部と、
前記入力される音声データの声特徴データを抽出し、当該声特徴データと前記声認証デ
ータとの一致を検出する特徴抽出部と、を備え、
前記第１音声認識デバイスの前記ホットワード検出部が前記会話起動ホットワードを検
出すると、前記コマンド送信部は、前記第２音声認識デバイスに対して当該第２音声認識
デバイスの会話モード実行部を起動させる制御コマンドを送信し、
前記ホットワード検出部は、前記留守番モード実行部の起動を指示する留守番ホットワ
ードを更に検出し、前記コマンド送信部は、前記第２音声認識デバイスに対して留守番モ
ードへの移行指示のための制御コマンドを送信し、
前記第２音声認識デバイスは前記制御コマンドを受信し、前記第２音声認識デバイスに
備えられた前記会話モード実行部が起動し、前記留守番モード実行部の実行中に前記特徴
抽出部が前記声特徴データと前記声認証データとの一致を検出すると、前記留守番モード
実行部は停止する、
ことを特徴とする音声認識デバイスの連携システム。
他の音声認識デバイスに通信ネットワークを介して接続された音声認識デバイスで実行
される音声認識デバイスの連携方法であって、
発話された音声の入力を受け付けるステップと、
前記音声をテキストデータに変換するステップと、
前記テキストデータから会話モードの起動を指示する会話起動ホットワードを検出する
ステップと、
前記他の音声認識デバイスに対して、当該他の音声認識デバイスを会話モードに遷移さ
せるための制御コマンドを送信するステップと、
前記他の音声認識デバイスから受信した音声データを音声出力し入力を受け付けた音声
を前記他の音声認識デバイスに送信する会話モードを起動するステップと、を含み、
特定の人物を呼び出す音声の入力を受け付けると、前記音声認識デバイスを用いた会話
が許可された人物と当該人物の声特徴データとを紐づけた声認証データを参照し、前記特
定の人物を呼び出す音声の声特徴データを抽出し、前記声認証データとの一致を検出する
ステップと、
前記会話が許可された人物と、当該人物が各音声認識デバイスからの応答回数とを関連
付けた第１利用状況データを参照し、前記声認証データとの一致を検出した人物が、前記
第１利用状況データにおいて応答回数が高い順に従って、前記複数の他の音声認識デバイ
スの其々に対して前記制御コマンドを送信するステップと、を更に含む、
ことを特徴とする音声認識デバイスの連携方法。
他の音声認識デバイスに通信ネットワークを介して接続された音声認識デバイスで実行
される音声認識デバイスの連携方法であって、
発話された音声の入力を受け付けるステップと、
前記音声をテキストデータに変換するステップと、
前記テキストデータから会話モードの起動を指示する会話起動ホットワードを検出する
ステップと、
前記他の音声認識デバイスに対して、当該他の音声認識デバイスを会話モードに遷移さ
せるための制御コマンドを送信するステップと、
前記他の音声認識デバイスから受信した音声データを音声出力し入力を受け付けた音声
を前記他の音声認識デバイスに送信する会話モードを起動するステップと、を含み、
人感センサーが人物を検知しているかを監視する留守番モードの起動を指示する留守番
ホットワードを検出するステップと、
前記留守番モードの実行中、入力された音声データの声特徴データを抽出し、音声認識
デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐づけた声認証デ
ータを参照し、前記抽出した声特徴データと前記声認証データの一致を検出すると、前記
留守番モードを停止するステップと、を更に含む、
ことを特徴とする音声認識デバイスの連携方法。