JP6522503B2

JP6522503B2 - 機器制御方法、表示制御方法及び購入決済方法

Info

Publication number: JP6522503B2
Application number: JP2015533977A
Authority: JP
Inventors: 摩里子山田
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2013-08-29
Filing date: 2014-08-20
Publication date: 2019-05-29
Anticipated expiration: 2034-08-20
Also published as: US9852733B2; JPWO2015029379A1; WO2015029379A1; MY175230A; US20180090149A1; US20150302857A1; US10152976B2

Description

本開示は、音声によって複数の機器を制御する機器制御方法、話者からの音声に基づいて制御される複数の機器に関する情報を表示する表示装置を制御する表示制御方法、及び音声によって物品を購入する購入決済方法に関するものである。

従来、音声入力により、家庭内の種々の機器を操作及び制御する音声認識システムがある。このような音声認識システムでは、音声入力によって機器が制御されるだけでなく、ユーザの音声指示に対して音声による応答を行うことで、擬似的に機器と対話するサービスが提案されている（例えば、特許文献１参照）。

特開２００２−１８２６７９号公報

しかしながら、上記の音声認識システムでは、どの話者が発話しても同様に全ての機器が制御できる。そのため、機器を制御させたくない話者であっても、機器に対して音声指示が可能となる。このように、従来の音声認識システムでは、機器を制御させたくない話者に対して、音声により機器を制御させないようにすることに関しては検討されていない。

本開示の一態様は、機器を制御させたくない話者に対して、音声により機器を制御させないようにすることができる機器制御方法、表示制御方法及び購入決済方法を提供する。

本開示の一局面に係る機器制御方法は、音声によって複数の機器を制御する機器制御方法であって、音声情報を取得し、取得した音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、取得した音声情報に基づいて、取得した音声情報を発話した話者に関する話者情報を特定し、音声コマンドと話者情報とに基づいて、複数の機器のうちの制御対象機器を特定する。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本開示によれば、音声コマンドと話者情報とに基づいて、複数の機器のうちの制御対象機器が特定されるので、機器を制御させたくない話者に関する話者情報が特定された場合、機器を制御させたくない話者に対して、音声により機器を制御させないようにすることができる。

本実施の形態における音声認識システムの全体構成を示す図である。機器メーカがデータセンタ運営会社に該当する例を示す図である。機器メーカ及び管理会社の両者又はいずれか一方がデータセンタ運営会社に該当する例を示す図である。本実施の形態の変形例における音声認識システムの全体構成を示す図である。本開示の実施の形態１における機器の構成を示す図である。本開示の実施の形態１における制御装置の構成を示す図である。本開示の実施の形態１におけるデータベースの構成を示す図である。本開示の実施の形態１における音声認識システムの機能構成を示す図である。本開示の実施の形態１における音声認識システムの動作を示すフローチャートである。本開示の実施の形態１における音声認識システムの第１の機器に対する動作を説明するためのシーケンス図である。本開示の実施の形態１における音声認識システムの第２の機器に対する動作を説明するためのシーケンス図である。本開示の実施の形態１における制御処理部及びデータベースの構成を示す図である。データベースに記録されている音声情報と、推定される年齢との関係を示すテーブルの一例を示す図である。データベースに記憶されている音声モデルと制御対象機器との関係を示すテーブルの一例を示す図である。データベースに記録されている音声コマンドと制御対象機器との関係を示すテーブルの一例を示す図である。機器のメモリに記憶されている音声コマンドと制御内容とを関連付けたテーブルの一例を示す図である。音声によって操作することが可能な機器を一覧で表示する表示画面の一例を示す図である。音声によって操作する話者を機器毎に設定する動作を説明するための図である。音声によって操作する話者を機器毎に設定した際に表示される表示画面の一例を示す図である。本開示の実施の形態２における音声認識システムの機能構成を示す図である。本開示の実施の形態２における音声認識システムの動作を示すフローチャートである。本開示の実施の形態２における音声認識システムの購入決済処理を説明するためのシーケンス図である。本開示の実施の形態２における制御装置及びサーバの構成を示す図である。データベースに記録されている音声情報と、推定される年齢と、推定される性別との関係を示す第１のテーブルの一例を示す図である。購入決済データベースに記憶されているユーザ番号と音声情報と年齢とクレジットカード情報との関係を示すテーブルの一例を示す図である。サービスの類型１（自社データセンタ型クラウドサービス）における音声認識システムが提供するサービスの全体像を示す図である。サービスの類型２（ＩａａＳ利用型クラウドサービス）における音声認識システムが提供するサービスの全体像を示す図である。サービスの類型３（ＰａａＳ利用型クラウドサービス）における音声認識システムが提供するサービスの全体像を示す図である。サービスの類型４（ＳａａＳ利用型クラウドサービス）における音声認識システムが提供するサービスの全体像を示す図である。

（本開示の基礎となった知見）
特許文献１には、ネットワークに接続された複数の機器同士が情報を交換することで、ユーザからの音声コマンドに対して適切な機器が応答及び動作する音声認識システムが記載されている。

ただし、特許文献１の音声認識システムでは誰が音声コマンドを発しても、一様に同様の応答及び動作がなされる。すなわち、制御対象の複数の機器を所有する家庭内の人物ではない第三者が発話をしても、家庭内の人物と同様に各機器を操作することができてしまう。また、例えば子供が音声コマンドによって火を扱う調理機器を操作したり、操作する必要の無い機器を操作したりすることも考えられる。

また、特許文献１のような複数の機器と対話する音声認識システムにおいては、機器の制御に限らず、さらに音声コマンドによって物品を購入することが可能な音声認識システムを構築することが期待される。例えば、冷蔵庫と対話するシーンにおいては、庫内に在庫の無い食品をユーザが指定した際に、指定した食品を購入するか否かを問いかけ、ユーザが購入することを選択した場合に当該食品をネットワーク経由で発注することが考えられる。このような場合にも、誰の音声によっても音声認識システムが動作してしまうことは好ましくない。

すなわち、特許文献１のような従来の音声認識システムでは、音声により誰でも全ての機器を操作することができ、機器を操作させたくない話者に対して、音声により機器を操作させないようにすることに関して考慮されていなかった。また、従来、音声認識によって安全に物品を購入することができる音声認識システムについて検討されていなかった。

以上の課題を解決すべく、本開示の一局面に係る機器制御方法は、音声によって複数の機器を制御する機器制御方法であって、音声情報を取得し、取得した音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、取得した音声情報に基づいて、取得した音声情報を発話した話者に関する話者情報を特定し、音声コマンドと話者情報とに基づいて、複数の機器のうちの制御対象機器を特定する。

この構成によれば、音声コマンドと話者情報とに基づいて、複数の機器のうちの制御対象機器が特定されるので、機器を制御させたくない話者に関する話者情報が特定された場合、機器を制御させたくない話者に対して、音声により機器を制御させないようにすることができる。

また、上記態様において、話者情報は、話者の年齢に関する情報を含むことが好ましい。

この構成によれば、話者の年齢に応じて音声により機器を制御させないようにすることができる。例えば、子供又は高齢者の話者に対して音声により機器を制御させないようにすることができる。

また、上記態様において、話者情報と制御対象機器の候補を示す候補機器とを関連付けて記憶する第１のテーブルと、音声コマンドと候補機器とを関連付けて記憶する第２のテーブルとをそれぞれ参照し、第１のテーブル及び第２のテーブルの両方に合致する候補機器を制御対象機器として特定することが好ましい。

この構成によれば、話者情報と制御対象機器の候補を示す候補機器とを関連付けて記憶する第１のテーブルと、音声コマンドと候補機器とを関連付けて記憶する第２のテーブルとがそれぞれ参照され、第１のテーブル及び第２のテーブルの両方に合致する候補機器が制御対象機器として特定される。

したがって、特定された話者情報に対応する候補機器と、取得された音声コマンドに対応する候補機器とのうち、一致する候補機器が制御対象機器として決定されるので、制御対象機器を容易に決定することができる。

また、上記態様において、第１のテーブル及び第２のテーブルの両方に合致する候補機器がない場合、制御対象機器が無い旨を通知することが好ましい。

この構成によれば、制御対象機器が無い旨が通知されるので、ユーザは、発話した音声コマンドに対して、制御される機器が無いことを知ることができる。

また、上記態様において、話者情報と話者情報に対応する話者の機器の使用履歴とを関連付けて記憶する第３のテーブルを参照し、話者情報に対応する話者の機器の使用履歴と音声コマンドとに基づいて、制御対象機器を特定することが好ましい。

この構成によれば、複数の候補機器が存在する場合、使用履歴に基づいて、過去の同一時刻に使用された機器を制御対象機器として決定することができ、また、過去に最も頻繁に使用された機器を制御対象機器として決定することができる。

また、上記態様において、話者の位置を示す話者位置情報と、複数の機器のそれぞれの位置を示す機器位置情報とを取得し、音声コマンドと話者情報と話者位置情報と機器位置情報とに基づいて、制御対象機器を特定することが好ましい。

この構成によれば、話者の位置を示す話者位置情報と、複数の機器のそれぞれの位置を示す機器位置情報とを取得し、音声コマンドと話者情報と話者位置情報と機器位置情報とに基づいて、制御対象機器が特定されるので、複数の候補機器が存在する場合、話者の位置から最も近くにある機器を制御対象機器として決定することができる。

また、上記態様において、音声によって制御可能な複数の機器に関する第１の情報の一覧を表示するように、機器に関する情報を表示する表示装置を制御し、特定の話者に関して音声による機器の制御を受け付けないことを示す第２の情報を、制御を受け付けない機器に対応する第１の情報の近傍に表示するように表示装置を制御することが好ましい。

この構成によれば、音声によって制御可能な複数の機器に関する第１の情報の一覧が表示される。そして、特定の話者に関して音声による機器の制御を受け付けないことを示す第２の情報が、制御を受け付けない機器に対応する第１の情報の近傍に表示される。

したがって、ユーザは、音声によって制御可能な複数の機器を容易に確認することができるとともに、音声によって制御可能な複数の機器のうち、特定の話者による制御を受け付けない機器を容易に確認することができる。

本開示の他の局面に係る表示制御方法は、話者からの音声に基づいて制御される複数の機器に関する情報を表示する表示装置を制御する表示制御方法であって、音声によって制御可能な複数の機器に関する第１の情報の一覧を表示するように表示装置を制御し、特定の話者に関して音声による機器の制御を受け付けないことを示す第２の情報を、制御を受け付けない機器に対応する第１の情報の近傍に表示するように表示装置を制御する。

また、上記態様において、表示装置は、タッチパネル式ディスプレイであり、表示装置の表示画面には、第１の情報と、第１の情報とは異なる位置に配置された第２の情報とが表示されており、第２の情報を表示する表示領域がユーザによりタッチされ、第２の情報が第１の情報に向かってドラッグされ、第２の情報が第１の情報の上でドロップされることにより、第２の情報を第１の情報の近傍に表示するように表示装置を制御し、第２の情報が第１の情報の近傍に表示された場合、第１の情報に対応する機器の音声による制御を受け付けないように特定の話者に対する設定を変更することが好ましい。

この構成によれば、表示装置の表示画面には、第１の情報と、第１の情報とは異なる位置に配置された第２の情報とが表示されている。第２の情報を表示する表示領域がユーザによりタッチされ、第２の情報が第１の情報に向かってドラッグされ、第２の情報が第１の情報の上でドロップされることにより、第２の情報が第１の情報の近傍に表示される。そして、第２の情報が第１の情報の近傍に表示された場合、第１の情報に対応する機器の音声による制御を受け付けないように特定の話者に対する設定が変更される。

したがって、音声によって制御可能な複数の機器のうち、特定の話者による制御を受け付けない機器を容易に設定することができる。

本開示の他の局面に係る購入決済方法は、音声によって物品を購入する購入決済方法であって、音声情報を取得し、取得した音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、音声コマンドが購入決済に関する音声コマンドである場合、取得した音声情報に基づいて、取得した音声情報を発話した話者に関する話者情報を特定し、購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルを参照し、特定された話者情報が購入決済可能な話者情報であるか否かを判断し、特定された話者情報が購入決済可能な話者情報であると判断された場合、音声コマンドと、購入決済に必要な情報とを用いて購入決済処理を行う。

この構成によれば、購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルが参照され、特定された話者情報が購入決済可能な話者情報であるか否かが判断され、特定された話者情報が購入決済可能な話者情報であると判断された場合、音声コマンドと、購入決済に必要な情報とを用いて購入決済処理が行われる。

したがって、商品の購入を決済させたくない話者に関する話者情報が特定された場合、商品の購入を決済させたくない話者に対して音声により商品の購入を決済させないようにすることができる。

（音声認識システムの全体構成）
図１Ａは、本実施の形態における音声認識システムの全体構成を示す図である。図１Ｂは、機器メーカがデータセンタ運営会社に該当する例を示す図である。図１Ｃは、機器メーカ及び管理会社の両者又はいずれか一方がデータセンタ運営会社に該当する例を示す図である。

グループ１００は、例えば企業、団体又は家庭等であり、その規模を問わない。グループ１００には、機器Ａ、機器Ｂ及び機器Ｃを含む複数の機器１０１と、ホームゲートウェイ１０２と、収音装置１０３と、スピーカ１０４とが存在する。

複数の機器１０１は、インターネットと接続可能な機器（例えば、スマートフォン、パーソナルコンピュータ（ＰＣ）又はテレビ等）、及びそれ自身ではインターネットと接続不可能な機器（例えば、照明機器、洗濯機又は冷蔵庫等）を含む。複数の機器１０１は、それ自身ではインターネットと接続不可能な機器であっても、ホームゲートウェイ１０２を介してインターネットと接続可能となる機器を含んでもよい。また、ユーザ１０は、グループ１００内の複数の機器１０１を使用する。インターネットと接続可能な機器は、ホームゲートウェイ１０２を介さず直接後述する制御装置１１１と接続してもよい。複数の機器１０１は、直接又はホームゲートウェイ１０２を介して、後述する制御装置１１１から制御コマンドを受信する。

ホームゲートウェイ１０２は、複数の機器１０１のうちの一部又は全部の機器、収音装置１０３、又はスピーカ１０４と接続し、様々な情報を送受信する。ホームゲートウェイ１０２と各機器とは、ケーブル等を用いて有線にて接続してもよいし、Ｗｉ−Ｆｉ又はＢｌｕｅｔｏｏｔｈ（登録商標）等を用いて無線にて接続してもよい。また、ホームゲートウェイ１０２は、制御装置１１１と接続し、情報を送受信する。

収音装置１０３は、グループ１００の部屋内の音声を取得する。取得した音声は、ホームゲートウェイ１０２を介して制御装置１１１に出力される。または、取得した音声は、収音装置１０３から制御装置１１１に直接出力される。収音装置１０３は、一般的なマイクで構成され、収音装置１０３の設置場所に関しては特に限定しない。収音装置１０３は、部屋の音声を取得し易い天井又は照明器具等に設置することが好ましい。また、収音装置１０３は、ユーザ１０のいる方向に指向性を向ける機能を備えてもよい。

また、収音装置１０３は、部屋内に固定されている必要はなく、スマートフォンなどの移動可能な携帯端末に設けられていてもよい。

スピーカ１０４は、ホームゲートウェイ１０２を介して制御装置１１１から制御コマンドを受信し、受信した制御コマンドに応じて音を出力する。または、スピーカ１０４は、制御装置１１１から直接制御コマンドを受信し、受信した制御コマンドに応じて音を出力する。

なお、ホームゲートウェイ１０２及びスピーカ１０４は、音声認識システムの必須の構成ではない。

データセンタ運営会社１１０は、制御装置１１１を備える。制御装置１１１は、インターネットを介して様々な機器と連携する仮想化サーバである。制御装置１１１は、主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ（ビッグデータ）等を管理する。データセンタ運営会社１１０は、データの管理、制御装置１１１の管理、及びそれらを行うデータセンタの運営等を行っている。

ここで、データセンタ運営会社１１０は、データの管理又は制御装置１１１の運営等のみを行っている会社に限らない。例えば、図１Ｂに示すように、複数の機器１０１のうちの一つの機器を開発及び製造している機器メーカが、データの管理又は制御装置１１１の管理等を行っている場合は、機器メーカがデータセンタ運営会社１１０に該当する。また、データセンタ運営会社１１０は一つの会社に限らない。例えば、図１Ｃに示すように、機器メーカ及び他の管理会社が共同又は分担してデータの管理又は制御装置１１１の運営を行っている場合は、両者又はいずれか一方がデータセンタ運営会社１１０に該当する。

制御装置１１１は、インターネットを介してホームゲートウェイ１０２と接続し、ホームゲートウェイ１０２に接続された複数の機器１０１、収音装置１０３又はスピーカ１０４などと様々な情報を送受信する。または、制御装置１１１は、インターネットを介して複数の機器１０１、収音装置１０３又はスピーカ１０４などと直接接続し、様々な情報を送受信する。また、制御装置１１１は、後述するサーバ１２１と接続し、情報を送受信する。

サービスプロバイダ１２０は、ユーザ１０にサービスを提供するためのサーバ１２１を備える。ここで言うサーバ１２１とは、その規模は問わず、例えば、個人用ＰＣ内のメモリ等も含む。また、サービスプロバイダ１２０がサーバ１２１を備えていない場合もある。サービスプロバイダ１２０とデータセンタ運営会社１１０とが同一の会社であってもよい。サーバ１２１は、制御装置１１１から情報を受信し、ユーザへ提供するサービスに関する制御及び処理を行う。サービスは、グループ１００内のユーザ１０に提供されてもよいし、グループ１００外のユーザ２０に提供されてもよい。

なお、図１Ａでは、制御装置１１１は、グループ１００の宅外に配置されているが、本開示は特にこれに限定されず、図２に示すように、制御装置１１１は、グループ１００の宅内に配置されてもよい。

図２は、本実施の形態の変形例における音声認識システムの全体構成を示す図である。

図２に示すように、制御装置１１１は、グループ１００内に存在してもよい。

以上が音声認識システムの全体構成の説明である。以下、各実施の形態を説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示す。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、本開示の一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、本開示の最上位概念を示す独立請求項に記載されていない構成要素は、任意の構成要素として説明される。また、全ての実施の形態において、各々の実施の形態の内容を組み合わせることもできる。

（実施の形態１）
（各機器の構成）
図３は、本開示の実施の形態１における機器の構成を示す図である。図４は、本開示の実施の形態１における制御装置の構成を示す図である。図５は、本開示の実施の形態１におけるデータベースの構成を示す図である。

まず、図３を用いて、図１Ａにおける複数の機器１０１（機器Ａ、機器Ｂ、機器Ｃ、・・・）の構成を説明する。ここで、複数の機器１０１は、家庭内のあらゆる機器を含む。機器１０１ａは、複数の機器１０１のうちの１つの機器である。機器１０１ａは、例えば、テレビ、ＢＤ（Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ）レコーダ、エアコン、冷蔵庫、洗濯機、電子レンジ、及び各種調理器（ガスコンロ及びＩＨクッキングヒータ）等の種々の機器を含み、特に限定しない。機器１０１ａは、家電機器に限らず、住設機器、住環境を測定及び検知するセンサ、及び電動車両なども含めた、家庭内で使用される電化製品であってもよい。

機器１０１ａは、例えば、通信部２０１、制御処理部２０２、メモリ２０３、マイク２０４、スピーカ２０５及び表示部２０６を備える。ただし、機器１０１ａは、上記したように様々な機器を含むので、機器１０１ａの構成はこれに限定されない。機器１０１ａは、例えば、メモリ２０３、マイク２０４、スピーカ２０５及び表示部２０６のいずれか又はすべてを備えていなくてもよい。また、機器１０１ａは、図示していない他の構成を含んでいてもよい。

通信部２０１は、ネットワークを介して、又は各種ケーブルなどを介して、様々な機器と情報を送受信する。通信部２０１は、各種通信用ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのハードウェアで構成される。

制御処理部２０２は、通信部２０１によって受信された様々なデータ（情報）を処理及び演算し、機器１０１内の各構成の動作を制御する。制御処理部２０２は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのハードウェアで構成される。

メモリ２０３は、通信部２０１によって受信されたデータ（情報）、制御処理部２０２によって演算されたデータ（情報）、又は制御用のプログラム等を格納する。メモリ２０３は、例えばＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などのハードウェアで構成される。

マイク２０４は、例えば人の音声コマンドを収音（取得）する。マイク２０４に関しては、一般的に機器に搭載されるものであれば特に限定しない。スピーカ２０５及び表示部２０６に関しても、一般的に機器に搭載されるものを用いればよく、説明を省略する。

次に、図４を用いて、制御装置１１１の構成を説明する。制御装置１１１は、通信部２１１、制御処理部２１２及びデータベース２１３を備える。ただし、制御装置１１１の構成はこれに限られない。制御装置１１１の一部の構成が欠けていてもよいし、他の構成を含んでいてもよい。

通信部２１１は、ネットワークを介して、又は各種ケーブルなどを介して、様々な機器と情報を送受信する。通信部２１１は、各種通信用ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのハードウェアで構成される。

制御処理部２１２は、通信部２１１によって受信された様々なデータ（情報）を処理及び演算し、制御装置１１１内又は複数の機器１０１内の各構成の動作を制御する。制御処理部２１２は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのハードウェアで構成される。

データベース２１３は、様々なデータを蓄積している。データベース２１３は、例えば、機器１０１ａのマイク２０４又は収音装置１０３にて取得した人の音声、又は機器１０１ａの使用履歴等を含んでもよい。データベース２１３に蓄積されたデータは、制御処理部２１２によって話者の年齢又は性別を推定する処理に利用される。データベース２１３の詳細は後述する。また、データベース２１３は、図５に示すように、グループ（家族、企業又は団体など）ごとに取得したデータを関連付けて蓄積していてもよい。すなわち、データベース２１３は、第１のグループのデータを格納するデータベースと、第２のグループのデータを格納するデータベースと、第３のグループのデータを格納するデータベースとを備えてもよい。

（音声認識システムの機能構成）
図６は、本開示の実施の形態１における音声認識システムの機能構成を示す図である。音声認識システムは、図６に示すように、音声取得部３０１、音声解析部３０２、話者特定部３０３、制御対象機器特定部３０４及び機器制御部３０５を備える。

音声取得部３０１は、機器周辺で発した話者の音声を示す音声情報を取得する。音声取得部３０１は、収音装置１０３又は各機器に搭載されるマイク２０４によって実現される。

音声解析部３０２は、音声取得部３０１によって取得された音声情報を解析して、音声コマンドを取得する。音声解析部３０２は、制御装置１１１の制御処理部２１２によって実現される。音声解析部３０２は、音声取得部３０１によって取得された音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得する。

話者特定部３０３は、音声取得部３０１によって取得された音声情報に基づいて、取得された音声情報を発話した話者に関する話者情報を特定する。ここでは、話者特定部３０３は、大まかな話者の年齢又は性別などを特定する。話者特定部３０３は、例えば、制御装置１１１の制御処理部２１２及びデータベース２１３によって実現される。制御処理部２１２は、データベース２１３に蓄積されている年齢又は性別ごとの音声に関するデータと、音声取得部３０１によって取得された音声情報とを比較することで、音声情報を発話した話者の年齢又は性別などを推定する。

すなわち、話者情報は、話者の年齢に関する情報を含む。データベース２１３は、複数の年齢と、各年齢を特定することが可能な音声モデルとを対応付けて記憶している。なお、年齢は、１０歳などの１つの年齢だけでなく、０〜１０歳などの所定の年齢の範囲を含んでもよい。話者特定部３０３は、音声取得部３０１によって取得された音声情報に一致する音声モデルを特定し、特定した音声モデルに対応付けられている年齢を特定する。

なお、話者情報として、年齢又は性別のような大まかな情報だけでなく、より詳細に話者を特定してもよい。例えば、データベース２１３は、各話者の詳細な年齢、性別、嗜好及び生活パターンなどに関する情報と、各話者の音声情報（音声モデル）とを関連付けて記憶してもよい。この場合、話者特定部３０３は、より詳細に話者を特定できる。

制御対象機器特定部３０４は、話者特定部３０３によって特定された話者情報に基づいて、複数の機器１０１のうちの制御対象機器を特定する。制御対象機器特定部３０４は、例えば制御装置１１１の制御処理部２１２及びデータベース２１３によって実現される。ここで、本実施の形態では、制御対象機器特定部３０４は、話者情報に基づいて制御対象機器を特定しているが、制御対象機器特定部３０４は、話者特定部３０３によって特定された話者情報のみに基づいて制御対象機器を特定してもよいし、話者特定部３０３によって特定された話者情報以外の情報に基づいて制御対象機器を特定してもよい。話者情報以外の情報に基づいて制御対象機器を特定する処理についての詳細は後述する。

機器制御部３０５は、音声解析部３０２によって解析された音声コマンドに基づいて、制御対象機器特定部３０４によって特定された制御対象機器を制御する。機器制御部３０５は、機器１０１ａの制御処理部２０２によって実現される。

（音声認識システムのフローチャート）
以下に、図７を用いて、本音声認識システムにおける機器制御方法の処理の流れを説明する。

図７は、本開示の実施の形態１における音声認識システムの動作を示すフローチャートである。

まず、ステップＳ３０１において、音声取得部３０１は、話者の音声情報を取得する。

次に、ステップＳ３０２において、音声解析部３０２は、音声取得部３０１によって取得された音声情報を解析し音声コマンドを取得する。

次に、ステップＳ３０３において、話者特定部３０３は、音声取得部３０１によって取得された音声情報に基づいて、取得された音声情報を発話した話者に関する話者情報を特定する。

次に、ステップＳ３０４において、制御対象機器特定部３０４は、音声解析部３０２によって取得された音声コマンドと、話者特定部３０３によって特定された話者情報とに基づいて、複数の機器１０１のうちの制御対象機器を特定する。なお、ここでは、特定した話者情報のみから制御対象機器が特定されてもよい。

次に、ステップＳ３０５において、機器制御部３０５は、制御対象機器特定部３０４によって特定された制御対象機器を制御する。

（音声認識システムの動作例）
図８及び図９を用いて、本実施の形態１における音声認識システムの動作の流れの一例を説明する。図８は、本開示の実施の形態１における音声認識システムの第１の機器に対する動作を説明するためのシーケンス図である。図９は、本開示の実施の形態１における音声認識システムの第２の機器に対する動作を説明するためのシーケンス図である。また、図１０は、本開示の実施の形態１における制御処理部及びデータベースの構成を示す図である。

なお、以下で説明する音声認識システムにおいて、図１０に示すように、制御装置１１１の制御処理部２１２は、音声解析部３０２、話者特定部３０３及び制御対象機器特定部３０４を備える。また、図１０に示すように、制御装置１１１のデータベース２１３は、音声コマンドリスト６００と、複数のテーブル（テーブル７００、テーブル８０１及びテーブル８０２）とを備える。

まず、ステップＳ５０１において、収音装置１０３は、音声情報を取得する。ここで、本音声認識システムにおいて、音声情報を取得するタイミングは限定されない。収音装置１０３は、常時音声情報を取得してもよいし、予め設定されたタイミング又は間隔で音声情報を取得してもよい。例えば、収音装置１０３は、設置された空間内の音声情報を常時取得しており、取得した音声情報内に人の声の周波数帯域を検出した際に、取得した音声情報を制御装置１１１へ出力してもよい。

また、収音装置１０３は、取得した音声情報内に人の声の周波数帯域を検出した際に、特定の第１のワードを検出し、検出した特定の第１のワードに続く他の第２のワードを音声情報として取得してもよい。例えば、第１のワードが“音声認識”である場合に、話者は「音声認識、温度を上げる」といったように第１のワードの後に続けて第２のワードを発声する。これにより、取得した音声情報が、音声コマンドであるか否かの識別が可能となる。なお、音声情報であるか否かの識別に関しては収音装置１０３ではなく制御装置１１１が行ってもよい。

ここで、収音装置１０３が取得した音声情報には、話者の発話した音声以外に、様々なノイズが含まれる。そのため、収音装置１０３は、音声情報に含まれるノイズを除去するノイズ除去部を備えてもよい。また、収音装置１０３がノイズ除去部を備えるのではなく、制御装置１１１がノイズ除去部を備えてもよい。

なお、ステップＳ５０１の処理は、図７におけるステップＳ３０１の処理に相当する。

次に、ステップＳ５０２において、収音装置１０３は、取得した音声情報を制御装置１１１に出力する。ここで、音声情報の出力に際しては、例えば図１Ａに示すような音声認識システムの構成では、収音装置１０３と制御装置１１１とを有線で接続することで、収音装置１０３は音声情報を直接出力してもよい。また、収音装置１０３がネットワークに接続するための通信部を備えている場合は、収音装置１０３はネットワーク経由で音声情報を制御装置１１１に送信してもよい。また、収音装置１０３はホームゲートウェイ１０２を介して音声情報を制御装置１１１に送信してもよい。また、音声情報を制御装置１１１に出力するタイミングに関しても特に限定しない。例えば、収音装置１０３が常時音声情報を取得している場合、一定時間音声情報を記録し、取得した音声情報内に人の声の周波数帯域を検出した際にのみ、収音装置１０３は記録された音声情報を制御装置１１１に出力してもよい。

次に、ステップＳ５０３において、制御装置１１１の制御処理部２１２の音声解析部３０２は、取得した音声情報を解析し、音声コマンドを取得する。音声解析の方法は既知の方法を用いればよい。音声解析の方法としては、例えば、取得した音声情報を解析し、予め登録されている音声コマンドリスト６００のうちどの音声コマンドに近いかを解析し、音声コマンドを特定する方法等が考えられる。予め登録されている音声コマンドリストの内容としては、例えば、「オン」、「オフ」、「あげる」及び「さげる」などの機器に対する動作指示が考えられる。ここで、音声解析部３０２が音声情報を解析した結果、登録された音声コマンドリスト６００に合致するワードが音声情報に存在しない場合は、次のステップＳ５０４の処理に進まなくてもよい。

なお、ステップＳ５０３の処理は、図７におけるステップＳ３０２の処理に相当する。

次に、ステップＳ５０４において、制御装置１１１の制御処理部２１２の話者特定部３０３は、取得された音声情報から、音声情報を発話した話者に関する話者情報を特定する。

ここでは、例えば、制御装置１１１の話者特定部３０３は、取得された音声情報と、データベース２１３のテーブル７００に登録されている音声情報とを比較し、大まかな話者情報を推定する。

図１１は、データベース２１３に記録されている音声情報と、推定される年齢との関係を示すテーブル７００の一例を示す図である。図１１に示すように、データベース２１３には、５段階に分けられた年齢範囲に対応する音声情報（音声モデル）が登録されている。ここで、音声モデルとは、各年齢に該当する不特定多数の話者の音声の特徴を用いて作成された識別用モデルを指す。音声モデルには、各年代の音声の話者性を示す特徴が含まれている。例えば、音声モデルＡは、不特定多数の０〜１０歳の人間の発話から特徴を抽出し、抽出した特徴を何らかの規範を用いて学習し、モデル化したものである。

音声情報をモデル化する方法は特に限定しない。一般的に、男性、女性、子供及び大人など、性別又は年代が異なれば、声帯振動の基本周波数又は声道の特性が異なることが知られている。これらの違いに注目し、例えば、分類したい年代又は性別ごとの音声情報から抽出した基本周波数をモデル化してもよいし、声道特性の特徴量を抽出し、抽出した特徴料を機械学習等による統計的なアプローチでモデル化してもよい。また、本実施の形態では、年齢を５段階に分けてデータベース化されている例を示したが、これに限らない。少なくとも子供（例えば０〜１０歳）と、それ以外の大人といったように２段階の年齢層に対応する音声情報がモデル化され、データベースとして格納されていればよい。図１１のテーブル７００のように、音声情報（音声モデル）と年齢に関する情報とが関連付けられていてもよいし、音声情報（音声モデル）と性別又はその他の情報とが関連付けられていてもよい。

なお、ステップ５０４の処理は、図７におけるステップＳ３０３の処理に相当する。

次に、ステップＳ５０５において、制御装置１１１の制御処理部２１２の制御対象機器特定部３０４は、制御対象機器を特定する。以下、制御対象機器を特定する方法の一例として、特定された話者情報（音声モデル）と、取得された音声コマンドとから制御対象機器を特定する方法を説明する。なお、制御対象機器を特定する方法としては、以下に説明する方法に限られず、例えば、特定した話者情報のみから制御対象機器を特定する方法、又は特定した話者情報とその他の情報とを組み合わせて制御対象機器を特定する方法が考えられる。

図１０に示すように、制御対象機器特定部３０４は、第１の制御対象機器限定部３０４１と第２の制御対象機器限定部３０４２とを含んでもよい。

図１２は、データベース２１３に記憶されている音声モデルと制御対象機器との関係を示すテーブル８０１の一例を示す図である。

第１の制御対象機器限定部３０４１は、図１２に示すデータベース２１３のテーブル８０１を用いて、話者特定部３０３によって特定された話者情報（音声モデルＡ〜Ｄ）から制御対象機器を限定する。なお、図１２において、例えば、機器Ａはテレビであり、機器Ｂはガスコンロであり、機器Ｃはエアコンであり、機器Ｄは子供用玩具である。テーブル８０１に示すように、話者特定部３０３によって話者の年齢が０〜１０歳（音声モデルＡ）であると特定された場合、制御対象機器は、機器Ａ（テレビ）及び機器Ｄ（子供用玩具）に限定される。また、話者特定部３０３によって話者の年齢が１１〜２０歳（音声モデルＢ）であると特定された場合、制御対象機器は、機器Ａ、機器Ｃ及び機器Ｄに限定される。同様に、話者特定部３０３によって話者の年齢が２１〜４０歳（音声モデルＣ）であると特定された場合、制御対象機器は、機器Ａ、機器Ｂ及び機器Ｃに限定される。他の年齢についても、図１２に示す通りに制御対象機器が限定される。

なお、テーブル８０１は、音声モデルと制御対象機器とを関連付けているが、本開示は特にこれに限定されず、年齢と制御対象機器とを関連付けてもよい。

図１３は、データベース２１３に記録されている音声コマンドと制御対象機器との関係を示すテーブル８０２の一例を示す図である。

第２の制御対象機器限定部３０４２は、図１３に示すデータベース２１３のテーブル８０２を用いて、音声解析部３０２によって取得された音声コマンドから制御対象機器を限定する。例えば、音声コマンドが「おん」又は「おふ」である場合、制御対象機器は、機器Ａ（テレビ）、機器Ｂ（ガスコンロ）、機器Ｃ（エアコン）及び機器Ｄ（子供用玩具）に限定される。一方、例えば、音声コマンドが「あげる」又は「さげる」である場合、制御対象機器は、機器Ａ（テレビ）、機器Ｂ（ガスコンロ）及び機器Ｃ（エアコン）に限定される。

ここで、例えば、話者特定部３０３によって音声モデルＡと分類され、音声解析部３０２によって「あげる」という音声コマンドが取得された場合、制御対象機器は、第１の制御対象機器限定部３０４１と第２の制御対象機器限定部３０４２との双方によって限定される複数の機器１０１のうちの機器Ａ（テレビ）に特定される。

このように、制御対象機器特定部３０４は、話者情報と制御対象機器の候補を示す候補機器とを関連付けて記憶するテーブル８０１（第１のテーブル）と、音声コマンドと候補機器とを関連付けて記憶するテーブル８０２（第２のテーブル）とをそれぞれ参照し、テーブル８０１及びテーブル８０２の両方に合致する候補機器を制御対象機器として特定する。

また、制御対象機器特定部３０４は、テーブル８０１（第１のテーブル）及びテーブル８０２（第２のテーブル）の両方に合致する候補機器がない場合、制御対象機器が無い旨を通知してもよい。

なお、ステップＳ５０５の処理は、図７におけるステップＳ３０４の処理に相当する。

次に、ステップＳ５０６において、制御装置１１１の通信部２１１は、制御対象機器の通信部２０１に音声コマンドを送信する。上記のように、ステップＳ５０５において制御対象機器が機器Ａに特定された場合、図８に示すように、通信部２１１は、「あげる」という音声コマンドを機器Ａであるテレビに送信する。

一方、ステップＳ５０５において制御対象機器が機器Ｂに特定された場合、図９に示すように、通信部２１１は、音声コマンドを機器Ｂの通信部２０１に送信する。

次に、ステップＳ５０７において、制御対象機器の制御処理部２０２は、受信した音声コマンドに応じて動作を制御する。

図１４は、機器のメモリに記憶されている音声コマンドと制御内容とを関連付けたテーブル８０３の一例を示す図である。ここで、各機器は、図１４に示すようなテーブル８０３を保持している。例えば、機器Ａに「あげる」という音声コマンドが入力された際には制御処理部２０２はスピーカ２０５を制御し、音量設定値を一定値上げる。

以上、本実施の形態１の音声認識システムによれば、話者の年齢等の情報と、音声コマンドとから、話者の音声コマンドに対する制御対象機器を特定することができる。これにより、従来のように、制御対象機器を特定するための入力動作が不要となり、よりユーザの利便性を向上させることができる。また、音声によって誰でも全ての機器を操作できるという従来の音声認識システムの課題を解決することができる。例えば、子供がガスコンロなどの機器を音声にて操作することを防止することができる。

なお、本実施の形態１では、制御装置１１１の制御処理部２１２が、音声解析部３０２、話者特定部３０３及び制御対象機器特定部３０４を含む例を説明したが、これに限られない。複数の機器１０１のいずれかの機器における制御処理部２０２が、音声解析部３０２、話者特定部３０３及び制御対象機器特定部３０４のいずれか又は全てを含んでいてもよい。また、サービスプロバイダが所有するサーバ１２１が、音声解析部３０２、話者特定部３０３及び制御対象機器特定部３０４のいずれか又は全てを含んでいてもよい。その場合は、データセンタ運営会社１１０は、取得した情報を蓄積してサービスプロバイダに送信する。または、データセンタ運営会社１１０が存在しない場合もある。

なお、ステップＳ３０３において特定される話者情報は、音声による機器の制御を受け付けるか否かを判断するための最低限のおおまかな情報でよいが、予めグループごとの個人と音声モデルとが関連付けられたテーブルが登録されていれば、音声情報から詳細な話者を特定できる。例えば、話者が、家族の中でも父親及び母親のいずれであるか、姉及び妹のいずれであるか、といったように詳細に話者を特定することができる。これにより、グループに属する予め登録された話者以外の話者が音声コマンドを発話しても、機器を制御できないようにすることができる。したがって、外部の者からグループ（家など）内の機器が制御されることを防ぐことができる。

また、予め設定されたグループごとのデータベースが蓄積されていれば、各話者に対する機器の使用頻度を集計できる。したがって、制御対象機器特定部３０４は、音声コマンドを発話した話者の使用頻度の高い機器を優先的に制御対象機器として特定してもよい。すなわち、データベース２１３は、話者情報と、話者情報に対応する話者の機器の使用履歴とを関連付けて記憶するテーブルを記憶してもよく、制御対象機器特定部３０４は、当該テーブルを参照し、話者情報に対応する話者の機器の使用履歴と音声コマンドとに基づいて、制御対象機器を特定してもよい。これにより、ユーザが意図していない機器を制御してしまうことを防止することができる。なお、グループごとの個人と関連付けられたテーブルの詳細に関しては実施の形態２でも説明する。

また、制御対象機器特定部３０４は、使用頻度の履歴とともに、機器を使用した時刻に関する情報を用いて制御対象機器を特定してもよい。これにより、話者が音声コマンドを発話した時刻に、その話者が使用している頻度の高い機器を制御対象機器として特定できる。したがって、制御対象機器を特定する精度をより向上させることができる。

また、制御対象機器特定部３０４は、話者及び機器の位置情報をさらに利用することで、制御対象機器を特定してもよい。すなわち、制御対象機器特定部３０４は、話者の位置を示す話者位置情報と、複数の機器のそれぞれの位置を示す機器位置情報とを取得し、音声コマンドと話者情報と話者位置情報と機器位置情報とに基づいて、制御対象機器を特定してもよい。

例えば、制御対象機器特定部３０４は、音声コマンドと話者情報とに基づいて複数の制御対象機器の候補が特定された後に、話者の位置と、特定された複数の制御対象機器の候補の位置との関係から、最も話者の位置に近い制御対象機器の候補を制御対象機器として特定してもよい。位置情報は、例えばＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）等を利用してもよい。また、収音装置１０３によって取得される音声情報に基づいて、収音装置１０３と各機器との位置関係及び収音装置１０３と話者との位置関係を計測してもよい。複数の機器１０１にマイク２０４及びスピーカ２０５が備えられており、各機器が情報を交換することができれば、より詳細に各機器の位置関係及び話者の位置を特定することができる。

また、ステップＳ３０５において、特定された制御対象機器を制御する際、制御処理部２０２は、特定された話者に応じて制御対象機器を制御してもよい。例えば、テーブル７００の音声モデルＡ（０〜１０歳）と特定された話者が、機器Ａ（テレビ）を音声コマンドによって制御する場合は、機器Ａの表示部２０６は、「テレビを見るときは１ｍ以上離れましょう」という文字を表示したり、スピーカ２０５は、「テレビを見るときは１ｍ以上離れましょう」という音声を出力したりしてもよい。また、音声モデルＥ（６０〜８０歳）と特定された話者が機器Ｃを音声コマンドによって制御する場合は、スピーカ２０５は、操作方法に関するより詳細な音声ガイドを出力してもよい。すなわち、話者の情報に応じてステップＳ３０５における機器の制御方法又は機器の制御結果を変更してもよい。

また、図１２及び図１３に示すテーブルは、メーカ側が予めデフォルトを設定していてもよいし、ユーザによる編集を受け付けてもよい。この場合、ユーザが各テーブルを編集するためのＵＩ（ユーザインタフェース）が構築されていることが好ましい。

図１５は、音声によって操作することが可能な機器を一覧で表示する表示画面の一例を示す図であり、図１６は、音声によって操作する話者を機器毎に設定する動作を説明するための図であり、図１７は、音声によって操作する話者を機器毎に設定した際に表示される表示画面の一例を示す図である。

図１５〜図１７では、ユーザが各テーブルを設定するためのＵＩを示している。例えば、図１５に示すように、スマートフォンの画面には、音声操作可能な機器の一覧が表示される。また、画面の下部には、特定のユーザの機器の利用を制限するためのアイコン５０１，５０２が表示される。アイコン５０１は、音声モデルＡに対応する０〜１０歳の話者による操作を制限するためのアイコンであり、アイコン５０２は、音声モデルＤに対応する６１〜８０歳の話者による操作を制限するためのアイコンである。画面を表示する表示部はタッチパネル式ディスプレイ等で構成される。図１６に示すように、ユーザは、アイコン５０１，５０２を、対象の機器の上にドラックアンドドロップする。これにより、制御処理部２１２は、テーブル８０１において、アイコンに対応する音声モデルに関連付けられている制御対象機器を変更する。

図１７の例では、最終的に、機器Ｂ（ガスコンロ）は、音声モデルＡ（０〜１０歳）の話者と音声モデルＤ（６１〜８０歳）の話者とが音声コマンドにより操作できない機器に設定されている。また、機器Ｃ（エアコン）は、音声モデルＡ（０〜１０歳）の話者が音声コマンドにより操作できない機器に設定されている。

このように、制御装置１１１の制御処理部２１２は、話者からの音声に基づいて制御される複数の機器１０１に関する情報を表示する表示装置（例えば、スマートフォン）を制御する。制御処理部２１２は、音声によって制御可能な複数の機器に関する第１の情報の一覧を表示するように表示装置を制御する。また、制御処理部２１２は、特定の話者に関して音声による機器の制御を受け付けないことを示す第２の情報を、制御を受け付けない機器に対応する第１の情報の近傍に表示するように表示装置を制御する。

また、表示装置の表示画面には、第１の情報と、第１の情報とは異なる位置に配置された第２の情報とが表示されている。制御処理部２１２は、表示装置の表示画面において第２の情報を表示する表示領域がユーザによりタッチされ、第２の情報が第１の情報に向かってドラッグされ、第２の情報が第１の情報の上でドロップされることにより、第２の情報を第１の情報の近傍に表示するように表示装置を制御する。また、制御処理部２１２は、第２の情報が第１の情報の近傍に表示された場合、第１の情報に対応する機器の音声による制御を受け付けないように特定の話者に対する設定を変更する。

また、音声認識システムは、制御対象機器特定部３０４が制御対象機器を特定した理由を出力する出力部を備えてもよい。例えば、図１２及び図１３のようにテーブルが設定されている場合は、音声モデルＥの話者が「きょう」という音声コマンドを発話した際には、自動的に制御対象機器は機器Ｂ（エアコン）に特定される。この際、制御装置１１１の通信部２１１は、スピーカ２０５から「あなたがその音声コマンドで制御できる機器は、エアコンのみなので、エアコンを制御します。」という音声を出力する制御コマンドを送信してもよい。これにより、話者はなぜ自動的に機器Ｂが制御されたのか把握することができるため、話者への不快感を低減できる。

また、音声認識システムは、話者を特定した時点で制御対象機器を可視的に話者に伝える制御対象機器通知部を備えてもよい。例えば、収音装置１０３が設置されている部屋内に存在する話者が音声モデルＡであると特定された際には、自動的に制御対象機器の候補が機器Ａ及び機器Ｄに特定される。この際、制御装置１１１は、機器Ａ及び機器Ｄに備えられた発光部（図３には図示せず）を発光させるように制御してもよい。これにより、話者は音声コマンドによって制御できる機器を可視的に把握できる。

また、制御装置１１１は、特定された話者が制御対象機器では無い機器を音声コマンドで制御しようとした際に、「その機器は制御対象外です」という音声ガイドをスピーカ１０４から出力するように制御してもよい。例えば、図１２及び図１３のテーブルが登録されている場合、音声モデルＡと特定された話者が「きょう」と発話しても制御対象機器が存在しないことになる。したがって、音声コマンドに対応する制御対象機器が存在しない場合、制御装置１１１の通信部２１１は、スピーカ２０５から「その機器は制御対象外です」という音声ガイドを出力する旨の制御コマンドを送信してもよい。

（実施の形態２）
（本実施の形態２の基礎となった知見）
本実施の形態２では、音声によって複数の機器を制御するだけではなく、音声によって各機器又は家と仮想的に対話して、物品を購入するシステムを想定している。例えば、ユーザがシステムに登録されたレシピ通りに調理しようとした際、不足している食材の購入をシステム側から促し、ユーザ側が音声にて不足している食材の購入を指示することができれば、ユーザにとってもサービスプロバイダにとっても利便性及び価値の高いシステムとなる。

ただし、この際、例えば家に侵入した不審者でも、音声入力によって物品を購入することが可能となってしまう。また、幼い子供でも高価な商品を購入することが可能である。すなわち、誰でも物品を購入することができる。また、従来、音声認識システムによって購入決済を行う場合、ユーザ認証を行う方法については確立されていないので、サービスプロバイダは、音声によって物品を購入しようとしている話者が予め登録されているユーザであるか否かを特定できない。そのため、ユーザを認証し安全に物品を購入することができるシステムの構築が必要である。

本実施の形態２では、上記の課題を解決する音声認識システムを提供する。

なお、本実施の形態２では、実施の形態１と異なる構成を中心に説明する。なお、本実施の形態２は、実施の形態１における構成を併用することも可能である。音声認識システムの全体構成、機器１０１ａの構成、及び制御装置の構成等に関しては、図１Ａ、図１Ｂ、図１Ｃ、図２〜図５と同様であるので、説明を省略する。

（音声認識システムの機能構成）
図１８は、本開示の実施の形態２における音声認識システムの機能構成を示す図である。音声認識システムは、図１８に示すように、音声取得部１００１、音声解析部１００２、話者特定部１００３及び購入決済部１００４を備える。

音声取得部１００１、音声解析部１００２及び話者特定部１００３の構成は、実施の形態１の音声取得部３０１、音声解析部３０２及び話者特定部３０３の構成と同様であるので説明を省略する。ただし、本実施の形態２において、話者特定部１００３が特定する話者情報は詳細な話者情報である。詳細な話者情報に関しては後述する。

購入決済部１００４は、音声解析部１００２によって取得された音声コマンドと、話者特定部１００３によって特定された話者情報とに基づいて、商品の購入決済を行う。購入決済方法の詳細に関しては後述する。なお、購入決済部１００４は、サービスプロバイダ１２０のサーバ１２１にて実現する。サーバ１２１の詳細な構成については後述する。

なお、購入決済部１００４は、データセンタ運営会社１１０の制御装置１１１にて実現してもよい。

（音声認識システムのフローチャート）
以下に、図１９を用いて、本音声認識システムにおける購入決済方法の処理の流れを説明する。

図１９は、本開示の実施の形態２における音声認識システムの動作を示すフローチャートである。

まず、ステップＳ１１０１において、音声取得部１００１は、話者の音声情報を取得する。

次に、ステップＳ１１０２において、音声解析部１００２は、音声取得部１００１によって取得された音声情報を解析し音声コマンドを取得する。また、音声解析部１００２は、音声コマンドが購入決済に関する音声コマンドであるか否かを判断する。

次に、ステップＳ１１０３において、話者特定部１００３は、音声取得部１００１によって取得された音声情報に基づいて、取得された音声情報を発話した話者に関する話者情報を特定する。話者特定部１００３は、音声コマンドが購入決済に関する音声コマンドである場合、取得した音声情報に基づいて、取得した音声情報を発話した話者に関する話者情報を特定する。

次に、ステップＳ１１０４において、購入決済部１００４は、音声解析部１００２によって取得された音声コマンドと、話者特定部３０３によって特定された話者情報とに基づいて、商品の購入決済を行う。購入決済部１００４は、購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルを参照し、特定された話者情報が購入決済可能な話者情報であるか否かを判断し、特定された話者情報が購入決済可能な話者情報であると判断された場合、音声コマンドと、購入決済に必要な情報とを用いて購入決済処理を行う。

（音声認識システムの動作例）
図２０を用いて、本実施の形態２における音声認識システムの動作の流れの一例を説明する。図２０は、本開示の実施の形態２における音声認識システムの購入決済処理を説明するためのシーケンス図である。また、図２１は、本開示の実施の形態２における制御装置及びサーバの構成を示す図である。

なお、以下で説明する音声認識システムにおいて、図２１に示すように、制御装置１１１の制御処理部２１２は、音声解析部１００２及び話者特定部１００３を備える。さらに、制御処理部２１２は、制御コマンド選択部１００６及び本人認証部１００８を備えてもよい。また、図２１に示すように、制御装置１１１のデータベース２１３は、第１の音声コマンドリスト１３０１、第２の音声コマンドリスト１３０２、グループ（家又は会社）ごとに関連付けられたテーブル（第１のテーブル１４０１及び第２のテーブル１４０２）を備える。

また、サービスプロバイダのサーバ１２１は、通信部１２１０、制御処理部１２２０及び購入決済データベース１２３０を備える。また、制御処理部１２２０は、購入決済部１００４を備える。また、制御処理部１２２０は、登録有無確認部１００５を備えてもよい。購入決済データベース１２３０はテーブル１４０３を備える。

まず、ステップＳ１２０１において、収音装置１０３は、音声情報を取得する。ここで、商品の購入を指示する音声コマンドが取得されたとする。例えば「牛乳を購入」という音声情報が収音装置１０３に入力される。なお、ステップＳ１２０１の処理は、図１９に示すステップＳ１１０１の処理に該当する。

次に、ステップＳ１２０２において、収音装置１０３は、取得した音声情報を制御装置１１１に送信する。

次に、ステップＳ１２０３において、制御装置１１１の制御処理部２１２の音声解析部１００２は、取得した音声情報を解析し、音声コマンドを取得する。音声解析部１００２は、実施の形態１と同様に、音声情報を解析する。ここで、音声解析部１００２は、音声コマンドに購入決済を意図する言葉が含まれているか否かを確認する。また、音声解析部１００２は、音声コマンドに購入対象の商品に関するワードが含まれているか否かを確認する。

例えば、「牛乳を購入」という音声コマンドが入力された場合は、音声解析部１００２は、“牛乳”というワードと“購入”というワードとをそれぞれ、購入を意味するワードを予め記憶する第１の音声コマンドリスト１３０１と比較する。この場合、“購入”というワードが第１の音声コマンドリスト１３０１中に存在するので、音声解析部１００２は、購入決済の音声コマンドであることを情報として付け加える。また、音声解析部１００２は、“牛乳”というワードを、購入可能な物品の名称を予め記憶する第２の音声コマンドリスト１３０２と比較する。“牛乳”というワードが第２の音声コマンドリスト１３０２中に存在する場合、音声解析部１００２は、購入対象商品を牛乳に設定する。

なお、ステップＳ１２０３の処理は、図１９に示すステップＳ１１０２の処理に該当する。

次に、ステップＳ１２０４において、制御装置１１１の制御処理部２１２の話者特定部１００３は、取得された音声情報から、音声情報を発話した話者に関する話者情報を特定する。データベース２１３は、各グループの構成員の詳細な情報が蓄積されたテーブル（第１のテーブル１４０１及び第２のテーブル１４０２）を含む。第１のテーブル１４０１は、第１のグループの構成員の音声情報、年齢及び性別を関連付けて記憶する。第２のテーブル１４０２は、第１のグループとは異なる第２のグループの構成員の音声情報、年齢及び性別を関連付けて記憶する。

図２２は、データベース２１３に記録されている音声情報と、推定される年齢と、推定される性別との関係を示す第１のテーブル１４０１の一例を示す図である。第１のテーブル１４０１では、音声情報と詳細な年齢と性別とが関連付けられている。ここで、音声情報は、実施の形態１で説明した通りである。話者特定部１００３は、ステップＳ１２０１の処理で取得した音声情報と、第１のテーブル１４０１に登録されている音声情報とを比較することで話者情報を特定する。

第１のテーブル１４０１の構築方法は特に限定しない。例えば、制御処理部２１２は、ユーザによるＵＩ（ユーザインタフェース）を用いた初期設定を予め受け付けることで第１のテーブル１４０１を構築してもよい。また、制御処理部２１２は、収音装置１０３が音声情報を取得したいずれかのタイミングで、話者に年齢及び性別などの情報を入力させることで第１のテーブル１４０１を構築してもよい。また、後述する購入決済データベース１２３０に話者が情報を登録した際、又は購入決済データベース１２３０に話者が情報を登録した後、制御処理部２１２は、自動的に第１のテーブル１４０１に購入決済データベース１２３０の情報をコピーしてもよい。

ステップＳ１２０４の処理は、図１９に示すステップＳ１１０３の処理に該当する。

次に、ステップＳ１２０５において、制御装置１１１の通信部２１１は、ステップＳ１２０３にて解析された結果、購入決済の音声コマンドであると判断された場合、特定した話者情報をサーバ１２１の通信部１２１０に送信する。なお、音声コマンドが購入決済の音声コマンドであるか否かの判断はこの時点で行わなくてもよい。サーバ１２１の通信部１２１０は、制御装置１１１によって送信された話者情報を受信する。

次に、ステップＳ１２０６において、サーバ１２１の制御処理部１２２０の登録有無確認部１００５は、ステップＳ１２０４において特定された話者情報が購入決済データベース１２３０に登録されているか否かを確認する。購入決済データベース１２３０は、音声認識システムにおいて物品の購入が可能なユーザに関する情報を記憶するテーブル１４０３を含む。

図２３は、購入決済データベース１２３０に記憶されているユーザ番号と音声情報と年齢とクレジットカード情報との関係を示すテーブル１４０３の一例を示す図である。

ここで、登録有無確認部１００５は、ステップＳ１２０４において特定された話者の音声情報が、テーブル１４０３に存在する場合は、ユーザ登録の有無を“有”として記憶する。

例えば、ステップＳ１２０４において、図２２の音声情報“００１”と特定された話者は、テーブル１４０３には存在しないので、登録有無確認部１００５は、ユーザ登録の有無を“無”として記憶し、ステップＳ１２０７の処理には進まず、処理を終了する。なお、登録有無確認部１００５は、処理を終了せずに、「登録情報がありません」などの音声ガイドを出力する制御コマンドを作成しスピーカ１０４に送信してもよい。一方、例えばステップＳ１２０４において、図２２の音声情報“００３”と特定された話者は、テーブル１４０３に存在するので、登録有無確認部１００５は、ユーザ登録の有無を“有”として記憶し、ステップＳ１２０７の処理に進む。

なお、ユーザ登録の有無の判断に際して、テーブル１４０１の音声情報とテーブル１４０３の音声情報との一致のみを判断するのではなく、その他の情報（例えば年齢又は性別等）の一致を併せて用いることで、認証の精度を向上させてもよい。

次に、ステップＳ１２０７において、サーバ１２１の通信部１２１０は、ユーザ登録の有無を示す情報を制御装置１１１の通信部２１１に送信する。制御装置１１１の通信部２１１は、サーバ１２１によって送信されたユーザ登録の有無を示す情報を受信する。

次に、ステップＳ１２０８において、制御装置１１１の制御処理部２１２の制御コマンド選択部１００６は、スピーカ１０４を制御するための制御コマンドをステップＳ１２０３において解析した音声コマンドに基づいて選択する。例えば、音声コマンドのうち購入可能物品の音声コマンドリスト１３０２と合致した商品を示すワードが安価な商品（ここでは牛乳）であれば、制御コマンド選択部１００６は、「購入決済を行います。牛乳を購入してよろしいでしょうか」という音声ガイドを出力する制御コマンドを選択（生成）する。また、音声コマンドリスト１３０２と合致した商品を示すワードが比較的高価な商品であれば、制御コマンド選択部１００６は、「購入決済を行います。パスワードを発話して下さい」という音声ガイドを出力する制御コマンドを選択（生成）する。

ここでは、制御コマンド選択部１００６は、購入する商品が安価である否かによって、作成する音声ガイドを変更しているが、これに限られない。制御コマンド選択部１００６は、購入する商品が安価である否かに関わらず、常に同じ音声ガイドを生成してもよい。また、購入する商品が安価である否かの判断は、購入する商品が所定の値段より安いか否かによって判断される。所定の値段は、ユーザによって設定されてもよい。

次に、ステップＳ１２０９において、制御装置１１１の通信部２１１は、ステップＳ１２０８において選択した制御コマンドをスピーカ１０４に送信する。スピーカ１０４は、制御装置１１１によって送信された制御コマンドを受信する。

次に、ステップＳ１２１０において、スピーカ１０４は、受信した制御コマンドに基づいて音声ガイドを出力する。音声ガイドについては、ステップＳ１２０８において説明した通りである。これにより、話者に再度発話を促すことができる。

次に、ステップＳ１２１１において、収音装置１０３は、発話を促された話者の音声情報を再度取得する。

次に、ステップＳ１２１２において、収音装置１０３は、取得した音声情報を制御装置１１１に送信する。

次に、ステップＳ１２１３において、制御装置１１１の音声解析部１００２は、再度音声を解析し、音声コマンドを取得する。

次に、ステップＳ１２１４において、制御装置１１１の話者特定部１００３は、取得された音声情報から、音声情報を発話した話者に関する話者情報を特定する。

次に、ステップＳ１２１５において、制御処理部２１２の本人認証部１００８は、ステップＳ１２０４において特定した話者情報と、ステップＳ１２１４において特定した話者情報とが一致するか否かを判断し、２つの話者情報が一致する場合は、本人認証ができたと判断する。

なお、ステップＳ１２１５において、本人認証部１００８は、ステップＳ１２１３において解析した音声コマンドが、商品の購入を肯定する内容であるか否かを判断してもよい。ここで、音声コマンドが商品の購入を肯定する内容であると判断された場合、本人認証部１００８は、本人認証ができたと判断する。一方、音声コマンドが商品の購入を否定する内容（例えば、“いいえ”又は“購入しない”など）であると判断された場合、処理を終了してもよい。この場合、制御コマンド選択部１００６は、「購入意思がないようなので、決済処理を終了します。」という音声ガイドを出力する制御コマンドを選択（生成）し、スピーカ１０４に送信してもよい。

次に、ステップＳ１２１６において、制御装置１１１の通信部２１１は、ステップＳ１２１５において本人の認証ができたと判断された場合は、本人認証が成功したことを示す情報をサーバ１２１に送信する。ここで、本人の認証ができなかったと判断された場合は、制御コマンド選択部１００６は、「本人の認証ができません」という音声ガイドを出力する制御コマンドを選択（生成）し、スピーカ１０４に送信してもよい。サーバ１２１の通信部１２１０は、制御装置１１１によって送信された本人認証が成功したことを示す情報を受信する。

最後に、ステップＳ１２１７において、サーバ１２１の制御処理部１２２０の購入決済部１００４は、音声によって指定された商品を購入する購入決済処理を行う。図２３のテーブル１４０３では、ユーザ番号と音声情報と年齢とクレジットカード情報とが関連付けられて管理されている。そのため、ステップＳ１２１７において、購入決済部１００４は、対応する話者のクレジットカード情報を抽出し、通信部１２１０を介してカード会社等と通信することで購入決済処理を行うことが可能である。

以上、本実施の形態２における音声認識システムでは、取得した音声情報から話者を特定し、サービスプロバイダのサーバに蓄積されている購入決済データベースを参照することで、話者がユーザ登録されているか否かを判断し、購入決済処理が行われる。これにより、煩わしい認証作業をユーザに強いることはない。また、誰が発話しても物品が購入できるという危険性を防ぐことができる。

また、商品の購入を再度確認することで、本人認証が行われる。これにより、より安全性の高い購入決済処理が行える。

なお、制御処理部２１２は、話者の現在位置を検出する位置検出部を備えてもよい。ステップＳ１２０１において音声情報を取得した後、位置検出部は、話者の位置を検出し、ステップＳ１２１５において位置検出部は、再度話者の位置を検出し、本人認証部１００８は、検出された２つの話者の位置が変化していないことを確認することで、本人認証を行ってもよい。これにより、最初に音声情報が取得された話者とは異なる話者が購入決済の意思確認のタイミング（ステップＳ１２１１）で割り込んで発話したとしても、購入決済をキャンセルすることができる。

上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現されるクラウドサービスの類型はこれに限られるものでない。

（サービスの類型１：自社データセンタ型クラウドサービス）
図２４は、サービスの類型１（自社データセンタ型クラウドサービス）における音声認識システムが提供するサービスの全体像を示す図である。本類型では、サービスプロバイダ１２０がグループ１００から情報を取得し、ユーザに対してサービスを提供する。本類型では、サービスプロバイダ１２０が、データセンタ運営会社の機能を有している。すなわち、サービスプロバイダ１２０が、ビッグデータを管理するクラウドサーバ（制御装置１１１）を保有している。したがって、本類型では、データセンタ運営会社は存在しない。

本類型では、サービスプロバイダ１２０は、データセンタ（クラウドサーバ）２０３０を運営及び管理している。また、サービスプロバイダ１２０は、オペレーティングシステム（ＯＳ）２０２０及びアプリケーション２０１０を管理する。サービスプロバイダ１２０は、サービスプロバイダ１２０が管理するＯＳ２０２０及びアプリケーション２０１０を用いてサービスを提供する（矢印２０４０）。

（サービスの類型２：ＩａａＳ利用型クラウドサービス）
図２５は、サービスの類型２（ＩａａＳ利用型クラウドサービス）における音声認識システムが提供するサービスの全体像を示す図である。ここで、ＩａａＳとは、インフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築及び稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社１１０が、データセンタ（クラウドサーバ）２０３０を運営及び管理している。また、サービスプロバイダ１２０は、ＯＳ２０２０及びアプリケーション２０１０を管理する。サービスプロバイダ１２０は、サービスプロバイダ１２０が管理するＯＳ２０２０及びアプリケーション２０１０を用いてサービスを提供する（矢印２０４０）。

（サービスの類型３：ＰａａＳ利用型クラウドサービス）
図２６は、サービスの類型３（ＰａａＳ利用型クラウドサービス）における音声認識システムが提供するサービスの全体像を示す図である。ここで、ＰａａＳとは、プラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築及び稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社１１０は、ＯＳ２０２０を管理し、データセンタ（クラウドサーバ）２０３０を運営及び管理している。また、サービスプロバイダ１２０は、アプリケーション２０１０を管理する。サービスプロバイダ１２０は、データセンタ運営会社１１０が管理するＯＳ２０２０及びサービスプロバイダ１２０が管理するアプリケーション２０１０を用いてサービスを提供する（矢印２０４０）。

（サービスの類型４：ＳａａＳ利用型クラウドサービス）
図２７は、サービスの類型４（ＳａａＳ利用型クラウドサービス）における音声認識システムが提供するサービスの全体像を示す図である。ここで、ＳａａＳとは、ソフトウェア・アズ・ア・サービスの略である。ＳａａＳ利用型クラウドサービスは、例えば、データセンタ（クラウドサーバ）を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ（クラウドサーバ）を保有していない会社又は個人などの利用者がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社１１０は、アプリケーション２０１０を管理し、ＯＳ２０２０を管理し、データセンタ（クラウドサーバ）２０３０を運営及び管理している。また、サービスプロバイダ１２０は、データセンタ運営会社１１０が管理するＯＳ２０２０及びアプリケーション２０１０を用いてサービスを提供する（矢印２０４０）。

以上、いずれのクラウドサービスの類型においても、サービスプロバイダ１２０がサービスを提供する。また、例えば、サービスプロバイダ又はデータセンタ運営会社は、ＯＳ、アプリケーション又はビッグデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。

本開示に係る機器制御方法、表示制御方法及び購入決済方法は、機器を制御させたくない話者に対して、音声により機器を制御させないようにすることができ、音声によって複数の機器を制御する機器制御方法、話者からの音声に基づいて制御される複数の機器に関する情報を表示する表示装置を制御する表示制御方法、及び音声によって物品を購入する購入決済方法として有用である。

１０，２０ユーザ
１００グループ
１０１複数の機器
１０１ａ機器
１０２ホームゲートウェイ
１０３収音装置
１０４スピーカ
１１０データセンタ運営会社
１１１制御装置
１２０サービスプロバイダ
１２１サーバ
２０１通信部
２０２制御処理部
２０３メモリ
２０４マイク
２０５スピーカ
２０６表示部
２１１通信部
２１２制御処理部
２１３データベース
３０１音声取得部
３０２音声解析部
３０３話者特定部
３０４制御対象機器特定部
３０５機器制御部
１００１音声取得部
１００２音声解析部
１００３話者特定部
１００４購入決済部
１００５登録有無確認部
１００６制御コマンド選択部
１００８本人認証部
１２１０通信部
１２２０制御処理部
１２３０購入決済データベース
３０４１第１の制御対象機器限定部
３０４２第２の制御対象機器限定部

Claims

音声によって複数の機器を制御する機器制御方法であって、
音声情報を取得し、
取得した前記音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、
取得した前記音声情報に基づいて、取得した前記音声情報を発話した話者に関する話者情報を特定し、
前記話者情報と前記話者情報に対応する話者の機器の使用履歴とを関連付けて記憶する第１のテーブルを参照し、前記話者情報に対応する話者の機器の使用履歴と前記音声コマンドとに基づいて、前記複数の機器のうちの制御対象機器を特定し、
機器を使用した時刻に関する履歴情報を用いて、前記音声情報を取得した時刻に前記話者の使用頻度の高い機器を優先的に前記制御対象機器として特定する、
機器制御方法。
前記話者情報は、話者の年齢に関する情報を含む、請求項１記載の機器制御方法。
前記話者情報と前記制御対象機器の候補を示す候補機器とを関連付けて記憶する第２のテーブルと、前記音声コマンドと前記候補機器とを関連付けて記憶する第３のテーブルとをそれぞれ参照し、前記第２のテーブル及び前記第３のテーブルの両方に合致する前記候補機器を前記制御対象機器として特定する、
請求項１又は２記載の機器制御方法。
前記第２のテーブル及び前記第３のテーブルの両方に合致する前記候補機器がない場合、制御対象機器が無い旨を通知する、
請求項３記載の機器制御方法。
話者の位置を示す話者位置情報と、前記複数の機器のそれぞれの位置を示す機器位置情報とを取得し、
前記音声コマンドと前記話者情報と前記話者位置情報と前記機器位置情報とに基づいて、前記制御対象機器を特定する、
請求項１〜４のいずれかに記載の機器制御方法。
前記複数の機器の各々にて取得した音声情報に基づいて、前記話者位置情報および、前記機器位置情報を計測する、
請求項５に記載の機器制御方法。
特定した前記制御対象機器に対する制御内容を、前記話者情報に応じて変更する、
請求項１に記載の機器制御方法。
音声によって制御可能な前記複数の機器に関する第１の情報の一覧を表示するように、前記機器に関する情報を表示する表示装置を制御し、
特定の話者に関して音声による機器の制御を受け付けないことを示す第２の情報を、制御を受け付けない機器に対応する前記第１の情報の近傍に表示するように前記表示装置を制御する、
請求項１〜７のいずれかに記載の機器制御方法。
前記制御対象機器を特定した後に、音声を出力する出力部に対し、特定された前記制御対象機器を制御する旨を音声出力する制御コマンドを送信する、
請求項１に記載の機器制御方法。
前記制御対象機器を特定した後に、特定された前記制御対象機器各々に備えられた発光部を発光させるように、前記制御対象機器を制御する、
請求項１に記載の機器制御方法。
音声によって複数の機器を制御する機器制御方法であって、
音声情報を取得し、
取得した前記音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、
取得した前記音声情報に基づいて、取得した前記音声情報を発話した話者に関する話者情報を特定し、
前記音声コマンドと前記話者情報とに基づいて、前記複数の機器のうちの制御対象機器を特定し、
取得した音声情報に基づいて話者を特定する際に、グループごとに個人と音声モデルが関連づけられたテーブルを参照し、
前記グループに属さない者の音声であると特定した場合に、前記音声コマンドによる前記複数の機器への制御指示を行わない、
機器制御方法。