JP2016109933A

JP2016109933A - 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置

Info

Publication number: JP2016109933A
Application number: JP2014248331A
Authority: JP
Inventors: 昌明原田; Masaaki Harada
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2016-06-20

Abstract

【課題】効果的な雑音低減により音声認識率を向上させることができる音声認識方法を提供する。【解決手段】音声認識方法は、ユーザから音声入力を受け付けて音声データを生成するステップ（Ｓ１１）と、互いに異なる雑音の発生を伴う複数の第１処理を示す複数の第１動作モードに対応する複数の第１雑音データを格納している記憶装置から、前記音声入力が受け付けられたときに第１機器により行われていた第１処理を示す第１動作モードに対応する第１雑音データを取得するステップ（Ｓ１４）と、取得された前記第１雑音データを用いて、前記音声データの雑音低減を行うステップ（Ｓ１５）と、前記雑音低減の結果に対して音声認識を行うステップ（Ｓ１６）と、を含む。【選択図】図４

Description

本発明は、音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置に関する。

従来、インターネット網や宅内ネットワークを利用して、家庭にある複数の電子機器を音声で操作したり、電子機器の状態を音声で確認するシステムがある。このシステムでは、ユーザが発する音声を正しく認識するために周辺で発生する雑音の影響を軽減する必要がある。特許文献１および特許文献２には、複数の場所に対応した環境雑音モデルを記憶し、ユーザの現在位置に対応した雑音モデルを利用して雑音をキャンセルすることで音声認識率を高める技術が開示されている。

特開２００８−２４２０６７号公報特開２００８−２５００５９号公報

しかし、同一の場所であっても発生する雑音が変化する場合があるため、音声認識のためのより効果的な雑音低減（ノイズリダクション）の技術が要求されている。

そこで、本発明は、効果的な雑音低減により音声認識率を向上させることができる音声認識方法などを提供する。

本発明の一態様に係る音声認識方法は、ユーザから音声入力を受け付けて音声データを生成するステップと、互いに異なる雑音の発生を伴う複数の第１処理を示す複数の第１動作モードに対応する複数の第１雑音データを格納している記憶装置から、前記音声入力が受け付けられたときに第１機器により行われていた第１処理を示す第１動作モードに対応する第１雑音データを取得するステップと、取得された前記第１雑音データを用いて、前記音声データの雑音低減を行うステップと、前記雑音低減の結果に対して音声認識を行うステップと、を含む。

なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本発明の一態様に係る音声認識方法などによれば、効果的な雑音低減により音声認識率を向上させることができる。

実施の形態１における音声認識システムの使用事例を示す図実施の形態１における音声認識システムの機能構成を示すブロック図実施の形態１における動作モードおよび雑音データの対応関係の一例を示す図実施の形態１における音声認識システムのシーケンス図実施の形態２における音声認識システムの使用事例を示す図実施の形態２における音声認識システムの機能構成を示すブロック図実施の形態２における音声認識システムのシーケンス図実施の形態３における音声制御システムの機能構成を示すブロック図実施の形態３における機器、動作モードおよび雑音データの対応関係の一例を示す図実施の形態３における音声制御システムの音声制御に関するシーケンス図実施の形態３における音声制御システムの雑音データ収集に関するシーケンス図実施の形態４における音声制御システムの機能構成を示すブロック図実施の形態４における機器、場所、動作モードおよび雑音データの対応関係の一例を示す図実施の形態４における音声制御システムの音声制御に関するシーケンス図実施の形態５におけるサービス提供システムの全体像を示す図実施の形態５におけるデータセンタ運営会社の他の一例を示す図実施の形態５におけるデータセンタ運営会社の他の一例を示す図実施の形態５におけるサービスの類型１（自社データセンタ型）を示す図実施の形態５におけるサービスの類型２（ＩａａＳ利用型）を示す図実施の形態５におけるサービスの類型３（ＰａａＳ利用型）を示す図実施の形態５におけるサービスの類型４（ＳａａＳ利用型）を示す図

（本発明の基礎となった知見）
家庭内の機器を音声で手軽に操作するサービスを提供するために、ユーザのいる場所を特定し、その場所で発生する雑音の影響を軽減して音声認識する技術が検討されている。しかし、場所が特定されたとしても、その場所で発生する雑音は時間とともに変化する可能性がある。従来の技術では、このような場所に依存しない雑音を低減することが難しい。

そこで、本発明の一態様に係る音声認識方法は、ユーザから音声入力を受け付けて音声データを生成するステップと、互いに異なる雑音の発生を伴う複数の第１処理を示す複数の第１動作モードに対応する複数の第１雑音データを格納している記憶装置から、前記音声入力が受け付けられたときに第１機器により行われていた第１処理を示す第１動作モードに対応する第１雑音データを取得するステップと、取得された前記第１雑音データを用いて、前記音声データの雑音低減を行うステップと、前記雑音低減の結果に対して音声認識を行うステップと、を含む。

これによれば、音声入力が受け付けられたときに第１機器により行われていた第１処理を示す第１動作モードに対応する第１雑音データを用いて、音声データの雑音低減を行うことができる。したがって、第１機器から発生する雑音が処理に応じて変化する場合に、第１機器が行っている第１処理に対応する雑音データを用いることができるので、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。

例えば、前記音声入力は、前記第１機器によって受け付けられてもよい。

これによれば、音声入力を受け付ける第１機器が雑音の発生を伴う処理を行う場合に、効果的に雑音低減を行うことができる。つまり、雑音の発生を伴う処理を行う機器（例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなど）において受け付けられた音声入力に基づく音声認識率を向上させることができる。

例えば、前記記憶装置は、さらに、互いに異なる雑音の発生を伴う複数の第２処理を示す複数の第２動作モードに対応する複数の第２雑音データを格納しており、前記音声認識方法は、さらに、前記音声入力が受け付けられたときに前記第１機器の周辺に位置する第２機器により行われていた第２処理を示す第２動作モードに対応する第２雑音データを前記記憶装置から取得するステップを含み、前記雑音低減では、取得された前記第１雑音データ、および、取得された前記第２雑音データが用いられてもよい。

これによれば、第１機器により行われていた第１処理に対応する第１雑音データに加えて、第１機器の周辺に位置する第２機器により行われていた第２処理に対応する第２雑音データを用いて、雑音低減を行うことができる。したがって、第２機器から発生する雑音が処理に応じて変化する場合にも、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。

例えば、前記音声認識方法は、さらに、前記第１機器の位置を示す第１位置情報を取得するステップと、前記第１位置情報と、前記第２機器を含む複数の第２機器の各々の位置を示す第２位置情報とを比較することにより、前記複数の第２機器の中から前記第１機器の周辺に位置する前記第２機器を選択するステップと、を含んでもよい。

これによれば、第１機器の第１位置情報と複数の第２機器の各々の第２位置情報とを比較することにより、複数の第２機器の中から第１機器の周辺に位置する第２機器を選択することができる。つまり、複数の第２機器の中から、音声データに雑音成分を与える第２機器を適切に選択することができる。したがって、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。

例えば、前記音声入力は、第２機器によって受け付けられ、前記第１機器は、前記第２機器の周辺に位置してもよい。

これによれば、音声入力を受け付ける第１機器の周辺に位置する第２機器が雑音の発生を伴う処理を行う場合に、効果的に雑音低減を行うことができる。つまり、雑音の発生を伴う処理を行う機器（例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなど）の周辺に位置する機器（例えば、スマートフォン、タブレットコンピュータ、当該機器に専用の音声入力装置など）において受け付けられた音声入力に基づく音声認識率を向上させることができる。

例えば、前記音声認識方法は、さらに、前記音声入力が行われていないときに音を収音して音データを生成するステップと、前記音データに基づく第１雑音データを、前記音が収音されたときに前記第１機器により行われていた第１処理を示す第１動作モードに対応付けて前記記憶装置に格納する格納ステップと、を含んでもよい。

これによれば、音声入力が行われていないときに音を収音して生成された音データに基づいて、第１動作モードに対応する雑音データを収集することができる。したがって、第１機器の設置状況（例えば設置場所、機器の姿勢など）に対応する雑音データを容易に収集することができる。このように収集された雑音データを用いることにより、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。

例えば、前記音声認識の結果に基づいて前記第１機器を制御するステップを含んでもよい。

これによれば、音声認識の結果に基づいて第１機器を制御することができる。つまり、音声認識方法を音声制御システムに応用することができる。

例えば、本発明の一態様に係る音声認識システムは、音声入力装置と音声認識装置とを備える音声認識システムであって、前記音声入力装置は、ユーザから音声入力を受け付けて音声データを生成する音入力部と、前記音声データと、前記音声入力が受け付けられたときに当該音声入力装置により行われていた第１処理を示す第１動作モードとを前記音声認識装置に送信する通信部とを備え、前記音声認識装置は、前記音声入力装置から、前記音声データと前記第１動作モードとを受信する通信部と、互いに異なる雑音の発生を伴う複数の第１処理を示す複数の第１動作モードに対応する複数の第１雑音データを格納している記憶部と、受信された前記第１動作モードに対応する第１雑音データを前記記憶部から取得し、取得された前記第１雑音データを用いて、受信された前記音声データの雑音低減を行う雑音低減部と、前記雑音低減の結果に対して音声認識を行う音声認識部と、を備えてもよい。

また例えば、本発明の一態様に係る音声入力装置は、上記音声認識システムに含まれる音声入力装置であってもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態１）
まず、実施の形態１について、図１〜図４を参照しながら具体的に説明する。

［音声認識システムの構成］
図１は、実施の形態１における音声認識システム１の使用事例を示す図である。

音声認識システム１は、ユーザ９９からの音声入力に基づいて音声認識を行うためのシステムである。音声認識システム１は、音声入力装置１０と、音声認識装置２０とを備える。

音声入力装置１０は、ユーザ９９から音声入力を受け付ける電子機器であって、互いに異なる雑音の発生を伴う複数の処理を行うことができる電子機器である。本実施の形態では、音声入力装置１０は第１機器の一例である。具体的には、音声入力装置１０は、例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなどである。図１では、音声入力装置１０が洗濯機である場合が例として示されている。

音声認識装置２０は、通信ネットワーク（例えばインターネット、ローカルエリアネットワーク）を介して音声入力装置１０と接続されている。具体的には、音声認識装置２０は、例えば、クラウドサーバおよびホームサーバなどである。図１では、音声認識装置２０がクラウドサーバである場合が例として示されている。

［音声認識システムの機能構成］
次に、音声認識システム１の機能構成について説明する。図２は、実施の形態１における音声認識システム１の機能構成を示すブロック図である。

まず、音声入力装置１０について説明する。音声入力装置１０は、図２に示すように、音入力部１１と、通信部１２とを備える。

音入力部１１は、例えばマイクロフォンである。音入力部１１は、ユーザ９９から音声入力を受け付けて音声データを生成する。つまり、音入力部１１は、ユーザ９９の音声を含む音を電気信号（音声データ）に変換する。

通信部１２は、例えば通信アダプタ、通信コントローラなどである。通信部１２は、音入力部１１によって生成された音声データと、当該音声データに対応する音声入力が受け付けられたときに音声入力装置１０により行われていた処理を示す動作モードとを音声認識装置２０に送信する。

動作モードとは、機器（装置）によって行われる処理または機器の動作状態を示す情報である。つまり、動作モードは、雑音の発生を伴う処理に対応する。例えば、動作モードには、注水処理を示す注水モード、洗濯処理を示す洗濯モード、脱水処理を示す脱水モード、乾燥処理を示す乾燥モードなどがある。

次に、音声認識装置２０について説明する。音声認識装置２０は、図２に示すように、記憶部２１と、雑音低減部２２と、音声認識部２３と、通信部２４とを備える。

記憶部２１は、例えば、ハードディスクドライブ、半導体メモリなどである。記憶部２１は、音声入力装置１０の複数の動作モードに対応する複数の雑音データを格納している。

雑音データとは、雑音低減に用いられるデータである。具体的には、雑音データは、対応する動作モードが示す処理によって発生する雑音の特徴を示す。より具体的には、雑音データは、雑音の発生源（例えばモータ、洗濯槽など）から音声入力装置１０の内部または外部を伝わって音入力部１１に到達する雑音の特徴を示す。

図３は、実施の形態１における動作モードおよび雑音データの対応関係の一例を示す図である。図３では、動作モードＡ〜Ｄに対応付けて、雑音データＡ〜Ｄがそれぞれ記憶部２１に格納されている。

雑音低減部２２は、例えば、プロセッサあるいは専用回路などによって実装される。雑音低減部２２は、後述する通信部２４によって音声入力装置１０から受信された動作モードに対応する雑音データを記憶部２１から取得する。言い換えると、雑音低減部２２は、音声入力装置１０によって音声入力が受け付けられたときに当該音声入力装置１０により行われていた処理を示す動作モードに対応する雑音データを記憶部２１から読み出す。

さらに、雑音低減部２２は、記憶部２１から取得された雑音データを用いて、音声入力装置１０から受信された音声データの雑音低減を行う。つまり、雑音低減部２２は、音声データが示す音（音声および雑音を含む）から雑音データが示す雑音を除去する。

音声認識部２３は、例えば、プロセッサあるいは専用回路などによって実装される。音声認識部２３は、雑音低減部２２による雑音低減の結果に対して音声認識を行う。つまり、音声認識部２３は、音声を含む音であって雑音が除去された音を分析することにより、テキストデータを生成する。

通信部２４は、例えば通信アダプタ、通信コントローラなどである。通信部２４は、音声入力装置１０から、音声データと動作モードとを受信する。

［音声認識システムの動作］
次に、以上のように構成された音声認識システム１の動作について説明する。図４は、実施の形態１における音声認識システム１のシーケンス図である。

まず、音声入力装置１０において、音入力部１１は、ユーザ９９から音声入力を受け付けて音声データを生成する（Ｓ１１）。通信部１２は、音声データと、音声入力を受け付けたときに音声入力装置１０により行われていた処理を示す動作モードとを音声認識装置２０に送信する（Ｓ１２）。

次に、音声認識装置２０において、通信部２４は、音声入力装置１０から、音声データおよび動作モードを受信する（Ｓ１３）。雑音低減部２２は、受信された動作モードに対応する雑音データを記憶部２１から取得する（Ｓ１４）。例えば、音声入力装置１０から動作モードＣを受信した場合、雑音低減部２２は、図３に示す記憶部２１から動作モードＣに対応する雑音データＣを取得する。

続いて、雑音低減部２２は、取得された雑音データを用いて音声データの雑音低減を行う（Ｓ１５）。例えば、雑音低減部２２は、音声データから推定されるＳＮ比に基づく係数と雑音データＣとの乗算結果を音声データから減算する。なお、雑音データを用いた雑音低減の方法は、どのような方法であってもよく、特定の方法に限定されない。

音声認識部２３は、雑音低減の結果に対して音声認識を行う（Ｓ１６）。例えば、音声認識部２３は、各母音および各子音の特徴を示す学習データと雑音低減の結果とを比較することにより音声認識を行う。なお、音声認識の方法は、どのような方法であってもよく、特定の方法に限定されない。

音声認識の結果は、例えば、音声入力装置１０の制御内容を決定するために用いられる。例えば、音声認識の結果が「乾燥」を示す場合、音声認識装置２０は、洗濯機（音声入力装置１０）に洗濯物の乾燥を行うための処理を指示する。

また、音声認識の結果は、例えば、音声認識装置２０において提供されるサービスのために用いられてもよい。例えば、音声認識装置２０は、音声認識の結果を蓄積し、蓄積された音声認識の結果をインターネットを介してユーザ９９に提供してもよい。

［効果］
以上のように、本実施の形態における音声認識システム１によれば、音声入力が受け付けられたときに音声入力装置により行われていた処理を示す動作モードに対応する雑音データを用いて、音声データの雑音低減を行うことができる。したがって、音声入力装置から発生する雑音が処理に応じて変化する場合に、音声入力装置が行っている処理に対応する雑音データを用いることができるので、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。

また、本実施の形態における音声認識システム１によれば、音声入力を受け付ける音声入力装置が雑音の発生を伴う処理を行う場合に、効果的に雑音低減を行うことができる。つまり、雑音の発生を伴う処理を行う機器（例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなど）において受け付けられた音声入力に基づく音声認識率を向上させることができる。

（実施の形態２）
次に、実施の形態２について、図５〜図７を参照しながら具体的に説明する。本実施の形態では、音声入力装置と異なる機器が発生した雑音を音声データから除去する点が実施の形態１と異なる。

［音声認識システムの構成］
図５は、実施の形態２における音声認識システム２の使用事例を示す図である。

音声認識システム２は、音声入力装置４０と、音声認識装置５０と、機器６０とを備える。

音声入力装置４０は、ユーザ９９から音声入力を受け付ける電子機器である。本実施の形態では、音声入力装置４０は第２機器の一例である。具体的には、音声入力装置４０は、例えば、スマートフォン、タブレットコンピュータ、機器６０に専用の音声入力装置などである。図５では、音声入力装置４０がスマートフォンである場合が例として示されている。

音声認識装置５０は、通信ネットワーク（例えばインターネット、ローカルエリアネットワーク）を介して音声入力装置４０および機器６０と接続されている。具体的には、音声認識装置５０は、例えば、クラウドサーバおよびホームサーバなどである。図５では、音声認識装置５０がクラウドサーバである場合が例として示されている。

機器６０は、互いに異なる雑音の発生を伴う複数の処理を行うことができる電子機器である。機器６０は、音声入力装置４０の周辺に位置する。つまり、機器６０は、音声入力装置４０によってユーザ９９から音声入力が受け付けられたときに、機器６０から発生した雑音が音声入力装置４０に到達する範囲に位置する。本実施の形態では、機器６０は第１機器の一例である。具体的には、機器６０は、例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなどである。図５では、機器６０が洗濯機である場合が例として示されている。

［音声認識システムの機能構成］
次に、音声認識システム２の機能構成について説明する。図６は、実施の形態２における音声認識システム２の機能構成を示すブロック図である。図６において、図２と同一または類似の構成要素については、同一の符号を付し、適宜説明を省略する。

図６に示すように、音声入力装置４０は、音入力部１１と、通信部４２とを備える。音声認識装置５０は、記憶部２１と、雑音低減部２２と、音声認識部２３と、通信部５４とを備える。機器６０は、通信部６１を備える。

音声入力装置４０の通信部４２は、例えば通信アダプタ、通信コントローラなどである。通信部４２は、音入力部１１によって生成された音声データを音声認識装置５０に送信する。

機器６０の通信部６１は、例えば通信アダプタ、通信コントローラなどである。通信部６１は、機器６０が行っている処理を示す動作モードを音声認識装置５０に送信する。具体的には、通信部６１は、例えば、機器６０の処理が変化したときに、変化後の処理を示す動作モードを音声認識装置５０に送信する。また例えば、通信部６１は、音声認識装置５０からの要求に応じて、現在の処理を示す動作モードを送信してもよい。

音声認識装置５０の通信部５４は、例えば通信アダプタ、通信コントローラなどである。通信部５４は、音声入力装置４０から音声データを受信し、機器６０から動作モードを受信する。

［音声認識システムの動作］
次に、以上のように構成された音声認識システム２の動作について説明する。図７は、実施の形態２における音声認識システム２のシーケンス図である。図７において、図４と同一または類似の処理については、同一の符号を付し、適宜説明を省略する。

機器６０の通信部６１は、機器６０により行われている処理を示す動作モードを送信する（Ｓ２１）。音声認識装置５０の通信部５４は、機器６０から動作モードを受信する（Ｓ２２）。

音声入力装置４０の通信部４２は、ステップＳ１１において生成された音声データを音声認識装置５０に送信する（Ｓ２３）。音声認識装置５０の通信部５４は、音声入力装置４０から音声データを受信する（Ｓ２４）。

音声認識装置５０は、音声入力装置４０から受信した音声データと、機器６０から受信した動作モードとを用いて、実施の形態１と同様に、雑音低減および音声認識を行う（Ｓ１４〜Ｓ１６）。

［効果］
以上のように、本実施の形態における音声認識システム２によれば、音声入力を受け付ける音声入力装置の周辺に位置する機器が雑音の発生を伴う処理を行う場合に、効果的に雑音低減を行うことができる。つまり、雑音の発生を伴う処理を行う機器（例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなど）の周辺に位置する機器（例えば、スマートフォン、タブレットコンピュータ、当該機器に専用の音声入力装置など）において受け付けられた音声入力に基づく音声認識率を向上させることができる。

（実施の形態３）
次に、実施の形態３について、図８〜図１１を参照しながら具体的に説明する。本実施の形態では、実施の形態１における音声認識システムの応用例として音声制御システムについて説明する。

［音声制御システムの機能構成］
図８は、実施の形態３における音声制御システムの機能構成を示すブロック図である。音声制御システムは、複数の機器１０１と、クラウドサーバ１１１とを備える。

まず、複数の機器１０１について説明する。

複数の機器１０１の各々は、雑音の発生を伴う少なくとも１つの処理を行うことができる電子機器である。具体的には、複数の機器１０１は、例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなどを含む。

ここでは、機器Ａおよび機器Ｂが複数の機器１０１に含まれる。以下に、複数の機器１０１に共通する機能を、機器Ａを用いて説明する。

機器Ａは、第１機器の一例である。機器Ａは、音入力部１０１０と、操作入力部１０１１と、出力部１０１２と、通信部１０１３と、制御部１０１４とを備える。

音入力部１０１０は、ユーザ９９から音声入力を受け付けて音声データを生成する。本実施の形態では、音入力部１０１０は、自機器（機器Ａ）の制御のための音声入力を受け付ける。

さらに、音入力部１０１０は、ユーザ９９から音声入力を受け付けていないときに音を収音して音データを生成する。つまり、音入力部１０１０は、機器Ａが発する雑音を含む音であってユーザの音声を含まない音を、音データに変換する。

操作入力部１０１１は、ユーザ９９から音声とは異なる入力（以下、操作入力と呼ぶ）を受け付ける。操作入力は、例えば、ユーザ９９の指などを用いた入力である。操作入力部１０１１は、例えば、タッチスクリーン、操作ボタン、操作ダイヤルなどによって実装される。本実施の形態では、操作入力部１０１１は、ユーザ９９から動作モードの選択および音声入力の開始指示などを受け付ける。

出力部１０１２は、ユーザ９９に情報を出力する。出力部１０１２は、例えば、ディスプレイ、タッチスクリーン、ＬＥＤランプ、スピーカなどによって実装される。出力部１０１２は、例えば、音声入力の受け付け開始を示す情報、音声認識の結果、音声認識の結果に基づく制御内容などを出力する。

通信部１０１３は、例えば通信アダプタ、通信コントローラなどである。通信部１０１３は、音入力部１０１０によって生成された音声データと、音声入力が受け付けられたときに機器Ａにより行われていた処理を示す動作モードとをクラウドサーバ１１１に送信する。また、通信部１０１３は、音入力部１０１０によって生成された音データと、当該音データに対応する音が収音されたときに機器Ａにより行われていた処理を示す動作モードとをクラウドサーバ１１１に送信する。さらに、通信部１０１３は、クラウドサーバ１１１から制御情報を受信する。

制御部１０１４は、機器Ａを制御するコントローラである。制御部１０１４は、例えば、プロセッサあるいは専用回路などによって実装される。本実施の形態では、制御部１０１４は、操作入力部１０１１によって受け付けられた操作入力、あるいは、クラウドサーバ１１１から受信した制御情報に基づいて機器Ａを制御する。

次に、クラウドサーバ１１１について説明する。クラウドサーバ１１１は、通信部１１１１と、データ処理部１１１２と、記憶部１１１３と、機器制御部１１１４とを備える。

通信部１１１１は、複数の機器１０１から、機器ＩＤ、音声データおよび動作モードを受信する。さらに、通信部１１１１は、機器制御部１１１４から取得した制御情報を対応する機器に送信する。

データ処理部１１１２は、例えば、プロセッサあるいは専用回路などによって実装される。データ処理部１１１２は、実施の形態１における雑音低減部２２および音声認識部２３の機能を含む。

具体的には、データ処理部１１１２は、機器Ａから受信された機器ＩＤおよび動作モードに対応する雑音データを、後述する記憶部１１１３から取得する。そして、データ処理部１１１２は、取得された雑音データを用いて、機器Ａから受信された音声データの雑音低減を行う。さらに、データ処理部１１１２は、雑音低減の結果に対して音声認識を行う。

また、データ処理部１１１２は、機器Ａから受信された音データに基づく雑音データを、受信された動作モードを対応付けて記憶部１１１３に格納する。つまり、データ処理部１１１２は、音データに基づく雑音データを、収音されたときに機器Ａにより行われていた処理を示す動作モードに対応付けて記憶部１１１３に格納する。

音データに基づく雑音データとは、音データから得られるデータである。例えば、音データに基づく雑音データは、音データそのものであってもよい。また例えば、音データに基づく雑音データは、音データから導出される雑音の特徴を示すデータであってもよい。

記憶部１１１３は、例えば、ハードディスクドライブ、半導体メモリなどである。記憶部１１１３は、複数の機器１０１の各々について、複数の動作モードに対応する複数の雑音データを格納している。図９は、実施の形態３における機器、動作モードおよび雑音データの対応関係の一例を示す図である。図９では、例えば、機器Ａの動作モードＡに対応付けて、雑音データＡＡが記憶部２１に格納されている。

機器制御部１１１４は、音声認識の結果に基づいて機器を制御する。具体的には、機器制御部１１１４は、音声認識の結果に基づいて、機器Ａの制御内容を決定し、決定された制御内容を示す制御情報を、通信部１１１１を介して機器Ａに送信する。

［音声制御システムの動作］
次に、以上のように構成された音声制御システムの動作について説明する。

まず、機器Ａがユーザ９９から音声入力を受け付ける場合の音声制御システムの動作について、図１０を用いて説明する。図１０は、実施の形態３における音声制御システムの音声制御に関するシーケンス図である。

まず、ユーザ９９は、操作入力部１０１１を介して、操作入力を行う（Ｓ１０１）。つまり、機器Ａの操作入力部１０１１は、ユーザ９９から、指などを用いた操作入力を受け付け、その操作入力に基づく操作指示情報を制御部１０１４に通知する。ここでは、ユーザ９９は、処理Ａ〜Ｃ（注水から脱水まで）を機器Ａに行わせるための操作入力を行う。

それから、制御部１０１４は、操作指示情報に基づいて機器Ａの動作モードを決定し、機器Ａの制御を行う。図１０では、機器Ａに処理Ａ〜Ｃ（注水から脱水まで）を順に実行させる。

具体的には、制御部１０１４は、まず、動作モードＡを設定し、機器Ａに処理Ａ（注水）を開始させ、終了させる（Ｓ１０２、Ｓ１０３）。続いて、制御部１０１４は、動作モードＡを動作モードＢに切り替え、機器Ａに処理Ｂ（洗濯）を開始させ、終了させる（Ｓ１０４、Ｓ１０５）。さらに、制御部１０１４は、動作モードＢを動作モードＣに切り替え、機器Ａに処理Ｃ（脱水）を開始させる（Ｓ１０６）。

ここで、機器Ａが処理Ｃを実行中に、ユーザ９９は、音入力部１０１０を介して、音声入力を行う（Ｓ１０７）。つまり、機器Ａの音入力部１０１０は、処理Ｃによって雑音が発生しているときに、ユーザ９９から、音声入力を受け付けて音声データを生成する。したがって、この音声データには、処理Ｃ（脱水）によって発生した雑音の成分が含まれる。

機器Ａの通信部１０１３は、生成された音声データと、機器Ａを示す機器ＩＤ（機器Ａ）と、音声入力を受け付けたときに機器Ａにより行われていた処理を示す動作モード（動作モードＣ）とをクラウドサーバ１１１に送信する。

クラウドサーバ１１１のデータ処理部１１１２は、機器Ａからの機器ＩＤおよび動作モードの組合せに対応する雑音データを記憶部１１１３から取得する（Ｓ１０８）。ここでは、データ処理部１１１２は、機器Ａおよび動作モードＣの組合せに対応する雑音データＡＣを取得する。

続いて、データ処理部１１１２は、取得した雑音データを用いて、機器Ａから受信した音声データの雑音低減を行う（Ｓ１０９）。さらに、データ処理部１１１２は、雑音低減の結果に対して音声認識を行う（Ｓ１１０）。

クラウドサーバ１１１の機器制御部１１１４は、音声認識の結果に基づいて制御内容を決定する（Ｓ１１１）。クラウドサーバ１１１の通信部１１１１は、決定された制御内容を示す制御情報を機器Ａに送信する。機器Ａは、決定された制御内容に従って制御される。つまり、機器制御部１１１４は、音声認識の結果に基づいて機器Ａを制御する。ここでは、機器制御部１１１４は、音声認識の結果に基づいて処理Ｄ（乾燥）の追加を決定し、処理Ｃの後に処理Ｄが実行されるように機器Ａを制御する。

この後、機器Ａの制御部１０１４は、機器Ａに処理Ｃを終了させる（Ｓ１１２）。制御部１０１４は、処理Ｄの追加を示す制御情報に従って、動作モードＣを動作モードＤに切り替え、機器Ａに処理Ｄ（乾燥）を開始させ、終了させる（Ｓ１１３、Ｓ１１４）。処理Ｄの終了後、出力部１０１２は、すべての処理の完了をユーザ９９に通知する。

次に、機器Ａの雑音データを収集する場合の音声制御システムの動作について、図１１を用いて説明する。図１１は、実施の形態３における音声制御システムの雑音データ収集に関するシーケンス図である。なお、図１１において、図１０と同一または類似の処理については、同一の符号を付し、適宜説明を省略する。

まず、ユーザ９９は、操作入力部１０１１を介して操作入力を行う（Ｓ１２１）。つまり、機器Ａの操作入力部１０１１は、ユーザ９９から、指などを用いた操作入力を受け付け、その操作入力に基づく操作指示情報を制御部１０１４に通知する。ここでは、ユーザ９９は、処理Ａ〜Ｄ（注水から乾燥まで）の実行を指示するための操作入力と、雑音データの収集を指示するための操作入力とを行う。

機器Ａの音入力部１０１０は、処理Ａが実行されている間に音を収音して音データＡを生成する。つまり、音入力部１０１０は、音声入力が行われていないときに音を収音して音データＡを生成する。そして、機器Ａの通信部１０１３は、生成された音データＡと、機器Ａを示す機器ＩＤ（機器Ａ）と、音を収音したときに機器Ａにより行われていた処理を示す動作モード（動作モードＡ）とをクラウドサーバ１１１に送信する。

クラウドサーバ１１１のデータ処理部１１１２は、音データＡに基づく雑音データＡＡを、音が収音されたときに機器Ａにより行われていた処理Ａを示す動作モードＡに対応付けて記憶部１１１３に格納する（Ｓ１２２）。

さらに、機器Ａの音入力部１０１０は、処理Ｂが実行されている間に音を収音して音データＢを生成する。そして、機器Ａの通信部１０１３は、生成された音データＢと、機器Ａを示す機器ＩＤ（機器Ａ）と、音を収音したときに機器Ａにより行われていた処理を示す動作モード（動作モードＢ）とをクラウドサーバ１１１に送信する。

クラウドサーバ１１１のデータ処理部１１１２は、音データＢに基づく雑音データＡＢを動作モードＢに対応付けて記憶部１１１３に格納する（Ｓ１２３）。

さらに、機器Ａの音入力部１０１０は、処理Ｃが実行されている間に音を収音して音データＣを生成する。そして、機器Ａの通信部１０１３は、生成された音データＣと、機器Ａを示す機器ＩＤ（機器Ａ）と、音を収音したときに機器Ａにより行われていた処理を示す動作モード（動作モードＣ）とをクラウドサーバ１１１に送信する。

クラウドサーバ１１１のデータ処理部１１１２は、音データＣに基づく雑音データＡＣを動作モードＣに対応付けて記憶部１１１３に格納する（Ｓ１２４）。

さらに、機器Ａの音入力部１０１０は、処理Ｄが実行されている間に音を収音して音データＤを生成する。そして、機器Ａの通信部１０１３は、生成された音データＤと、機器Ａを示す機器ＩＤ（機器Ａ）と、音を収音したときに機器Ａにより行われていた処理を示す動作モード（動作モードＤ）とをクラウドサーバ１１１に送信する。

クラウドサーバ１１１のデータ処理部１１１２は、音データＤに基づく雑音データＡＤを動作モードＤに対応付けて記憶部１１１３に格納する（Ｓ１２５）。

［効果］
以上のように、本実施の形態における音声制御システムによれば、音声認識の結果に基づいて機器を制御することができる。つまり、音声認識方法を音声制御システムに応用することができる。

また、本実施の形態における音声制御システムによれば、音声入力が行われていないときに音を収音して生成された音データに基づいて、動作モードに対応する雑音データを収集することができる。したがって、機器の設置状況（例えば設置場所、機器の姿勢など）に対応する雑音データを容易に収集することができる。このように収集された雑音データを用いることにより、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。

（実施の形態４）
次に、実施の形態４について、図１２〜図１４を参照しながら具体的に説明する。本実施の形態では、音声入力を受け付けた機器が発生する雑音に加えて、当該機器の周辺に位置する機器が発生する雑音にも基づいて雑音低減を行う点が、実施の形態３と異なる。以下に、本実施の形態における音声制御システムについて、実施の形態３における音声制御システムと異なる点を中心に説明する。

［音声制御システムの機能構成］
図１２は、実施の形態４における音声制御システムの機能構成を示すブロック図である。図１２において、図８と実質的に同一の構成要素については同じ符号を付し、適宜説明を省略する。

音声制御システムは、複数の機器１０１と、クラウドサーバ２１１とを備える。クラウドサーバ２１１は、通信部１１１１と、データ処理部２１１２と、記憶部２１１３と、機器制御部１１１４とを備える。

複数の機器１０１は、少なくとも機器Ａ〜Ｄを含む。ここでは、機器Ａは、第１機器の一例である。また、機器Ｂは、第２機器の一例である。また、機器Ｂ〜Ｄは、複数の第２機器の一例である。

データ処理部２１１２は、例えば、プロセッサあるいは専用回路などによって実装される。データ処理部２１１２は、実施の形態３におけるデータ処理部１１１２と同様に、機器Ａから受信された機器ＩＤおよび動作モードの組合せに対応する雑音データを記憶部２１１３から取得する。つまり、データ処理部２１１２は、音声入力が受け付けられたときに機器Ａに設定されていた動作モードに対応する雑音データを記憶部２１１３から取得する。

さらに、本実施の形態では、データ処理部２１１２は、音声入力が受け付けられたときに、機器Ｂにより行われていた処理を示す動作モードに対応する雑音データを記憶部２１１３から取得する。ここで、機器Ｂは、機器Ａの周辺に位置する。つまり、機器Ｂは、当該機器Ｂから発生した雑音が機器Ａに到達する範囲に位置する。

具体的には、データ処理部２１１２は、機器Ａの位置を示す位置情報を取得する。そして、データ処理部２１１２は、取得された機器Ａの位置情報と、複数の機器１０１の各々の位置を示す位置情報とを比較することにより、複数の機器１０１の中から機器Ａの周辺に位置する機器Ｂを選択する。データ処理部２１１２は、音声入力が受け付けられたときに、選択された機器Ｂにより行われていた処理を示す動作モードに対応する雑音データを記憶部２１１３から取得する。

さらに、データ処理部２１１２は、記憶部２１１３から取得された、機器Ａの雑音データおよび機器Ｂの雑音データを用いて、機器Ａから受信された音声データの雑音低減を行う。そして、データ処理部２１１２は、実施の形態３のデータ処理部１１１２と同様に、雑音低減の結果に対して音声認識を行う。

記憶部２１１３は、例えば、ハードディスクドライブ、半導体メモリなどによって実装される。記憶部２１１３は、実施の形態３の記憶部１１１３と同様に、複数の機器１０１の各々について、複数の動作モードに対応する複数の雑音データを格納している。さらに、本実施の形態では、記憶部２１１３は、複数の機器１０１の各々の位置を示す位置情報を格納している。

図１３は、実施の形態４における機器、場所、動作モードおよび雑音データの対応関係の一例を示す図である。図１３では、図９に比べて、機器の場所（位置情報）が追加されている。本実施の形態では、データ処理部２１１２は、この図１３に示す対応関係を参照して、機器Ａの位置情報と、複数の機器１０１の各々の位置を示す位置情報とを比較する。

［音声制御システムの動作］
次に、以上のように構成された音声制御システムの動作について説明する。ここでは、機器Ａが電子レンジである場合を例として説明する。図１４は、実施の形態４における音声制御システムの音声制御に関するシーケンス図である。

ユーザ９９は、操作入力部１０１１を介して操作入力を行う（Ｓ２０１）。つまり、機器Ａの操作入力部１０１１は、ユーザ９９から、指などを用いた操作入力を受け付け、その操作入力に基づく操作指示情報を制御部１０１４に通知する。ここでは、ユーザ９９は、機器Ａ（電子レンジ）に処理Ｃ（グリル）を指示するための操作入力を行う。

機器Ａの制御部１０１４は、操作指示情報に基づいて機器Ａの制御を行う。図１４では、制御部１０１４は、機器Ａに処理Ｃを開始させる（Ｓ２０２）。

一方、機器Ｂ（食洗機）は、処理Ａ（洗浄）を開始する（Ｓ２０３）。このとき、機器Ｂを示す機器ＩＤ（機器Ｂ）と、現在の処理（処理Ａ）を示す動作モード（動作モードＡ）とがクラウドサーバ２１１に送信される。

ここで、機器Ａが処理Ｃを実行中、かつ、機器Ｂが処理Ａを実行中に、ユーザ９９は、機器Ａの音入力部１０１０を介して音声入力を行う（Ｓ２０４）。つまり、機器Ａの音入力部１０１０は、機器Ａの処理Ｃおよび機器Ｂの処理Ａによって雑音が発生しているときに、ユーザ９９から、音声入力を受け付けて音声データを生成する。したがって、この音声データには、機器Ａの処理Ｃによる雑音成分および機器Ｂの処理Ａによる雑音成分が含まれる。

クラウドサーバ２１１のデータ処理部２１１２は、複数の機器１０１の中から機器Ａの周辺に位置する機器Ｂを選択する（Ｓ２０５）。具体的には、データ処理部２１１２は、機器Ａから受信した機器ＩＤに対応する位置情報を記憶部２１１３から取得する。そして、データ処理部２１１２は、記憶部２１１３に格納された対応関係を参照することにより、取得された位置情報（キッチン）に対応する機器Ｂ（食洗機）を選択する。

次に、クラウドサーバ２１１のデータ処理部２１１２は、機器Ａからの機器ＩＤおよび動作モードの組合せに対応する雑音データと、選択された機器および動作モードの組合せに対応する雑音データとを記憶部２１１３から取得する（Ｓ２０６）。ここでは、データ処理部２１１２は、機器Ａおよび動作モードＣの組合せに対応する雑音データＡＣと、機器Ｂおよび動作モードＡの組合せに対応する雑音データＢＡとを取得する。

続いて、データ処理部２１１２は、取得した雑音データ（雑音データＡＣおよび雑音データＢＡ）を用いて、機器Ａから受信した音声データの雑音低減を行う（Ｓ２０７）。さらに、データ処理部２１１２は、雑音低減の結果に対して音声認識を行う（Ｓ２０８）。

クラウドサーバ２１１の機器制御部１１１４は、音声認識の結果に基づいて制御内容を決定する（Ｓ２０９）。ここでは、機器制御部１１１４は、音声認識の結果に基づいて処理Ｃの時間の延長を決定する。

クラウドサーバ２１１の通信部１１１１は、決定された制御内容を示す制御情報を機器Ａに送信する。この制御情報に基づいて機器Ａが制御される。つまり、機器制御部１１１４は、音声認識の結果に基づいて、処理Ｃの時間が延長されるように機器Ａを制御する。

機器Ａの制御部１０１４は、処理Ｃの時間の延長を示す制御情報に従って、処理Ｃの時間を延長した後に処理Ｃを終了させる（Ｓ２１０）。処理Ｃの終了後、出力部１０１２は、処理Ｃの完了をユーザ９９に通知する。

一方、機器Ｂでは、処理Ａが終了されたときに、機器Ｂを示す機器ＩＤ（機器Ｂ）と、現在の動作モード（動作モードなし）とがクラウドサーバ２１１に送信される（Ｓ２１１）。

［効果］
以上のように、本実施の形態における音声制御システムによれば、機器Ａにより行われていた処理に対応する雑音データに加えて、機器Ａの周辺に位置する機器Ｂにより行われていた処理に対応する雑音データを用いて、雑音低減を行うことができる。したがって、機器Ｂから発生する雑音が処理に応じて変化する場合にも、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。

また、本実施の形態における音声制御システムによれば、機器Ａの位置情報と複数の機器の各々の位置情報とを比較することにより、複数の機器の中から機器Ａの周辺に位置する機器Ｂを選択することができる。つまり、複数の機器の中から、音声データに雑音成分を与える機器Ｂを適切に選択することができる。したがって、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。

（実施の形態５）
次に、実施の形態５について、図１５Ａから図１９を参照しながら具体的に説明する。本実施の形態では、音声制御を含むサービスを提供するサービス提供システムについて説明する。なお、図１５Ａ〜図１９において、上記実施の形態３における音声制御システムと同一および類似の機能を有する構成要素については、同一の符号を付し、適宜説明を省略する。

［提供するサービスの全体像］
図１５Ａには、実施の形態５におけるサービス提供システムの全体像が示されている。

グループ１００は、例えば企業、団体、家庭等であり、その規模を問わない。グループ１００には、複数の機器１０１である機器Ａ、機器Ｂおよびホームゲートウェイ１０２が存在する。複数の機器１０１には、インターネットと接続可能な機器（例えば、スマートフォン、ＰＣ、ＴＶ等）もあれば、それ自身ではインターネットと接続不可能な機器（例えば、照明、洗濯機、冷蔵庫等）も存在する。それ自身ではインターネットと接続不可能な機器であっても、ホームゲートウェイ１０２を介してインターネットと接続可能となる機器が存在してもよい。またグループ１００には複数の機器１０１を使用するユーザ９９Ａが存在する。

データセンタ運営会社１１０には、クラウドサーバ１１１が存在する。クラウドサーバ１１１とはインターネットを介して様々な機器と連携する仮想化サーバである。主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ（ビッグデータ）等を管理する。データセンタ運営会社１１０は、データ管理やクラウドサーバ１１１の管理、それらを行うデータセンタの運営等を行っている。データセンタ運営会社１１０が行っている役務については詳細を後述する。ここで、データセンタ運営会社１１０は、データ管理やクラウドサーバ１１１の運営等のみを行っている会社に限らない。例えば複数の機器１０１のうちの１つの機器を開発・製造している機器メーカが、併せてデータ管理やクラウドサーバ１１１の管理等を行っている場合は、機器メーカがデータセンタ運営会社１１０に該当する（図１５Ｂ）。また、データセンタ運営会社１１０は１つの会社に限らない。例えば機器メーカおよび他の管理会社が共同もしくは分担してデータ管理やクラウドサーバ１１１の運営を行っている場合は、両者もしくはいずれか一方がデータセンタ運営会社１１０に該当するものとする（図１５Ｃ）。

サービスプロバイダ１２０は、サーバ１２１を保有している。ここで言うサーバ１２１とは、その規模は問わず例えば、個人用ＰＣ内のメモリ等も含む。また、サービスプロバイダがサーバ１２１を保有していない場合もある。

なお、上記サービスにおいてホームゲートウェイ１０２は必須ではない。例えば、クラウドサーバ１１１が全てのデータ管理を行っている場合等は、ホームゲートウェイ１０２は不要となる。また、家庭内のあらゆる機器がインターネットに接続されている場合のように、それ自身ではインターネットと接続不可能な機器は存在しない場合もある。

次に、上記サービスにおける情報の流れを説明する。

まず、グループ１００の機器Ａまたは機器Ｂは、各ログ情報をデータセンタ運営会社１１０のクラウドサーバ１１１に送信する。クラウドサーバ１１１は機器Ａまたは機器Ｂのログ情報を集積する（図１５Ａの（ａ））。ここで、ログ情報とは複数の機器１０１の、例えば運転状況や動作日時、動作モード、位置等を示す情報である。例えば、テレビの視聴履歴やレコーダーの録画予約情報、洗濯機の運転日時・洗濯物の量、冷蔵庫の開閉日時・開閉回数などであるが、これらのものに限らずあらゆる機器から取得が可能なすべての情報をいう。ログ情報は、インターネットを介して複数の機器１０１自体から直接クラウドサーバ１１１に提供される場合もある。また複数の機器１０１から一旦ホームゲートウェイ１０２にログ情報が集積され、ホームゲートウェイ１０２からクラウドサーバ１１１に提供されてもよい。

次に、データセンタ運営会社１１０のクラウドサーバ１１１は、集積したログ情報を一定の単位でサービスプロバイダ１２０に提供する。ここで、データセンタ運営会社が集積した情報を整理してサービスプロバイダ１２０に提供することのできる単位でもいいし、サービスプロバイダ１２０が要求した単位でもいい。一定の単位と記載したが一定でなくてもよく、状況に応じて提供する情報量が変化する場合もある。前記ログ情報は、必要に応じてサービスプロバイダ１２０が保有するサーバ１２１に保存される（図１５Ａの（ｂ））。そして、サービスプロバイダ１２０は、ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。提供するユーザは、複数の機器１０１を使用するユーザ９９Ａでもよいし、外部のユーザ９９Ｂでもよい。ユーザへのサービス提供方法は、例えば、サービスプロバイダから直接ユーザへ提供されてもよい（図１５Ａの（ｂ）、（ｅ））。また、ユーザへのサービス提供方法は、例えば、データセンタ運営会社１１０のクラウドサーバ１１１を再度経由して、ユーザに提供されてもよい（図１５Ａの（ｃ）、（ｄ））。また、データセンタ運営会社１１０のクラウドサーバ１１１がログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ１２０に提供してもよい。

なお、ユーザ９９Ａとユーザ９９Ｂとは、別でも同一でもよい。

上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現される類型はこれに限られるものでない。

［サービスの類型１：自社データセンタ型］
図１６は、サービスの類型１（自社データセンタ型）を示す。本類型は、サービスプロバイダ１２０がグループ１００から情報を取得し、ユーザに対してサービスを提供する類型である。本類型では、サービスプロバイダ１２０が、データセンタ運営会社の機能を有している。即ち、サービスプロバイダが、ビッグデータの管理をするクラウドサーバ１１１を保有している。従って、データセンタ運営会社は存在しない。

本類型では、サービスプロバイダ１２０は、データセンタ９０３（クラウドサーバ１１１）を運営、管理している。また、サービスプロバイダ１２０は、ＯＳ９０２およびアプリケーション９０１を管理する。サービスプロバイダ１２０は、サービスプロバイダ１２０が管理するＯＳ９０２およびアプリケーション９０１を用いてサービス９０４の提供を行う。

［サービスの類型２：ＩａａＳ利用型］
図１７は、サービスの類型２（ＩａａＳ利用型）を示す。ここでＩａａＳとはインフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築および稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社がデータセンタ９０３（クラウドサーバ１１１）を運営、管理している。また、サービスプロバイダ１２０は、ＯＳ９０２およびアプリケーション９０１を管理する。サービスプロバイダ１２０は、サービスプロバイダ１２０が管理するＯＳ９０２およびアプリケーション９０１を用いてサービス９０４の提供を行う。

［サービスの類型３：ＰａａＳ利用型］
図１８は、サービスの類型３（ＰａａＳ利用型）を示す。ここでＰａａＳとはプラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築および稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社１１０は、ＯＳ９０２を管理し、データセンタ９０３（クラウドサーバ１１１）を運営、管理している。また、サービスプロバイダ１２０は、アプリケーション９０１を管理する。サービスプロバイダ１２０は、データセンタ運営会社が管理するＯＳ９０２およびサービスプロバイダ１２０が管理するアプリケーション９０１を用いてサービス９０４の提供を行う。

［サービスの類型４：ＳａａＳ利用型］
図１９は、サービスの類型４（ＳａａＳ利用型）を示す。ここでＳａａＳとはソフトウェア・アズ・ア・サービスの略である。例えばデータセンタ（クラウドサーバ）を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ（クラウドサーバ）を保有していない会社・個人（利用者）がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社１１０は、アプリケーション９０１を管理し、ＯＳ９０２を管理し、データセンタ９０３（クラウドサーバ１１１）を運営、管理している。また、サービスプロバイダ１２０は、データセンタ運営会社１１０が管理するＯＳ９０２およびアプリケーション９０１を用いてサービス９０４の提供を行う。

以上いずれの類型においても、サービスプロバイダ１２０がサービス提供行為を行ったものとする。また例えば、サービスプロバイダもしくはデータセンタ運営会社は、ＯＳ、アプリケーションもしくはビックデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。

（他の実施の形態）
以上、１つまたは複数の態様に係る音声認識システムおよび音声制御システムについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、１つまたは複数の態様の範囲内に含まれてもよい。

例えば、実施の形態２と実施の形態４とが組合せられてもよい。具体的には、実施の形態４において、機器Ａの動作モードに対応する雑音データが雑音低減に用いられなくてもよい。つまり、機器Ａの周辺に位置する機器Ｂの動作モードに対応する雑音データのみが雑音低減に用いられてもよい。

なお、上記各実施の形態において、音声認識装置またはクラウドサーバが雑音低減および音声認識を行っていたが、これに限定されない。例えば、音声認識装置またはクラウドサーバの一部の構成要素は、音声入力装置または機器Ａに含まれてもよい。例えば、実施の形態１において、音声入力装置１０は、記憶部２１、雑音低減部２２および音声認識部２３を備えてもよい。つまり、音声入力装置１０に音声認識装置２０が含まれてもよい。この場合、音声データおよび動作モードの送信（図４のＳ１２）および受信（図４のＳ１３）は実行されなくてもよい。また例えば、実施の形態１において、音声入力装置１０は、記憶部２１および雑音低減部２２を備え、音声データおよび動作モードの代わりに、雑音低減部２２による雑音低減の結果を、音声認識装置２０に送信してもよい。

なお、上記実施の形態１において、動作モードは、音声データと一緒に送信されていたが、これに限定されない。動作モードは、音声データとは異なるタイミングに送信されてもよい。例えば、音声入力装置１０は、処理を変更するときに動作モードを音声認識装置２０に送信してもよい。つまり、音声認識装置２０は、音声入力の有無に関わらず、音声入力装置１０における現在の動作モードを取得してもよい。

なお、上記実施の形態２の図７において、機器６０による動作モードの送信（Ｓ２１）は、音声入力装置４０による音声データの送信（Ｓ２３）の後に行われてもよい。つまり、動作モードの送信（Ｓ２１）および受信（Ｓ２２）は、雑音データの取得（Ｓ１４）の前に行われれば、どのようなタイミングで行われてもよい。

また、上記実施の形態２の図７において、動作モードは、機器６０から音声認識装置５０に送信されていたが、音声入力装置４０から音声データと一緒に送信されてもよい。この場合、音声入力装置４０は、機器６０から動作モードを受信し、受信した動作モードを音声データとともに音声認識装置５０に送信すればよい。また、図７において、音声データは、音声入力装置４０から音声認識装置５０に送信されていたが、機器６０から動作モードと一緒に送信されてもよい。この場合、機器６０は、音声入力装置４０から音声データを受信し、受信した音声データを動作モードとともに送信すればよい。

なお、上記実施の形態３において、機器Ａは、ユーザから、雑音データの収集を指示するための操作入力を受け付けていたが、これに限定されない。例えば、機器Ａは、ユーザからの指示に関わらず、雑音データの収集のための処理を行うか否かを自動的に決定してもよい。

具体的には、以下のように雑音データの収集のための処理を行うか否かが決定されてもよい。

例えば、機器Ａは、雑音データのための音データをクラウドサーバ１１１に既に送信したか否かを判定し、音データがまだ送信されていない場合に、雑音データの収集のための処理を行うと決定してもよい。この場合、機器Ａは、雑音データのための音データをクラウドサーバ１１１に既に送信したか否かを示す情報を動作モードごとに保持してもよい。

また例えば、機器Ａは、クラウドサーバ１１１からの指示に基づいて、雑音データの収集のための処理を行うか否かを決定してもよい。具体的には、機器Ａは、まず、処理を開始する際に、当該処理を示す動作モードをクラウドサーバ１１１に送信する。続いて、クラウドサーバ１１１は、機器Ａから受信した動作モードに対応する雑音データが記憶部１１１３に格納されているか否かを判定する。ここで、雑音データが記憶部１１１３に格納されていない場合、クラウドサーバ１１１は、雑音データの収集のための処理の実行を機器Ａに指示する。

なお、上記実施の形態３および４において、複数の機器１０１の各々が音入力部を備えていたが、これに限定されない。つまり、複数の機器１０１のうちの少なくとも１つが音入力部を備えればよい。この場合、音入力部を備えない機器が発生する雑音は、音入力部を備える機器によって収集されればよい。

なお、上記実施の形態４において、機器の位置情報は、クラウドサーバの記憶部に格納されていたが、これに限定されない。例えば、機器Ａが移動する場合、クラウドサーバは、音声データとともに機器Ａの位置情報を機器Ａから取得してもよい。また、機器Ｂが移動する場合、クラウドサーバは、機器Ａから音声データを受信した後に、機器Ｂから機器Ｂの位置情報を取得してもよい。

なお、上記実施の形態４において、機器Ａの周辺に位置する機器Ｂの雑音データが雑音低減に用いられたが、１つの機器に限定されない。つまり、２以上の機器が機器Ａの周辺に位置する場合、当該２以上の機器の雑音データが雑音低減に用いられてもよい。

なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の音声認識方法などを実現するソフトウェアは、次のようなプログラムである。

すなわち、このプログラムは、コンピュータに、ユーザから音声入力を受け付けて音声データを生成するステップと、互いに異なる雑音の発生を伴う複数の第１処理を示す複数の第１動作モードに対応する複数の第１雑音データを格納している記憶装置から、前記音声入力が受け付けられたときに第１機器により行われていた第１処理を示す第１動作モードに対応する第１雑音データを取得するステップと、取得された前記第１雑音データを用いて、前記音声データの雑音低減を行うステップと、前記雑音低減の結果に対して音声認識を行うステップと、を実行させる。

本発明の一態様に係る音声認識システムおよび音声制御システムは、機器の動作モードに応じた雑音低減を行うシステムとして有用である。

１、２音声認識システム
１０、４０音声入力装置
１１、１０１０音入力部
１２、２４、４２、５４、６１、１０１３、１１１１通信部
２０、５０音声認識装置
２１、１１１３、２１１３記憶部
２２雑音低減部
２３音声認識部
６０機器
９９、９９Ａ、９９Ｂユーザ
１００グループ
１０１複数の機器
１０２ホームゲートウェイ
１１０データセンタ運営会社
１１１、２１１クラウドサーバ
１２０サービスプロバイダ
１２１サーバ
９０１アプリケーション
９０２ＯＳ
９０３データセンタ
９０４サービス
１０１１操作入力部
１０１２出力部
１０１４制御部
１１１２、２１１２データ処理部
１１１４機器制御部

Claims

ユーザから音声入力を受け付けて音声データを生成するステップと、
互いに異なる雑音の発生を伴う複数の第１処理を示す複数の第１動作モードに対応する複数の第１雑音データを格納している記憶装置から、前記音声入力が受け付けられたときに第１機器により行われていた第１処理を示す第１動作モードに対応する第１雑音データを取得するステップと、
取得された前記第１雑音データを用いて、前記音声データの雑音低減を行うステップと、
前記雑音低減の結果に対して音声認識を行うステップと、を含む
音声認識方法。
前記音声入力は、前記第１機器によって受け付けられる、
請求項１に記載の音声認識方法。
前記記憶装置は、さらに、互いに異なる雑音の発生を伴う複数の第２処理を示す複数の第２動作モードに対応する複数の第２雑音データを格納しており、
前記音声認識方法は、さらに、
前記音声入力が受け付けられたときに前記第１機器の周辺に位置する第２機器により行われていた第２処理を示す第２動作モードに対応する第２雑音データを前記記憶装置から取得するステップを含み、
前記雑音低減では、取得された前記第１雑音データ、および、取得された前記第２雑音データが用いられる、
請求項２に記載の音声認識方法。
前記音声認識方法は、さらに、
前記第１機器の位置を示す第１位置情報を取得するステップと、
前記第１位置情報と、前記第２機器を含む複数の第２機器の各々の位置を示す第２位置情報とを比較することにより、前記複数の第２機器の中から前記第１機器の周辺に位置する前記第２機器を選択するステップと、を含む
請求項３に記載の音声認識方法。
前記音声入力は、第２機器によって受け付けられ、
前記第１機器は、前記第２機器の周辺に位置する、
請求項１に記載の音声認識方法。
前記音声認識方法は、さらに、
前記音声入力が行われていないときに音を収音して音データを生成するステップと、
前記音データに基づく第１雑音データを、前記音が収音されたときに前記第１機器により行われていた第１処理を示す第１動作モードに対応付けて前記記憶装置に格納する格納ステップと、を含む
請求項１〜５のいずれか１項に記載の音声認識方法。
前記音声認識方法は、さらに、
前記音声認識の結果に基づいて前記第１機器を制御するステップを含む
請求項１〜６のいずれか１項に記載の音声認識方法。
請求項１に記載の音声認識方法をコンピュータに実行させるためのプログラム。
音声入力装置と音声認識装置とを備える音声認識システムであって、
前記音声入力装置は、
ユーザから音声入力を受け付けて音声データを生成する音入力部と、
前記音声データと、前記音声入力が受け付けられたときに当該音声入力装置により行われていた第１処理を示す第１動作モードとを前記音声認識装置に送信する通信部とを備え、
前記音声認識装置は、
前記音声入力装置から、前記音声データと前記第１動作モードとを受信する通信部と、
互いに異なる雑音の発生を伴う複数の第１処理を示す複数の第１動作モードに対応する複数の第１雑音データを格納している記憶部と、
受信された前記第１動作モードに対応する第１雑音データを前記記憶部から取得し、取得された前記第１雑音データを用いて、受信された前記音声データの雑音低減を行う雑音低減部と、
前記雑音低減の結果に対して音声認識を行う音声認識部と、を備える
音声認識システム。
請求項９に記載の音声認識システムに含まれる音声入力装置。