JP7236919B2

JP7236919B2 - 音声入力装置、音声操作システム、音声操作方法及びプログラム

Info

Publication number: JP7236919B2
Application number: JP2019076256A
Authority: JP
Inventors: 拓也平岡
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2023-03-10
Anticipated expiration: 2039-04-12
Also published as: JP2020173388A

Description

本発明は、音声入力装置、音声操作システム、音声操作方法及びプログラムに関する。

動作指示をユーザの音声によって受け付けることができる機器は広く知られており、また、そのような機器に関し、様々な技術の提案がされている（特許文献１，２等）。

さらに、近年においては、スマートスピーカ（ＡＩスピーカともいう。）を介した音声操作により、ＩｏＴ（Internet of Things）機器、情報家電、ネット家電、スマート家電等と称されるインターネットに接続される機器を操作できる音声操作システムが実現され、一般家庭においても利用されつつある。

この種の音声操作システムでは、ユーザは、宅内にある１又は複数の機器に所望の動作を実行させたい場合、スマートスピーカに向けて、先ず、ウェイクワードと称される予め定められたキーワードを発話し、続けて、処理対象名（アプリケーション名ともいう。）と制御内容を発話する。スマートスピーカは、ウェイクワードが発話されたことを認識すると、続けて発話された音声に基づく音声データを、音声処理を行うサーバ（以下、音声処理サーバという。）に送信する。

音声処理サーバは、音声データを解析して、ユーザが発話した処理対象名及び制御内容を取得し、取得した処理対象名及び制御内容に基づくデータを当該処理対象名に対応するサーバ（以下、機器制御サーバという。）に送信する。機器制御サーバは、音声処理サーバから受信したデータに基づいて当該１又は複数の機器を制御する。

特公平０７－３９８７７号公報特許第６０２５０９１号公報

上記のように、従来の音声操作システムでは、ユーザは音声操作を行う度にウェイクワードを発話する必要があり、煩わしさを感じるユーザも少なくない。このため、この種の音声操作システムに関し、音声操作のさらなる利便性の向上が求められているのが実情である。

本発明は、上記実情に鑑みてなされたものであり、音声操作の利便性の向上が図れる音声入力装置等を提供することを目的とする。

上記目的を達成するため、本発明に係る音声入力装置は、
ユーザの音声を入力し、入力した音声に基づく第１音声データを生成する音声入力手段と、
前記第１音声データを解析して、前記入力した音声に第１ウェイクワード又は第２ウェイクワードが含まれているか否かを検出するウェイクワード検出手段と、
前記入力した音声に前記第１ウェイクワードが含まれている場合、前記第１音声データから前記第１ウェイクワードに対応する音声データを除去した第２音声データを音声処理装置に送信し、前記入力した音声に前記第１ウェイクワードではなく前記第２ウェイクワードが含まれている場合、前記第１音声データを前記音声処理装置に送信する音声データ送信手段と、
前記音声処理装置から前記第２ウェイクワードを取得する第２ウェイクワード取得手段と、を備える。

本発明によれば、音声操作の利便性の向上が図れる。

本発明の実施の形態１に係る音声操作システムの全体構成を示す図実施の形態１に係る音声入出力装置のハードウェア構成を示すブロック図実施の形態１に係る音声処理サーバのハードウェア構成を示すブロック図実施の形態１に係る音声処理サーバの機能構成を示すブロック図実施の形態１に係る機器制御サーバのハードウェア構成を示すブロック図実施の形態１に係る機器制御サーバの機能構成を示すブロック図実施の形態１に係る音声入出力装置の機能構成を示すブロック図実施の形態１の音声入出力処理の手順を示すフローチャート実施の形態１に係る音声操作システムが実行する音声操作処理の流れを示す図本発明の実施の形態２に係る音声操作システムの全体構成を示す図実施の形態２に係る音声処理サーバの機能構成を示すブロック図実施の形態２に係る音声入出力装置の機能構成を示すブロック図実施の形態２に係る音声操作システムが実行する音声操作処理の流れを示す図本発明の実施の形態３に係る音声操作システムの全体構成を示す図実施の形態３に係る音声処理サーバの機能構成を示すブロック図実施の形態３に係る音声入出力装置の機能構成を示すブロック図

以下、本発明の実施の形態について図面を参照して詳細に説明する。

実施の形態１．
図１は、本発明の実施の形態１に係る音声操作システム１の全体構成を示す図である。音声操作システム１は、住宅Ｈに設置された１又は複数の機器２を音声操作により制御できるようにしたシステムであり、１又は複数の機器２と、音声入出力装置３と、ホームゲートウェイ４と、音声処理サーバ５と、機器制御サーバ６とを備える。

各機器２は、エアコン、テレビ、照明器、冷蔵庫、ＩＨ（Induction Heating）調理器、給湯機等であり、いわゆるＩｏＴ（Internet of Things）機器、情報家電、ネット家電、スマート家電等と称され、ブロードバンドルータとしての機能を有するホームゲートウェイ４を介してインターネットに接続される。なお、少なくとも一部の機器２については、図示しない外付けの通信アダプタを介して、インターネットに接続されるようにしてもよい。

音声入出力装置３は、本発明に係る音声入力装置の一例である。音声入出力装置３は、ユーザの発話により入力された音声に基づいて様々なサービスを提供する装置であり、いわゆるスマートスピーカ（ＡＩスピーカともいう。）である。音声入出力装置３は、図２に示すように、マイク３０と、Ａ／Ｄコンバータ３１と、スピーカ３２と、通信インタフェース３３と、ＣＰＵ（Central Processing Unit）３４と、ＲＯＭ（Read Only Memory）３５と、ＲＡＭ（Random Access Memory）３６と、二次記憶装置３７とを備える。これらの構成部は、バス３８を介して相互に接続される。

マイク３０は、ユーザが発した音声を入力し、入力した音声からアナログ音声信号を生成して、Ａ／Ｄコンバータ３１に出力する。Ａ／Ｄコンバータ３１は、マイク３０から出力されたアナログ音声信号からノイズを除去し、デジタル音声信号を生成し、ＣＰＵ３４に供給する。スピーカ３２は、ＣＰＵ３４から供給されたデジタル音声信号に対応する音声を出力する。通信インタフェース３３は、ホームゲートウェイ４と有線又は無線にて通信接続し、ホームゲートウェイ４を介して、インターネットに接続される音声処理サーバ５と通信するためのネットワークカードを備える。

ＣＰＵ３４は、当該音声入出力装置３を統括的に制御する。ＣＰＵ３４によって実現される音声入出力装置３の機能の詳細については後述する。ＲＯＭ３５は、複数のファームウェア及びこれらのファームウェアの実行時に使用されるデータを記憶する。ＲＡＭ３６は、ＣＰＵ３４の作業領域として使用される。二次記憶装置３７は、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）、フラッシュメモリ等の読み書き可能な不揮発性の半導体メモリ又はＨＤＤ（Hard Disk Drive）を含んで構成される。二次記憶装置３７は、音声入出力プログラムと、かかる音声入出力プログラムの実行時に使用されるデータとを記憶する。音声入出力プログラムは、ユーザの音声を入力し、入力した音声に基づく音声データを音声処理サーバ５に送信する処理と、音声処理サーバ５から音声データを受信し、受信した音声データに基づく音声を出力する処理とが記述されたプログラムである。

図１に戻り、音声処理サーバ５は、本発明に係る音声処理装置の一例である。音声処理サーバ５は、音声入出力装置３のメーカ、販売会社等によって設置され、運用されるサーバコンピュータであり、インターネットに接続される。音声処理サーバ５は、音声入出力装置３及び後述する機器制御サーバ６と協調して、機器２に対する音声操作を実現する。音声処理サーバ５は、図３に示すように、通信インタフェース５０と、ＣＰＵ５１と、ＲＯＭ５２と、ＲＡＭ５３と、二次記憶装置５４とを備える。これらの構成部は、バス５５を介して相互に接続される。

通信インタフェース５０は、インターネットに接続して、ホームゲートウェイ４、機器制御サーバ６等の他の装置と通信するための装置である。ＣＰＵ５１は、当該音声処理サーバ５を統括的に制御する。ＲＯＭ５２は、複数のファームウェア及びこれらのファームウェアの実行時に使用されるデータを記憶する。ＲＡＭ５３は、ＣＰＵ５１の作業領域として使用される。

二次記憶装置５４は、ＥＥＰＲＯＭ、フラッシュメモリ等の読み書き可能な不揮発性の半導体メモリ又はＨＤＤを含んで構成される。二次記憶装置５４は、音声処理プログラムと、音声処理プログラムの実行時に使用されるデータとを記憶する。音声処理プログラムは、音声操作サービスを実現するための音声処理に関するプログラムである。音声処理プログラムには、音声データ解析処理、機器操作関連処理等が記述されている。音声データ解析処理には、音声入出力装置３から送信された音声データを解析し、音声の内容を取得する処理が含まれる。機器操作関連処理には、取得した音声の内容に基づいて操作対象の機器２に対する操作情報を生成し、機器制御サーバ６に送信する処理、機器制御サーバ６から送信された制御結果情報に基づく結果データを音声入出力装置３に送信する処理とが含まれる。

音声処理サーバ５は、図４に示すように、機能的には、音声データ受信部５００と、音声データ解析部５０１と、操作情報生成部５０２と、操作情報送信部５０３と、制御結果情報受信部５０４と、結果データ生成部５０５と、結果データ送信部５０６とを備える。これらの機能部は、ＣＰＵ５１が二次記憶装置５４に記憶されている上記の音声処理プログラムを実行することで実現される。

音声データ受信部５００は、音声入出力装置３からホームゲートウェイ４を介して送信された音声データを受信する。音声データ解析部５０１は、二次記憶装置５４に記憶される図示しない音声認識データベースを使用して、音声データ受信部５００により受信された音声データを解析する。そして、音声データ解析部５０１は、ユーザが発話した処理対象名を示すテキストデータ（以下、処理対象名データという。）と、ユーザが発話した制御内容を示すテキストデータ（以下、制御内容データという。）とを生成する。

処理対象名とは、各メーカで独自に定められた音声操作の対象を示す名称である（アプリケーション名と称されることもある。）。処理対象名には、例えば、機器２の製品名、当該メーカにおける複数の機器２の予め定めた総称等が含まれる。制御内容とは、処理対象名で特定される１又は複数の機器２に対する制御の内容であり、例えば、機器２がエアコンの場合、「エアコン付けて」、「エアコン消して」等が制御内容となる。

音声データ解析部５０１は、生成した処理対象名データ及び制御内容データを操作情報生成部５０２に供給する。また、音声データ解析部５０１は、生成した処理対象名データを結果データ生成部５０５に供給する。操作情報生成部５０２は、音声データ解析部５０１から供給された処理対象名データ及び制御内容データと、顧客情報ＤＢ５４０と、処理対象名ＤＢ５４１とに基づいて、機器制御サーバ６に対する操作情報を生成する。操作情報には、当該処理対象名を識別するためのＩＤ（identification）である処理対象名ＩＤと、当該制御内容を識別するためのＩＤである制御内容ＩＤとが含まれる。

顧客情報ＤＢ５４０は、音声操作サービスに加入している各顧客の個人情報が登録されたデータベースであり、二次記憶装置５４に記憶される。顧客情報ＤＢ５４０には、各顧客の氏名、住所、性別、生年月日、当該顧客宅（即ち、当該顧客の住宅Ｈ）に設置されている音声入出力装置３のＩＰ（Internet Protocol）アドレス等の情報が登録されている。

処理対象名ＤＢ５４１は、処理対象名に関する情報が登録されたデータベースであり、二次記憶装置５４に記憶される。処理対象名ＤＢ５４１には、処理対象名毎に、処理対象名ＩＤ、処理対象名データ（即ち、処理対象名のテキストデータ）、メーカ名（あるいは、機器制御サーバ６を識別する情報）等を含むレコードが処理対象名の数分登録されている。

顧客情報ＤＢ５４０は、例えば、ＯＡｕｔｈ２．０により、音声処理サーバ５と機器制御サーバ６とが適宜連携動作することで、機器制御サーバ６が保持する顧客情報ＤＢとリンクされ、その内容が更新される。

操作情報送信部５０３は、操作情報生成部５０２により生成された操作情報を機器制御サーバ６に送信する。制御結果情報受信部５０４は、機器制御サーバ６から制御結果情報を受信する。制御結果情報とは、先に送信した操作情報に従った制御が正常に実行されたか否かを示す情報である。制御結果情報受信部５０４は、受信した制御結果情報を結果データ生成部５０５に供給する。

結果データ生成部５０５は、制御結果情報受信部５０４から供給された制御結果情報に基づいて、公知の音声合成処理により音声データを生成する。結果データ生成部５０５は、生成した音声データと、音声データ解析部５０１により供給された処理対象名データとが格納された結果データを生成し、生成した結果データを結果データ送信部５０６に供給する。結果データ送信部５０６は、結果データ生成部５０５から供給された結果データを対応する音声入出力装置３に送信する。

図１に戻り、機器制御サーバ６は、機器２のメーカ、販売会社等によって設置され、運用されるサーバコンピュータであり、インターネットに接続される。機器制御サーバ６は、音声処理サーバ５と協調して、機器２に対する音声操作を実現する。機器制御サーバ６は、図５に示すように、通信インタフェース６０と、ＣＰＵ６１と、ＲＯＭ６２と、ＲＡＭ６３と、二次記憶装置６４とを備える。これらの構成部は、バス６５を介して相互に接続される。通信インタフェース６０は、インターネットに接続して、ホームゲートウェイ４、音声処理サーバ５等の他の装置と通信するための装置である。ＣＰＵ６１は、当該機器制御サーバ６を統括的に制御する。

ＲＯＭ６２は、複数のファームウェア及びこれらのファームウェアの実行時に使用されるデータを記憶する。ＲＡＭ６３は、ＣＰＵ６１の作業領域として使用される。二次記憶装置６４は、ＥＥＰＲＯＭ、フラッシュメモリ等の読み書き可能な不揮発性の半導体メモリ又はＨＤＤを含んで構成される。二次記憶装置６４は、機器制御プログラムと、機器制御プログラムの実行時に使用されるデータとを記憶する。機器制御プログラムは、音声処理サーバ５と協調して機器２に対する音声操作を実現するためプログラムである。機器制御プログラムには、音声処理サーバ５からの操作情報に基づいて、対応する各機器２を制御する処理、当該各機器２の制御結果を音声処理サーバ５に通知する処理等が記述されている。

機器制御サーバ６は、機能的には、図６に示すように、操作情報受信部６００と、制御指令生成部６０１と、制御指令送信部６０２と、応答データ受信部６０３と、制御結果情報送信部６０４とを備える。これらの機能部は、ＣＰＵ６１が上記の機器制御プログラムを実行することで実現される。

操作情報受信部６００は、音声処理サーバ５から送信された操作情報を受信する。制御指令生成部６０１は、操作情報受信部６００が受信した操作情報と、顧客情報ＤＢ６４０と、顧客機器情報ＤＢ６４１とに基づいて、対象の各機器２を制御するための制御指令をそれぞれ生成する。

顧客情報ＤＢ６４０は、自社の機器２の購入者であって、当該音声操作サービスに加入している各顧客の個人情報が登録されたデータベースであり、二次記憶装置６４に記憶される。顧客情報ＤＢ６４０には、各顧客の氏名、住所、性別、生年月日等の情報が登録されている。

顧客機器情報ＤＢ６４１は、各顧客宅（即ち、各住宅Ｈ）に設置されている自社の機器２に関する情報が登録されたデータベースである。顧客機器情報ＤＢ６４１には、顧客毎に、機器ＩＤ、製品名、型名（型番ともいう。）、設置場所、対応する処理対象名、対応する全ての制御内容ＩＤ、制御内容ＩＤ毎の指令内容、通信アドレス等を含むレコードが当該顧客宅に設置されている自社の機器２の台数分登録されている。機器ＩＤは、当該音声操作サービスにおいて、各機器２を識別するために割り振られたＩＤである。通信アドレスは、例えば、当該機器２のＩＰアドレスである。

機器２を購入したユーザは、スマートフォン、タブレット端末等に予めインストールされた音声操作サービスを利用するためのアプリケーションプログラム（以下、音声操作アプリという。）を起動し、自己の個人情報及び機器２に関する情報を機器制御サーバ６に登録するための予め定められた手続（以下、登録手続という。）を行う。これにより、当該ユーザの個人情報及び当該ユーザ宅の機器２に関する情報が、当該スマートフォン、タブレット端末等から機器制御サーバ６に送信される。上記の音声操作アプリは、機器制御サーバ６、その他のプログラム配布サーバ等から当該スマートフォン、タブレット端末等にダウンロードすることができる。

上記の登録手続において、機器２の製品名、型名及びＩＰアドレスは、上記の音声操作アプリを起動したスマートフォン、タブレット端末等によって、ホームゲートウェイ４を介した通信により当該機器２から取得される。

また、上述したように、例えば、ＯＡｕｔｈ２．０により、機器制御サーバ６と音声処理サーバ５とが適宜連携動作することで、機器制御サーバ６の顧客情報ＤＢ６４０と、音声処理サーバ５の顧客情報ＤＢ５４０とがリンクされる。これにより、音声処理サーバ５の顧客情報ＤＢ５４０の内容が更新される。

制御指令送信部６０２は、制御指令生成部６０１が生成した各制御指令を各機器２に送信する。応答データ受信部６０３は、制御指令送信部６０２が制御指令を送信した後、送信先の各機器２から送られてくる各応答データを受信する。かかる応答データには、制御指令に従った動作を行ったか否かを示す情報が含まれている。一の操作情報に対応する全ての応答データに、各制御指令に従った動作を行ったことを示す情報が含まれている場合、応答データ受信部６０３は、当該操作情報に基づく制御が正常に実行されたことを制御結果情報送信部６０４に通知する。

一方、何れかの応答データに、制御指令に従った動作を行っていないことを示す情報が含まれている場合、応答データ受信部６０３は、当該操作情報に基づく制御が正常に実行されていないことを制御結果情報送信部６０４に通知する。また、応答データ受信部６０３は、対象となる各機器２に各制御指令が送信された後、予め定めた時間が経過しても当該対象の全ての機器２から応答データを受信できなかった場合、当該操作情報に基づく制御が正常に実行されていないことを制御結果情報送信部６０４に通知する。

制御結果情報送信部６０４は、応答データ受信部６０３から通知された内容に従った制御結果情報を生成し、音声処理サーバ５に送信する。

続いて、音声入出力装置３の機能について説明する。音声入出力装置３は、機能的には、図７に示すように、音声入力部３００と、ウェイクワード検出部３０１と、音声データ送信部３０２と、結果データ受信部３０３と、音声データ抽出部３０４と、音声出力部３０５と、条件付ウェイクワード抽出部３０６とを備える。これらの機能部は、音声入出力装置３のＣＰＵ３４が二次記憶装置３７に記憶されている上述した音声入出力プログラムを実行することで実現される。

音声入力部３００は、本発明に係る音声入力手段の一例である。音声入力部３００は、ユーザが発話した音声を入力し、入力した音声に基づく音声データ（本発明に係る第１音声データの一例）を生成する。詳細には、音声入力部３００は、ユーザの音声を示すアナログ音声信号にＰＣＭ（Pulse Code Modulation: パルス符号変調）を適用してデジタル音声信号に変換し、さらに非可逆圧縮を適用することにより音声データを生成する。

ウェイクワード検出部３０１は、本発明に係るウェイクワード検出手段の一例である。ウェイクワード検出部３０１は、音声入力部３００により生成された音声データを解析して、ユーザが発話した音声にウェイクワードが含まれているか否かを検出する。ウェイクワードとは、当該音声入出力装置３が、ユーザの発話を音声操作であると認識するためのキーワードである。通常、音声操作をする際、ユーザは、先ず、ウェイクワード（例えば、「ＯＫ、あいうえおかきくけこ」）を発話し、続けて、処理対象名（例えば、「ＡＢＣで」）と制御内容（例えば、「エアコン付けて」）を発話する必要がある。

本実施の形態では、ウェイクワードには、通常のウェイクワード（以下、通常ウェイクワードという。）と、一定の制限の下で使用可能なウェイクワード（以下、条件付ウェイクワードという。）との２種類のウェイクワードがある。通常ウェイクワードは、ユーザが常時使用可能なウェイクワード（例えば、上記の「ＯＫ、あいうえおかきくけこ」）である。また、条件付ウェイクワードは、ユーザが直近に音声操作を行った際の処理対象名（例えば、「ＡＢＣで」）であり、前回の音声操作と同じ処理対象名の音声操作を行う場合のみに有効となる。通常ウェイクワードは、本発明に係る第１ウェイクワードの一例であり、条件付ウェイクワードは、本発明に係る第２ウェイクワードの一例である。通常ウェイクワードと、条件付ウェイクワードは、ウェイクワードテーブル３７０に保存されている。ウェイクワードテーブル３７０は、二次記憶装置３７に記憶されるデータテーブルである。

ウェイクワード検出部３０１は、ウェイクワードテーブル３７０を参照して、先ず、ユーザの音声に通常ウェイクワードが含まれているか否かを検出し、含まれていない場合には、さらに、条件付ウェイクワードが含まれているか否かを検出する。通常ウェイクワードが含まれている場合、ウェイクワード検出部３０１は、音声入力部３００により生成された音声データから通常ウェイクワードに対応する音声データを除いた音声データ（本発明に係る第２音声データの一例）を音声データ送信部３０２に供給する。

一方、ユーザの音声に通常ウェイクワードではなく、条件付ウェイクワードが含まれている場合、ウェイクワード検出部３０１は、音声入力部３００により生成された音声データをそのまま音声データ送信部３０２に供給する。なお、ユーザの音声に通常ウェイクワード及び条件付ウェイクワードの何れも含まれていない場合、ウェイクワード検出部３０１は、音声入力部３００により生成された音声データを破棄する。

音声データ送信部３０２は、本発明に係る音声データ送信手段の一例である。音声データ送信部３０２は、ウェイクワード検出部３０１から供給された音声データをホームゲートウェイ４を介して音声処理サーバ５に送信する。結果データ受信部３０３は、音声処理サーバ５から送信された結果データをホームゲートウェイ４を介して受信する。上述したように、結果データには、制御結果を示す音声データと、処理対象名データとが含まれている。

音声データ抽出部３０４は、結果データから音声データを抽出し、抽出した音声データを音声出力部３０５に供給する。音声出力部３０５は、音声データ抽出部３０４から供給された音声データに基づく音声を出力する。条件付ウェイクワード抽出部３０６は、結果データから処理対象名データを抽出し、抽出した処理対象名データを条件付ウェイクワードとしてウェイクワードテーブル３７０に保存する。結果データ受信部３０３及び条件付ウェイクワード抽出部３０６は、本発明に係る第２ウェイクワード取得手段の一例である。

図８は、音声入出力装置３が実行する音声入出力処理の手順を示すフローチャートである。ユーザが発話した音声が入力されると（ステップＳ１０１；ＹＥＳ）、音声入力部３００は、ユーザの音声に基づく音声データを生成する（ステップＳ１０２）。

ウェイクワード検出部３０１は、音声入力部３００により生成された音声データ、即ち、入力音声に基づく音声データと、ウェイクワードテーブル３７０とに基づいて、入力音声に通常ウェイクワードが含まれているか否かを判別する（ステップＳ１０３）。

入力音声に通常ウェイクワードが含まれている場合（ステップＳ１０３；ＹＥＳ）、音声データ送信部３０２は、入力音声に基づく音声データから通常ウェイクワードに対応する音声データを除去した音声データを音声処理サーバ５に送信する（ステップＳ１０４）。その後、ステップＳ１０１に戻る。

入力音声に通常ウェイクワードが含まれていない場合（ステップＳ１０３；ＮＯ）、ウェイクワード検出部３０１は、入力音声に基づく音声データと、ウェイクワードテーブル３７０とに基づいて、入力音声に条件付ウェイクワードが含まれているか否かを判別する（ステップＳ１０５）。

入力音声に条件付ウェイクワードが含まれている場合（ステップＳ１０５；ＹＥＳ）、音声データ送信部３０２は、入力音声に基づく音声データを音声処理サーバ５に送信する（ステップＳ１０６）。その後、ステップＳ１０１に戻る。一方、入力音声に条件付ウェイクワードが含まれていない場合（ステップＳ１０５；ＮＯ）、ウェイクワード検出部３０１は、入力音声に基づく音声データを破棄する（ステップＳ１０７）。その後、ステップＳ１０１に戻る。

ステップＳ１０１でＮＯの場合、結果データが受信されると（ステップＳ１０８；ＹＥＳ）、条件付ウェイクワード抽出部３０６は、結果データから処理対象名データを抽出し、抽出した処理対象名データを条件付ウェイクワードとしてウェイクワードテーブル３７０に保存する（ステップＳ１０９）。一方、結果データが受信されていない場合（ステップＳ１０８；ＮＯ）、ステップＳ１０１に戻る。

ステップＳ１０９の後、又は、並行して、音声データ抽出部３０４は、結果データから音声データを抽出する（ステップＳ１１０）。音声出力部３０５は、音声データ抽出部３０４により抽出された音声データに基づく音声を出力する（ステップＳ１１１）。その後、ステップＳ１０１に戻る。

図９は、ユーザによって音声操作が行われた際に音声操作システム１で実行される音声操作処理の流れを示す図である。ユーザにより、通常ウェイクワード（例えば、「ＯＫ、あいうえおかきくけこ」）が発話され、続けて、処理対象名（例えば、「ＡＢＣで」）と制御内容（例えば、「エアコン付けて」）とが発話されると、音声入出力装置３は、ユーザの発話を音声操作として認識し、発話された処理対象名及び制御内容に基づく音声データをホームゲートウェイ４を介して音声処理サーバ５に送信する（ステップＳ２０１）。

音声処理サーバ５は、受信した音声データを解析して操作情報を生成し（ステップＳ２０２）、機器制御サーバ６に送信する（ステップＳ２０３）。

機器制御サーバ６は、受信した操作情報に基づいて制御指令を生成し（ステップＳ２０４）、対象の機器２に送信する（ステップＳ２０５）。

機器２は、機器制御サーバ６から送信された制御指令をホームゲートウェイ４を介して受信すると、受信した制御指令に従った動作を行う（ステップＳ２０６）。例えば、ユーザが発話した制御内容が「エアコン付けて」の場合、エアコンである機器２は、運転を開始する。機器２は、応答データをホームゲートウェイ４を介して機器制御サーバ６に送信する（ステップＳ２０７）。その際、機器２は、制御指令に従った動作を行った場合、制御指令に従った動作を行ったことを示す情報が格納された応答データを機器制御サーバ６に送信する。一方、何らかの事情により制御指令に従った動作を行っていない場合、機器２は、制御指令に従った動作を行っていないことを示す情報が格納された応答データを機器制御サーバ６に送信する。

機器制御サーバ６は、機器２から応答データを受信すると、受信した応答データの内容に応じた制御結果情報を音声処理サーバ５に送信する（ステップＳ２０８）。

音声処理サーバ５は、機器制御サーバ６から送信された制御結果情報と、先の音声データの解析時に生成した処理対象名データとに基づいて、結果データを生成し（ステップＳ２０９）、生成した結果データを音声入出力装置３に送信する（ステップＳ２１０）。

音声入出力装置３は、受信した結果データから抽出した処理対象名データを条件付ウェイクワードとしてウェイクワードテーブル３７０に保存する（ステップＳ２１１）。また、音声入出力装置３は、受信した結果データから抽出した音声データに基づく音声、即ち、制御結果を示す音声を出力する（ステップＳ２１２）。

このように、条件付ウェイクワードがウェイクワードテーブル３７０に保存された後に、ユーザにより、直近の音声操作と同じ処理対象名を含む音声（例えば、「ＡＢＣで、エアコン消して」）が発話されると、音声入出力装置３は、ユーザの音声に条件付ウェイクワード（この例では、「ＡＢＣで」）が含まれているため、当該ユーザの発話を音声操作として認識する。そして、音声入出力装置３は、ユーザが発話した音声に基づく音声データをホームゲートウェイ４を介して音声処理サーバ５に送信する（ステップＳ２１３）。

音声処理サーバ５は、受信した音声データを解析して操作情報を生成し（ステップＳ２１４）、機器制御サーバ６に送信する（ステップＳ２１５）。

機器制御サーバ６は、受信した操作情報に基づいて制御指令を生成し（ステップＳ２１６）、対象の機器２に送信する（ステップＳ２１７）。これにより、機器２は、ユーザが発話した制御内容に従った動作を行う。例えば、ユーザが発話した制御内容が「エアコン消して」の場合、エアコンである機器２は運転を停止する。

以上説明したように、実施の形態１に係る音声操作システム１によれば、音声入出力装置３は、ユーザが音声操作の際に発話した処理対象名を示すテキストデータを条件付ウェイクワードとして保存し、次回に入力されたユーザの音声を解析する際に使用する。このため、ユーザは、前回と同じ処理対象名の音声操作を行う場合に、通常ウェイクワードを発話する必要がなく、音声操作の利便性の向上が図れる。

なお、音声処理サーバ５は、処理対象名データを制御結果を示す音声データと共に音声入出力装置３に送信するのではなく、音声入出力装置３から音声データを受信すると、処理対象名データを直ちに音声入出力装置３に送信してもよい。この場合、音声入出力装置３は、受信した処理対象名データを条件付ウェイクワードとしてウェイクワードテーブル３７０に保存する。

実施の形態２．
続いて、本発明の実施の形態２について説明する。なお、以下の説明において、実施の形態１と共通する構成要素等については、同一の符号を付し、その説明を省略する。

図１０は、本発明の実施の形態２に係る音声操作システム１Ａの全体構成を示す図である。音声操作システム１Ａは、１又は複数の機器２と、音声入出力装置３Ａと、ホームゲートウェイ４と、音声処理サーバ５Ａと、機器制御サーバ６Ａとを備える。

音声入出力装置３Ａのハードウェア構成は、実施の形態１の音声入出力装置３と同様（図２参照）であり、音声処理サーバ５Ａのハードウェア構成は、実施の形態１の音声処理サーバ５と同様（図３参照）であり、機器制御サーバ６Ａのハードウェア構成は、実施の形態１の機器制御サーバ６と同様（図５参照）である。

本実施の形態の機器制御サーバ６Ａは、実施の形態１の機器制御サーバ６と同様、音声処理サーバ５Ａから受信した操作情報に基づいて、対象の機器２を制御し、当該機器２の制御が正常に実行されたか否かを示す制御結果情報を音声処理サーバ５Ａに送信する。但し、機器制御サーバ６Ａは、制御が正常に実行されたか否かを示す制御結果のみならず、さらに、受信した操作情報で示される処理対象名に対応する全ての制御内容（以下、制御内容のセットという。）が格納された制御結果情報を音声処理サーバ５Ａに送信する。

音声処理サーバ５Ａは、本発明に係る音声処理装置の一例である。音声処理サーバ５Ａは、機能的には、図１１に示すように、音声データ受信部５００と、音声データ解析部５０１Ａと、操作情報生成部５０２と、操作情報送信部５０３と、制御結果情報受信部５０４と、結果データ生成部５０５Ａと、結果データ送信部５０６とを備える。これらの機能部は、音声処理サーバ５ＡのＣＰＵ５１が、二次記憶装置５４に記憶されている音声処理プログラムを実行することで実現される。

音声データ解析部５０１Ａは、実施の形態１の音声データ解析部５０１と同様、二次記憶装置５４に記憶される図示しない音声認識データベースを使用して、音声データ受信部５００により受信された音声データを解析する。そして、音声データ解析部５０１Ａは、ユーザが発話した処理対象名を示すテキストデータである処理対象名データと、ユーザが発話した制御内容を示すテキストデータである制御内容データとを生成する。音声データ解析部５０１Ａは、生成した処理対象名データ及び制御内容データを操作情報生成部５０２に供給する。

但し、音声データ解析部５０１Ａは、結果データ生成部５０５Ａに対して、処理対象名データではなく、処理対象名を示す音声データ、即ち、ユーザが発話した処理対象名に対応する音声データ（以下、処理対象名の音声データという。）を供給する。処理対象名の音声データは、本発明に係る第３音声データの一例である。

結果データ生成部５０５Ａは、実施の形態１の結果データ生成部５０５と同様、制御結果情報受信部５０４から供給された制御結果情報に基づいて、公知の音声合成処理により音声データを生成する。但し、上述したように、本実施の形態では、機器制御サーバ６Ａから送信される制御結果情報には、制御結果と、制御内容のセットが含まれている。このため、結果データ生成部５０５Ａは、制御結果情報から抽出した制御結果に基づいた音声データを生成する。

結果データ生成部５０５Ａは、生成した音声データと、音声データ解析部５０１Ａにより供給された処理対象名の音声データと、制御結果情報から抽出した制御内容のセットとが格納された結果データを生成し、生成した結果データを結果データ送信部５０６に供給する。結果データ送信部５０６は、結果データ生成部５０５Ａから供給された結果データを対応する音声入出力装置３Ａに送信する。

音声入出力装置３Ａは、本発明に係る音声入力装置の一例である。音声入出力装置３Ａは、機能的には、図１２に示すように、音声入力部３００と、ウェイクワード検出部３０１Ａと、音声データ送信部３０２と、結果データ受信部３０３と、音声データ抽出部３０４と、音声出力部３０５と、条件付ウェイクワード抽出部３０６Ａとを備える。これらの機能部は、音声入出力装置３ＡのＣＰＵ３４が、二次記憶装置３７に記憶されている音声入出力プログラムを実行することで実現される。

ウェイクワード検出部３０１Ａは、本発明に係るウェイクワード検出手段の一例である。ウェイクワード検出部３０１Ａは、実施の形態１のウェイクワード検出部３０１と同様、ユーザの音声に通常ウェイクワードが含まれている場合、音声入力部３００により生成された音声データから通常ウェイクワードに対応する音声データを除いた音声データを音声データ送信部３０２に供給する。一方、ユーザの音声に通常ウェイクワードではなく、条件付ウェイクワードが含まれている場合、ウェイクワード検出部３０１Ａの処理は、ウェイクワード検出部３０１の処理と相違する。

本実施の形態では、条件付ウェイクワードとして、ユーザが直近に音声操作を行った際の処理対象名に対応する各制御内容を使用する。例えば、処理対象名「ＡＢＣで」に対して、「エアコン付けて」、「エアコン消して」、「エアコンの温度下げて」及び「エアコンの温度上げて」の４つの制御内容が存在する場合、これらの各々が条件付ウェイクワードとして使用される。例えば、ユーザにより、通常ウェイクワードと処理対象名「ＡＢＣで」と制御内容（例えば、「エアコン付けて」）とを含む音声操作が行われ、その後、ユーザにより「エアコン消して」と発話されると、ウェイクワード検出部３０１Ａは、ユーザの音声に条件付ウェイクワードが含まれていると判別し、ユーザの発話を音声操作であると認識する。

ユーザの音声に条件付ウェイクワードが含まれていると判別すると、ウェイクワード検出部３０１Ａは、当該条件付ウェイクワードに対応する処理対象名（例えば、「ＡＢＣで」）を示す音声データ（即ち、第３音声データ）と、音声入力部３００により生成された音声データ（即ち、第１音声データ）とを統合した音声データ（本発明に係る第４音声データの一例であり、例えば、「ＡＢＣで、エアコン消して」を示す音声データ）を音声データ送信部３０２に供給する。

音声データ送信部３０２は、本発明に係る音声データ送信手段の一例である。音声データ送信部３０２は、ウェイクワード検出部３０１Ａから供給された音声データをホームゲートウェイ４を介して音声処理サーバ５に送信する。

条件付ウェイクワード抽出部３０６Ａは、結果データから、処理対象名の音声データ（即ち、第３音声データ）と、制御内容のセットとを抽出する。条件付ウェイクワード抽出部３０６Ａは、抽出した処理対象名の音声データを二次記憶装置３７に保存し、抽出した制御内容のセットにおける各制御内容を、当該処理対象名の音声データに対応する各条件付ウェイクワードとしてウェイクワードテーブル３７０に保存する。例えば、処理対象名として「ＡＢＣで」を含む音声操作を行った場合には、結果データ受信部３０３が受信する結果データには、制御結果に基づく音声データと、「ＡＢＣで」を示す音声データと、「エアコン付けて」、「エアコン消して」、「エアコンの温度下げて」及び「エアコンの温度上げて」で構成される制御内容のセットとが含まれることになる。

この場合、条件付ウェイクワード抽出部３０６Ａは、「エアコン付けて」、「エアコン消して」、「エアコンの温度下げて」及び「エアコンの温度上げて」の各々を、「ＡＢＣで」に対応する条件付ウェイクワードとしてウェイクワードテーブル３７０に保存する。結果データ受信部３０３及び条件付ウェイクワード抽出部３０６Ａは、本発明に係る第２ウェイクワード取得手段の一例である。

図１３は、ユーザによって音声操作が行われた際に音声操作システム１Ａで実行される音声操作処理の流れを示す図である。ユーザにより、通常ウェイクワード（例えば、「ＯＫ、あいうえおかきくけこ」）が発話され、続けて、処理対象名（例えば、「ＡＢＣで」）と制御内容（例えば、「エアコン付けて」）とが発話されると、音声入出力装置３Ａは、ユーザの発話を音声操作として認識し、発話された処理対象名及び制御内容に基づく音声データをホームゲートウェイ４を介して音声処理サーバ５Ａに送信する（ステップＳ３０１）。

音声処理サーバ５Ａは、受信した音声データを解析して操作情報を生成し（ステップＳ３０２）、機器制御サーバ６Ａに送信する（ステップＳ３０３）。

機器制御サーバ６Ａは、受信した操作情報に基づいて制御指令を生成し（ステップＳ３０４）、対象の機器２に送信する（ステップＳ３０５）。

機器２は、機器制御サーバ６Ａから送信された制御指令をホームゲートウェイ４を介して受信すると、受信した制御指令に従った動作を行う（ステップＳ３０６）。例えば、ユーザが発話した制御内容が「エアコン付けて」の場合、エアコンである機器２は、運転を開始する。機器２は、応答データをホームゲートウェイ４を介して機器制御サーバ６Ａに送信する（ステップＳ３０７）。その際、機器２は、制御指令に従った動作を行った場合、制御指令に従った動作を行ったことを示す情報を格納した応答データを機器制御サーバ６Ａに送信する。一方、何らかの事情により制御指令に従った動作を行っていない場合、機器２は、制御指令に従った動作を行っていないことを示す情報を格納した応答データを機器制御サーバ６Ａに送信する。

機器制御サーバ６Ａは、機器２から応答データを受信すると、受信した応答データの内容に応じた制御結果と、制御内容のセットとが格納された制御結果情報を音声処理サーバ５Ａに送信する（ステップＳ３０８）。

音声処理サーバ５Ａは、機器制御サーバ６Ａから送信された制御結果情報と、処理対象名の音声データとに基づいて、結果データを生成し（ステップＳ３０９）、生成した結果データを音声入出力装置３Ａに送信する（ステップＳ３１０）。

音声入出力装置３Ａは、受信した結果データから抽出した処理対象名の音声データを二次記憶装置３７に保存し、受信した結果データから抽出した制御内容のセットにおける各制御内容を各条件付ウェイクワードとしてウェイクワードテーブル３７０に保存する（ステップＳ３１１）。また、音声入出力装置３Ａは、受信した結果データから抽出した音声データに基づく音声を出力する（ステップＳ３１２）。

このように、直近の音声操作の処理対象名に対応する複数の制御内容が条件付ウェイクワードとしてウェイクワードテーブル３７０に保存された後に、ユーザにより、当該複数の制御内容の内の何れかの制御内容（例えば、「エアコン消して」）が発話されると、音声入出力装置３Ａは、ユーザの音声に条件付ウェイクワードが含まれているため、当該ユーザの発話を音声操作として認識する。そして、音声入出力装置３Ａは、二次記憶装置３７に保存した処理対象名の音声データ（例えば、「ＡＢＣで」を示す音声データ）と、ユーザが発話した当該制御内容に基づく音声データとを統合した音声データ（例えば、「ＡＢＣで、エアコン消して」を示す音声データ）をホームゲートウェイ４を介して音声処理サーバ５Ａに送信する（ステップＳ３１３）。

音声処理サーバ５Ａは、受信した音声データを解析して操作情報を生成し（ステップＳ３１４）、機器制御サーバ６Ａに送信する（ステップＳ３１５）。

機器制御サーバ６Ａは、受信した操作情報に基づいて制御指令を生成し（ステップＳ３１６）、対象の機器２に送信する（ステップＳ３１７）。これにより、機器２は、ユーザが発話した制御内容に従った動作を行う。例えば、ユーザが発話した制御内容が「エアコン消して」の場合、エアコンである機器２は運転を停止する。

以上説明したように、実施の形態２に係る音声操作システム１Ａによれば、ユーザが音声操作の際に発話した処理対象名に対応する各制御内容を示すテキストデータを条件付ウェイクワードとして保存し、次回の音声操作の判別の際に使用する。このため、ユーザは、前回と同じ処理対象名の音声操作を行う場合、制御内容のみを発話すればよい。つまり、通常ウェイクワード及び処理対象名を発話する必要がない。したがって、ユーザの音声操作の簡便化が一層図れる。

なお、機器制御サーバ６Ａは、制御内容のセットを制御結果と共に音声処理サーバ５Ａに送信するのではなく、音声処理サーバ５Ａから操作情報を受信すると、直ちに制御内容のセットを音声処理サーバ５Ａに送信してもよい。この場合、音声処理サーバ５Ａは、機器制御サーバ６Ａから制御内容のセットを受信すると、処理対象名の音声データと、制御内容のセットとが格納されたデータを音声入出力装置３Ａに送信する。

実施の形態３．
続いて、本発明の実施の形態３について説明する。なお、以下の説明において、実施の形態１，２と共通する構成要素等については、同一の符号を付し、その説明を省略する。

図１４は、本発明の実施の形態３に係る音声操作システム１Ｂの全体構成を示す図である。音声操作システム１Ｂは、１又は複数の機器２と、音声入出力装置３Ｂと、ホームゲートウェイ４と、音声処理サーバ５Ｂと、機器制御サーバ６Ｂとを備える。

音声入出力装置３Ｂのハードウェア構成は、実施の形態１の音声入出力装置３と同様（図２参照）であり、音声処理サーバ５Ｂのハードウェア構成は、実施の形態１の音声処理サーバ５と同様（図３参照）であり、機器制御サーバ６Ｂのハードウェア構成は、実施の形態１の機器制御サーバ６と同様（図５参照）である。

本実施の形態の機器制御サーバ６Ｂは、実施の形態１の機器制御サーバ６と同様、音声処理サーバ５Ｂから受信した操作情報に基づいて、対象の機器２を制御し、当該機器２の制御が正常に実行されたか否かを示す制御結果情報を音声処理サーバ５Ｂに送信する。但し、機器制御サーバ６Ｂは、制御が正常に実行されたか否かを示す制御結果のみならず、さらに、受信した操作情報で示される処理対象名に対応する簡易ウェイクワードが格納された制御結果情報を音声処理サーバ５Ｂに送信する。簡易ウェイクワードとは、処理対象名毎に、各メーカが独自に定めたキーワードであり、例えば、「へい」、「やあ」、「ねえ」等、通常ウェイクワードに比べて短い語になっている。

音声処理サーバ５Ｂは、本発明に係る音声処理装置の一例である。音声処理サーバ５Ｂは、機能的には、図１５に示すように、音声データ受信部５００と、音声データ解析部５０１Ａと、操作情報生成部５０２と、操作情報送信部５０３と、制御結果情報受信部５０４と、結果データ生成部５０５Ｂと、結果データ送信部５０６とを備える。これらの機能部は、音声処理サーバ５ＢのＣＰＵ５１が二次記憶装置５４に記憶されている音声処理プログラムを実行することで実現される。

結果データ生成部５０５Ｂは、実施の形態１の結果データ生成部５０５と同様、制御結果情報受信部５０４から供給された制御結果情報に基づいて、公知の音声合成処理により音声データを生成する。但し、上述したように、本実施の形態では、機器制御サーバ６Ｂから送信される制御結果情報には、制御結果と、簡易ウェイクワードとが含まれている。このため、結果データ生成部５０５Ｂは、実施の形態２の結果データ生成部５０５Ａと同様、制御結果情報から抽出した制御結果に基づいた音声データを生成する。

結果データ生成部５０５Ｂは、生成した音声データと、音声データ解析部５０１Ａにより供給された処理対象名の音声データ（本発明に係る第３音声データの一例）と、制御結果情報から抽出した簡易ウェイクワードとが格納された結果データを生成し、生成した結果データを結果データ送信部５０６に供給する。結果データ送信部５０６は、結果データ生成部５０５Ｂから供給された結果データを対応する音声入出力装置３Ｂに送信する。

音声入出力装置３Ｂは、本発明に係る音声入力装置の一例である。音声入出力装置３Ｂは、機能的には、図１６に示すように、音声入力部３００と、ウェイクワード検出部３０１Ｂと、音声データ送信部３０２と、結果データ受信部３０３と、音声データ抽出部３０４と、音声出力部３０５と、条件付ウェイクワード抽出部３０６Ｂとを備える。これらの機能部は、音声入出力装置３ＢのＣＰＵ３４が二次記憶装置３７に記憶されている音声入出力プログラムを実行することで実現される。

ウェイクワード検出部３０１Ｂは、本発明に係るウェイクワード検出手段の一例である。ウェイクワード検出部３０１Ｂは、実施の形態１のウェイクワード検出部３０１と同様、ユーザの音声に通常ウェイクワードが含まれている場合、音声入力部３００により生成された音声データから通常ウェイクワードに対応する音声データを除いた音声データを音声データ送信部３０２に供給する。一方、ユーザの音声に通常ウェイクワードではなく、条件付ウェイクワードが含まれている場合、ウェイクワード検出部３０１Ｂの処理は、ウェイクワード検出部３０１及びウェイクワード検出部３０１Ａの処理と相違する。

本実施の形態では、条件付ウェイクワードとして、ユーザが直近に音声操作を行った際の処理対象名に対応する上述した簡易ウェイクワードを使用する。例えば、処理対象名「ＡＢＣで」に対応する簡易ウェイクワードが「やあ」の場合に、ユーザにより、通常ウェイクワードと処理対象名「ＡＢＣで」と制御内容（例えば、「エアコン付けて」）とを含む音声操作が行われ、その後、ユーザにより、「やあ」を含む音声（例えば、「やあ、エアコン消して」）が発話されると、ウェイクワード検出部３０１Ｂは、ユーザの音声に条件付ウェイクワードが含まれていると判別し、ユーザの発話を音声操作であると認識する。

ユーザの音声に条件付ウェイクワードが含まれていると判別すると、ウェイクワード検出部３０１Ｂは、当該条件付ウェイクワードに対応する処理対象名（例えば、「ＡＢＣで」）を示す音声データ（即ち、第３音声データ）と、音声入力部３００により生成された音声データから当該条件付ウェイクワード（例えば、「やあ」）に対応する音声データを除いた音声データとを統合した音声データ（本発明に係る第４音声データの一例であり、例えば、「ＡＢＣで、エアコン消して」を示す音声データ）を音声データ送信部３０２に供給する。音声データ送信部３０２は、ウェイクワード検出部３０１Ｂから供給された音声データをホームゲートウェイ４を介して音声処理サーバ５に送信する。

条件付ウェイクワード抽出部３０６Ｂは、結果データから、処理対象名の音声データ（即ち、第３音声データ）と、簡易ウェイクワードとを抽出する。条件付ウェイクワード抽出部３０６Ｂは、抽出した処理対象名の音声データを二次記憶装置３７に保存し、抽出した簡易ウェイクワードを当該処理対象名の音声データに対応する条件付ウェイクワードとしてウェイクワードテーブル３７０に保存する。例えば、処理対象名が「ＡＢＣで」に対応する簡易ウェイクワードが、「やあ」の場合、「やあ」が条件付ウェイクワードとしてウェイクワードテーブル３７０に保存される。結果データ受信部３０３及び条件付ウェイクワード抽出部３０６Ｂは、本発明に係る第２ウェイクワード取得手段の一例である。

以上説明したように、実施の形態３に係る音声操作システム１Ｂによれば、ユーザが音声操作の際に発話した処理対象名に対応する簡易ウェイクワードを条件付ウェイクワードとして保存し、次回の音声操作の判別の際に使用する。このため、ユーザは、前回と同じ処理対象名の音声操作を行う場合、通常ウェイクワードより短い語である簡易ウェイクワードと制御内容とを発話すればよい。したがって、音声操作の際のユーザの発話が容易となり、利便性の向上が図れる。

なお、機器制御サーバ６Ｂは、簡易ウェイクワードを制御結果と共に音声処理サーバ５Ｂに送信するのではなく、音声処理サーバ５Ｂから操作情報を受信すると、直ちに簡易ウェイクワードを音声処理サーバ５Ｂに送信してもよい。この場合、音声処理サーバ５Ｂは、機器制御サーバ６Ｂから簡易ウェイクワードを受信すると、処理対象名の音声データと、簡易ウェイクワードとが格納されたデータを音声入出力装置３Ｂに送信する。

本発明は、上記の各実施の形態に限定されず、本発明の要旨を逸脱しない範囲での種々の変更は勿論可能である。

例えば、音声入出力装置３，３Ａ，３Ｂは、直近の音声操作から一定時間（例えば、２４時間等の長時間）経過した場合、当該音声操作に基づく条件付ウェイクワードを破棄してもよい。また、音声入出力装置３，３Ａ，３Ｂは、条件付ウェイクワードを処理対象名毎にウェイクワードテーブル３７０に保存してもよい。このようにすることで、直近の処理対象名とは異なる音声操作の場合であっても条件付ウェイクワードを使用することが可能となる。この場合、保存可能な条件付ウェイクワードの数（実施の形態２では、セット数）に制限を設け、最大数あるいは最大セット数に達した場合は、ＬＲＵ（Least Recently Used）、ＬＦＵ（Least Frequently Used）方式等により、保存されている条件付ウェイクワードが削除されるようにしてもよい。

上記の各実施の形態では、音声入出力装置３，３Ａ，３Ｂにおいて、ＣＰＵ３４によって二次記憶装置３７に記憶されている音声入出力プログラムが実行されることで、音声入出力装置３，３Ａ，３Ｂの機能部（図７、図１２、図１６）が実現された。しかし、音声入出力装置３，３Ａ，３Ｂの機能部の全部又は一部が、専用のハードウェアで実現されるようにしてもよい。同様に、音声処理サーバ５，５Ａ，５Ｂの機能部（図４、図１１、図１５）の全部又は一部が、専用のハードウェアで実現されるようにしてもよいし、機器制御サーバ６，６Ａ，６Ｂの機能部（図６参照）の全部又は一部が、専用のハードウェアで実現されるようにしてもよい。専用のハードウェアとは、例えば、単一回路、複合回路、プログラム化されたプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）又はこれらの組み合わせである。

また、音声入出力プログラム、音声処理プログラム、機器制御プログラムは、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）、光磁気ディスク（Magneto-Optical Disc）、ＵＳＢ（Universal Serial Bus）メモリ、メモリカード、ＨＤＤ等のコンピュータ読み取り可能な記録媒体に格納して配布することも可能である。

また、音声入出力プログラム、音声処理プログラム、機器制御プログラムをインターネット上の図示しないサーバが有する記憶装置に格納しておき、当該サーバから音声入出力装置３，３Ａ，３Ｂ、音声処理サーバ５，５Ａ，５Ｂ、機器制御サーバ６，６Ａ，６Ｂに、これらの各プログラムがダウンロードされるようにしてもよい。

１，１Ａ，１Ｂ音声操作システム、２機器、３，３Ａ，３Ｂ音声入出力装置、４ホームゲートウェイ、５，５Ａ，５Ｂ音声処理サーバ、６，６Ａ，６Ｂ機器制御サーバ、３０マイク、３１Ａ／Ｄコンバータ、３２スピーカ、３３，５０，６０，７０通信インタフェース、３４，５１，６１，７１ＣＰＵ、３５，５２，６２，７２ＲＯＭ、３６，５３，６３，７３ＲＡＭ、３７，５４，６４，７４二次記憶装置、３８，５５，６５，７５バス、３００音声入力部、３０１，３０１Ａ，３０１Ｂウェイクワード検出部、３０２音声データ送信部、３０３結果データ受信部、３０４音声データ抽出部、３０５音声出力部、３０６，３０６Ａ，３０６Ｂ条件付ウェイクワード抽出部、３７０ウェイクワードテーブル、５００音声データ受信部、５０１，５０１Ａ音声データ解析部、５０２操作情報生成部、５０３操作情報送信部、５０４制御結果情報受信部、５０５，５０５Ａ，５０５Ｂ結果データ生成部、５０６結果データ送信部、５４０，６４０顧客情報ＤＢ、５４１処理対象名ＤＢ、６００操作情報受信部、６０１制御指令生成部、６０２制御指令送信部、６０３応答データ受信部、６０４制御結果情報送信部、６４１顧客機器情報ＤＢ

Claims

ユーザの音声を入力し、入力した音声に基づく第１音声データを生成する音声入力手段と、
前記第１音声データを解析して、前記入力した音声に第１ウェイクワード又は第２ウェイクワードが含まれているか否かを検出するウェイクワード検出手段と、
前記入力した音声に前記第１ウェイクワードが含まれている場合、前記第１音声データから前記第１ウェイクワードに対応する音声データを除去した第２音声データを音声処理装置に送信し、前記入力した音声に前記第１ウェイクワードではなく前記第２ウェイクワードが含まれている場合、前記第１音声データを前記音声処理装置に送信する音声データ送信手段と、
前記音声処理装置から前記第２ウェイクワードを取得する第２ウェイクワード取得手段と、を備える、音声入力装置。
前記第２ウェイクワードは、前記入力した音声に前記第１ウェイクワードが含まれる場合において、前記入力した音声に含まれる、ユーザが発話した処理対象名である、請求項１に記載の音声入力装置。
ユーザの音声を入力し、入力した音声に基づく第１音声データを生成する音声入力手段と、
前記第１音声データを解析して、前記入力した音声に第１ウェイクワード又は第２ウェイクワードが含まれているか否かを検出するウェイクワード検出手段と、
前記入力した音声に前記第１ウェイクワードが含まれている場合、前記第１音声データから前記第１ウェイクワードに対応する音声データを除去した第２音声データを音声処理装置に送信し、前記入力した音声に前記第１ウェイクワードではなく前記第２ウェイクワードが含まれている場合、前記第２ウェイクワードに対応する処理対象名を示す第３音声データと前記第１音声データとを統合した第４音声データを前記音声処理装置に送信する音声データ送信手段と、
前記音声処理装置から前記第２ウェイクワードのセットと前記第３音声データとを取得する第２ウェイクワード取得手段と、を備える、音声入力装置。
前記第２ウェイクワードのセットは、前記入力した音声に前記第１ウェイクワードが含まれる場合において、前記入力した音声に含まれる、ユーザが発話した処理対象名に対応する制御内容のセットである、請求項３に記載の音声入力装置。
ユーザの音声を入力し、入力した音声に基づく第１音声データを生成する音声入力手段と、
前記第１音声データを解析して、前記入力した音声に第１ウェイクワード又は第２ウェイクワードが含まれているか否かを検出するウェイクワード検出手段と、
前記入力した音声に前記第１ウェイクワードが含まれている場合、前記第１音声データから前記第１ウェイクワードに対応する音声データを除去した第２音声データを音声処理装置に送信し、前記入力した音声に前記第１ウェイクワードではなく前記第２ウェイクワードが含まれている場合、前記第２ウェイクワードに対応する処理対象名を示す第３音声データと、前記第１音声データから前記第２ウェイクワードに対応する音声データを除去した音声データとを統合した第４音声データを前記音声処理装置に送信する音声データ送信手段と、
前記音声処理装置から前記第２ウェイクワードと前記第３音声データとを取得する第２ウェイクワード取得手段と、を備える、音声入力装置。
前記第２ウェイクワードは、前記入力した音声に前記第１ウェイクワードが含まれる場合において、前記入力した音声に含まれる、ユーザが発話した処理対象名に対応する予め定めた語である、請求項５に記載の音声入力装置。
請求項１から６の何れか１項に記載の音声入力装置と、
音声処理装置と、を備える、音声操作システム。
ユーザの音声を入力し、入力した音声に基づく第１音声データを生成し、
前記第１音声データを解析して、前記入力した音声に第１ウェイクワード又は第２ウェイクワードが含まれているか否かを検出し、
前記入力した音声に前記第１ウェイクワードが含まれている場合、前記第１音声データから前記第１ウェイクワードに対応する音声データを除去した第２音声データを音声処理装置に送信し、前記入力した音声に前記第１ウェイクワードではなく前記第２ウェイクワードが含まれている場合、前記第１音声データを前記音声処理装置に送信し、
前記音声処理装置から前記第２ウェイクワードを取得する、音声操作方法。
コンピュータを、
ユーザの音声を入力し、入力した音声に基づく第１音声データを生成する音声入力手段、
前記第１音声データを解析して、前記入力した音声に第１ウェイクワード又は第２ウェイクワードが含まれているか否かを検出するウェイクワード検出手段、
前記入力した音声に前記第１ウェイクワードが含まれている場合、前記第１音声データから前記第１ウェイクワードに対応する音声データを除去した第２音声データを音声処理装置に送信し、前記入力した音声に前記第１ウェイクワードではなく前記第２ウェイクワードが含まれている場合、前記第１音声データを前記音声処理装置に送信する音声データ送信手段、
前記音声処理装置から前記第２ウェイクワードを取得する第２ウェイクワード取得手段、として機能させる、プログラム。