JP6887031B2

JP6887031B2 - 方法、電子装置、家庭用機器ネットワークおよび記憶媒体

Info

Publication number: JP6887031B2
Application number: JP2019572631A
Authority: JP
Inventors: 王冬岩; 顧海松
Original assignee: Midea Group Co Ltd
Current assignee: Midea Group Co Ltd
Priority date: 2017-07-24
Filing date: 2018-06-06
Publication date: 2021-06-16
Anticipated expiration: 2038-06-06
Also published as: KR20200012928A; KR102293063B1; CN110832578B; EP3619707A1; US10504511B2; WO2019019812A1; CN110832578A; EP3619707A4; JP2020525850A; EP3619707B1; US20190027138A1

Description

本開示は、方法、電子装置、家庭用機器ネットワークおよび記憶媒体に関するものである。

音声に基づくユーザインターフェースは、益々一般的になってきている。音声に基づくユーザインターフェースでは、人間と装置との間での音声命令による自然なコミュニケーションが可能になる。音声命令を利用するチャレンジの１つとして、装置は検出された音声が装置用の音声命令であるか否かを確定しなければならない。従来、音声命令が与えられる前に、ユーザはまず音声命令を受信するように装置を起動する。例えば、ユーザはボタンを押し又はアイコンをクリックすることにより、装置をトリガーして装置に音声命令の受信を準備させる。しかし、柔軟性に欠ける非音声インタラクションによれば、ユーザ体験が妨げられる。選択的に、装置は音声命令の受信を常時準備しなければならないが、これは効率的ではない。

カスタマイズウェイクアップ言葉の機能を提供することにより、本開示は従来技術の限界を克服している。

一実施例において、音声命令モジュールは、複数の家庭用機器を含む住環境において音声命令を実行するために用いられる。音声命令モジュールは、音声認識モジュールと、命令論理とを備える。音声認識モジュールは、ユーザから言葉を受信し、かつ、言葉を、ウェイクアップ命令に対応する新しいウェイクアップ言葉を定義するためのカスタマイズ命令を含む所定の命令語彙からの命令に変換する。命令論理は命令を実行する。カスタマイズ命令が受信されると、命令論理は、新しいウェイクアップ言葉が検出されるとウェイクアップ命令を実行するように、音声命令モジュールを変更する。音声命令モジュールは、意図認識モジュールをさらに含んでもよい。意図認識モジュールは、ユーザの意図を認識し、かつ、認識された意図に基づき、命令を生成する。命令は、家庭用機器及び／又は命令メインセンターをトリガーすることにより、認識された意図に適切に応答する。家庭用機器及び／又は命令メインセンターは、ユーザにより出された命令のように応答することができる。

他の側面は、部材、装置、システム、改良、方法、プロセス、アプリケーション、コンピュータ読み取り可能な媒体、及び上記の何れか１つに関する他の技術を含む。

本開示の実施例は、他の利点と特徴とを有するが、図面と合わせると、これらの他の利点と特徴とは、下記の具体的な実施形態及び添付の特許請求の範囲からさらに容易に明らかになる。上記図面には下記のものがある。
一実施例による住環境を音声制御する例を示す。一実施例によるカスタマイズ可能なウェイクアップ命令を配置する例示的なプロセスを示す。一実施例による、本願に記載されるようなカスタマイズされたウェイクアップ言葉により音声をアクティブにして家庭用機器を制御することを示す。一実施例による、図１に示す実体中の１つ又は複数の例示的な家庭用機器に用いられるハイレベル（ｈｉｇｈ−ｌｅｖｅｌ）ブロック図を示す。

図面は、種々の実施例を述べるために過ぎない。当業者は、下記の検討から、本願に記載される原理から逸脱することなく、本願に示す構造や方法に代わる実施例を採用できることを容易に理解できる。

図面と下記の明細書は、例を挙げて説明するだけで好ましい実施例を言及する。下記の検討から注意すべきことであるが、本願に開示される構造と方法に代わる実施例は、主張された権利の原理から逸脱することなく、採用される実行可能な代替としてされやすい。

ウェイクアップ言葉は、装置をトリガーして装置に命令の実行を用意させるための特別な単語又はフレーズである。ウェイクアップ言葉は、ウェイクアップ命令に対応する。例えば、ユーザは、ウェイクアップ言葉を他の音声命令ごと言い出し、装置は、ウェイクアップされて（すなわち、ウェイクアップ命令を実行して）音声命令を実行することで応答する。一般的に、具体的な装置配置（例えば、ハードコード）は、装置をトリガーして装置をウェイクアップするために、所定のウェイクアップ言葉を有する。これは、所定のウェイクアップ命令により、装置による予想できない応答を防止することができるためである。しかし、このために、ユーザは、ユーザに特有なウェイクアップ言葉を選択することができない。さらに後述されるように、本願に記載される実施例は、ユーザによるウェイクアップ言葉のカスタマイズが可能になる。

図１は、一実施例による住環境を音声制御する例を示す。この例において、人１０２は、「Ｇｏｒｔ、電子レンジのスイッチを入れ、強で６０秒。」を言い出すことにより、電子レンジ１１０のスイッチを入れるように命令メインセンター１０４へ指示する。ウェイクアップ言葉である「Ｇｏｒｔ」は既に人１０２によりカスタマイズされ、命令メインセンター１０４をアクティブにして人の音声の入力を処理し、かつ、人の音声命令に応答する。音声である「Ｇｏｒｔ」が検出されると、命令メインセンター１０４は、音声入力を解釈し、「電子レンジのスイッチを入れる」という命令を認識し、電子レンジ１１０をオンにすることにより命令に応答する。「命令メインセンター」は、本願において「メインセンター」とも称される。

メインセンター１０４は、常時にアクティブにされた状態にあるのではない。低電力モード（待機モード又はスリープモードとも称される）では、メインセンター１０４の１つ又は複数のモジュールと他の家庭用機器は、オフ（ｏｆｆ）状態にある。一例として、低電力モードでは、ウェイクアップ言葉の検出及び／又はユーザの意図の認識の外に、メインセンター１０４は、音声入力を解釈したり、命令に応答したりすることはできない。本願に記載されるように、アクティブにされた状態にあるとは、メインセンター１０４は、音声入力を、命令語彙からの命令及びその後命令を実行する状態に変換することである。命令、例えば、この例では「強で６０秒」の命令に応答する時に、メインセンター１０４は、ユーザからの別の入力を要求してもよい。

図示された例において、メインセンター１０４は、家庭用機器ネットワークを介して他の家庭用機器に接続される。他の家庭用機器は、例として、照明機器１０５、テレビ１０６と他のオーディオ／映像と娯楽装置、パワードア／ウィンドウ用品１０７、電気家具やインテリア、サーモスタットや他の環境制御器と冷暖房機器、冷蔵庫１０９、電子レンジ１１０や他の台所用機器、浴室用機器と家庭用ロボット装置を含む。この例において、メインセンター１０４は、装置のうちの１つ又は複数と分離し、ネットワーク（図示せず）を介して通信可能に装置のうちの１つ又は複数に接続される。ネットワークは、種々の技術で実施される無線又は有線ネットワークであってもよい。

命令メインセンター１０４は、マイクロホン１４０と、音声命令モジュール１５０と、スピーカ１６０とを備える。音声命令モジュール１５０は、ウェイクアップ検出モジュール１５２と、音声認識モジュール１５４と、命令論理１５６と、命令メモリ１５８と、意図認識モジュール１６２と、意図メモリ１６４とを備えるが、これらは全てさらに後述する。命令メインセンター１０４は、さらに、１つ又は複数のセンサ（図示せず）、例えば、運動センサ、カメラ、ＣＯ_２センサ、指紋スキャナー及び／又はリーダー、虹彩スキャナー及び／又はリーダーなどを含んであってもよい。センサは、命令メインセンター１０４と分離し、家庭用機器ネットワークにより命令メインセンター１０４に接続されることができる。

マイクロホン１４０は、例えば、ユーザによる音声入力のオーディオ入力を受信し、受信されたオーディオ入力を電気信号に変換する。ユーザはメインセンター１０４に喋り、かつ、マイクロホン１４０はユーザの言葉を採取する。スリープモードにおいて、マイクロホン１４０は、オンにしたままで、メインセンター１０４の周りの音を採取する。採取された音は、一定の期間緩衝記憶される。メインセンター１０４は、さらに、ユーザからの入力を受信するための他の入力部材、例えば、ボタン、キーボード、タッチスクリーン、タッチパネル、運動センサやカメラを備えてもよい。

ウェイクアップ検出モジュール１５２は、ウェイクアップ言葉を認識する。ウェイクアップ検出モジュール１５２は、音声又はフレーズ認識技術により音声入力を解釈し、ウェイクアップ言葉を検出する。例えば、ウェイクアップ検出モジュール１５２は、ウェイクアップ言葉を特徴づけるモデルを採用してもよい。幾つかの実施例において、モデルは、音響に基づくスペクトログラムである。他の実施例において、モデルは、ユーザに言い出された一連の単音を特徴づける単音モデルである。ユーザのウェイクアップ言葉の言葉開発モデルを利用してもよい。なお、モデルは、ユーザによりウェイクアップ言葉のような言葉のトレーニングデータを利用してトレーニングする普遍的モデルに基づいてもよい。ウェイクアップ検出モジュール１５２は、モデルを参照してユーザの音声入力を解析することで、ユーザがウェイクアップ言葉を言い出したか否かを検出する。ウェイクアップ検出モジュール１５２によりウェイクアップ言葉が検出された場合、ウェイクアップ検出モジュール１５２は、命令メインセンター１０４をトリガーすることにより、低電力モードでオフになった１つ又は複数のモジュールをオンにすることで、低電力モードから離れる。

幾つかの実施例において、ウェイクアップ検出モジュール１５２は、ユーザの身元を確認する。命令メインセンター１０４は、許可されたユーザだけに応答する。つまり、身元の分からないユーザが、許可されたユーザのメインセンター１０４をアクティブにするためのウェイクアップ言葉を言い出したとしても、命令メインセンター１０４は、当該身元の分からないユーザに応答しない。一例として、具体的なウェイクアップ命令に対して、１つ又は複数の許可されたユーザがウェイクアップ言葉を言い出した場合だけに、命令メインセンター１０４は応答する。他の実施例において、命令メインセンター１０４は、特定のウェイクアップ言葉を言い出した何れの人にも対応する。

ウェイクアップ検出モジュール１５２は、例えば、音声入力の特性でユーザの身元を確認する。一例として、ウェイクアップ検出モジュール１５２は、マイクロホンにより出力されたオーディオ信号の声紋を確定し、かつ、確定された声紋と、許可されたユーザに関連する声紋とを比較することにより、ユーザの身元を確認する。声紋は、人の音声と言葉の特性を表現する特徴を含む。特徴は、過渡的特徴又は音響スペクトル特徴であってもよい。音響的特徴（例えば、アクセント、周波数やニュアンス）及び／又は喋りモード（例えば、特定の単音や音節の強調又は省略、単音や音節間での休止時間など）は例示的な特徴である。ウェイクアップ検出モジュール１５２は、例えば、周波数推定、隠れマルコフモデル、混合ガウスモデル、モードマッチングアルゴリズム、ニューラルネットワーク、行列表現、ベクトル量子化、及び意思決定木の技術的決定と比較声紋を利用する。

幾つかの実施例において、ウェイクアップ検出モジュール１５２は、住環境の地域に置かれ、人１０２が当該地域にあるか、若しくは、当該地域の近くにあるかを確定する。人１０２が当該地域にあると、ウェイクアップ検出モジュール１５２は、メインセンター１０４をウェイクアップする。幾つかの実施例において、ウェイクアップ検出モジュール１５２は、当該地域にもある家庭用機器群をウェイクアップする。地域は、物理領域に対応するとともに、物理的に当該物理領域にある装置を含む。図示された例において、家屋１００は、台所、寝室と居間に対応する３つの地域１２０、１２２と１２４に分けられる。台所地域１２０には、冷蔵庫１０９と電子レンジ１１０が含まれる。居間地域１２２には、パワーウィンドウ用品１０７が含まれる。寝室地域１２４には、灯１０５とテレビ１０６が含まれる。ウェイクアップ検出モジュール１５２は、命令メインセンター１０４に対する人１０２の位置を確定し、当該位置と物理領域とを比較することにより、人１０２が特定地域にあるか否かを確定する。ウェイクアップ検出モジュール１５２は、例えば、ビーム形成技術及び／又は飛行時間技術といった種々の技術で人の位置を確定してもよい。

ユーザが幾つかの動作をする前に、意図認識モジュール１６２は、これらの動作を行うようなユーザの意図を認識する。本願に記載されるように、ユーザの意図は、ユーザが所定の期間に行う可能性のある動作である。例えば、ユーザがウェイクアップ言葉をカスタマイズするように図ると、ユーザがウェイクアップ言葉のカスタマイズを要求する前に、意図認識モジュール１６２は、ユーザの意図を認識する。他の一例として、ユーザが命令メインセンター１０４とインタラクションするように図ると、ユーザが命令メインセンター１０４にウェイクアップするように指示する前に、意図認識モジュール１６２は、ユーザの意図を認識する。更に他の一例として、ユーザが温度を調整するように図り得ると、ユーザが温度を調整する前に、意図認識モジュール１６２は、ユーザの意図を認識する。

ユーザの意図は、種々のセンサから受信されたデータにより確定することができ、その中、種々のセンサは、音声命令モジュール１５０に備えられ、又は、音声命令モジュール１５０に接続される。意図認識モジュール１６２は、ユーザの意図が確定されるようにデータを解析する。幾つかの実施例において、データは、イベントが検出されるように解析され、また、ユーザの意図は、検出されたイベントから確定することができる。幾つかの実施例において、ユーザの意図は、意図とイベントとの相関、及び／又は、センサから受信されたデータとの相関により確定されてもよい。イベントは、イベントとセンサから受信されたデータとの相関により確定されてもよい。相関は、全てのユーザに適用される一般的な相関、及び１つ又は複数の特定のユーザに適用されるユーザ特有相関を含む。ユーザの身元は、センサから受信されたデータにより確定されてもよい。ユーザの身元は、カメラから撮られた画像又は映像、例えば、画像又は面部認識技術を利用することにより確定されてもよい。ユーザの身元は、上述したような声紋により確定されてもよい。ユーザの身元は、その指紋及び／又は虹彩により確定されてもよい。相関は、意図メモリ１６４に記憶される。ユーザ特有相関は、ユーザ一とともに記憶される。

例えば、ユーザが手でボタンを押すことにより新しいウェイクアップ言葉を配置することが検出された場合に、意図認識モジュール１６２は、ユーザが新しいウェイクアップ言葉を配置する可能性が大きいことを確定する。例えば、カメラ及び／又は運動センサに出力されるデータが、ユーザの意図の認識に用いられる。他の一例として、ユーザが空の家屋に入ったことが検出された場合に、意図認識モジュール１６２は、ユーザが命令メインセンター１０４とインタラクションする可能性が大きいことを確定する。例えば、入口でのカメラ、ドアに近い運動センサ、及び／又はマイクロホンに出力されるデータが、ユーザの意図の認識に用いられる。また他の一例として、特定のユーザが部屋に１５分間も留まった場合に、意図認識モジュール１６２は、ユーザが部屋での温度と照明を調整しようとする可能性が大きいことを確定する。例えば、部屋での運動センサ、ＣＯ_２センサ、マイクロホン、及び／又はカメラに出力されるデータが、ユーザの身元とユーザの意図の確定に用いられる。さらに他の一例として、特定のユーザが、例えば、エアコンといった家庭用機器に近づいた場合に、意図認識モジュール１６２は、ユーザがエアコンとインタラクション可能性が大きいことを確定する。例えば、エアコンと同一の部屋でのカメラ、ＣＯ_２センサ、マイクロホン、及び／又はカメラに出力されるデータが、ユーザの身元とユーザの意図の確定に用いられる。

意図認識モジュール１６２は、確定された意図に基づき、命令を生成する。命令は、所望の動作に対して応答するように、命令メインセンター１０４及び／又は家庭用機器をトリガーする。ユーザが所望の動作をすると、命令を生成する。それで、ユーザが所望の動作を確実にする前に、命令メインセンター１０４及び／又は家庭用機器は、ユーザが既に所望の動作をした場合のように応答する。命令は、確定された意図をユーザに確認することにより、命令メインセンター１０４及び／又は家庭用機器をトリガーして応答してもよい。例えば、ユーザが新しいウェイクアップ言葉を配置する可能性が大きいと、意図認識モジュール１６２は、命令メインセンター１０４をトリガーするように命令を生成することにより、ユーザに新しいウェイクアップ言葉を配置したいか否かを尋ねる。他の例として、ユーザが命令メインセンター１０４とインタラクションしようとする可能性が大きいと、意図認識モジュール１６２は、ウェイクアップ命令を生成する。従って、ユーザが命令を言い出したものの、ウェイクアップ言葉を言い出していないと、命令メインセンター１０４はユーザに応答する。また他の一例として、ユーザが温度を調整しようとする可能性が大きいと、意図認識モジュール１６２は、ユーザの好みにより温度が調整されるように、命令を生成する。さらに他の一例として、ユーザがエアコンとインタラクションしようとする可能性が大きいと、意図認識モジュール１６２は、ユーザインターフェースを見せるように命令を生成し、当該ユーザインターフェースは、ユーザが手動でエアコンをトリガーして応答する必要がないように、関連する選択肢をユーザに見せる。

音声認識モジュール１５４は、ユーザの言葉を解釈することにより、命令を認識する。それは、一般的に、言葉を所定の命令語彙からの命令に変換する。一実施例において、音声認識モジュール１５４は、命令が認識されるように、ユーザの言葉における単語を認識する。命令メモリ１５８は、言葉と命令との相関を記憶する。音声認識モジュール１５４は、大語彙音声認識技術により、ユーザの言葉を解釈することができる。特定のウェイクアップ命令だけを認識するウェイクアップ検出モジュール１５２に比べると、音声認識モジュール１５４は、より大きい演算密度を実行する。幾つかの実施例において、装置がスリープモードにある場合に、音声認識モジュール１５４はオフになり、音声認識モジュール１５４は、メインセンター１０４がアクティブにされた場合だけに命令を認識する。ウェイクアップ命令が命令の前に、又は、後で現すことができるので、命令メインセンター１０４がスリープモードからアクティブにされると、音声認識モジュール１５４は、前に緩衝記憶されたユーザの言葉、及び現在採取されているユーザの言葉を処理する。幾つかの実施例において、音声認識モジュール１５４の機能は、全部又は一部でクラウドのサービスにより提供される。メインセンター１０４は、処理のために、ユーザの言葉を、クラウドサービスを提供する１つ又は複数のサーバに提供する。

命令論理１５６は、音声認識モジュール１５４、及び／又は、意図認識モジュール１６２から命令を受信し、かつ、命令を実行する。可能な命令のうちの１つは、新しいウェイクアップ言葉を、ウェイクアップ命令と定義するカスタマイズ命令である。初期設定されたウェイクアップ言葉は、「コンピュータ」であってもよいが、現在、ユーザは、言葉を「Ｇｏｒｔ」に変換しようとする。命令論理１５６は、ユーザに用いられるカスタマイズ命令を実行する。ユーザが、メインセンター１０４に用いられるウェイクアップ言葉をカスタマイズするように要求する場合、ユーザは、カスタマイズ命令を言い出した後、ウェイクアップ命令に対応する新しいウェイクアップ言葉を言い出す。命令メインセンター１０４は、ユーザの言葉を採取する。幾つかの実施例において、命令論理１５６は、ユーザの言葉から新しいウェイクアップ言葉を認識し、かつ、将来のウェイクアップ検出のために、新しいウェイクアップ言葉の表現を命令メモリ１５８に記憶する。

ウェイクアップ言葉は、様々な方式でカスタマイズすることができる。例えば、異なるユーザは、命令メインセンター１０４を、ユーザによって異なるウェイクアップ言葉が用いられるように配置することができる。幾つかの実施例において、命令論理１５６は、認識されたウェイクアップ言葉を、当該ウェイクアップ言葉を利用するように設置するようなユーザだけに関連付ける。例えば、エドマンドとハリーは、共に「Ｇｏｒｔ」を、ウェイクアップ命令をトリガーする言葉として利用するが、マイケルは、「Ｄｏｌｏｒｅｓ」でウェイクアップ命令をトリガーする。命令論理１５６は、ウェイクアップ言葉である「Ｇｏｒｔ」をエドマンドとハリーに関連付ける一方、ウェイクアップ言葉である「Ｄｏｌｏｒｅｓ」をマイケルに関連付ける。ユーザの特別なユーザＩＤによりユーザを特定する。選択的に、命令メインセンター１０４は、全てのユーザが同一の（複数の）ウェイクアップ言葉を利用するように配置してもよい。例えば、マイケルが最近、メインセンターを配置したとすれば、全てのユーザに対して、ウェイクアップ言葉は、「Ｄｏｌｏｒｅｓ」であってもよい。選択的に、「Ｇｏｒｔ」と「Ｄｏｌｏｒｅｓ」は、共にウェイクアップ言葉として検出されてもよい。

命令論理１５６は、ウェイクアップ命令の言葉を特徴づけるモデルを発生させることができ、当該モデルは、ウェイクアップ検出モジュール１５２によりウェイクアップ命令を認識するためである。命令論理１５６は、ウェイクアップ言葉を特徴づけるモデルを取得することができ、当該モデルは、例えば、クラウドサービスからのトレーニングデータを利用してオフラインでトレーニングする。幾つかの実施例において、モデルは、ユーザのウェイクアップ命令言葉を特徴づける言葉モデルを含む。ウェイクアップ言葉モデルは、ユーザのウェイクアップ命令言葉の特性を表現する特徴、例えば、単音、単音列、音声距離、音素、音素間での遷移、２音、３音や音節等を含む。特徴は、下記にさらに記載されるようなユーザの音声の特性を表現する特徴をさらに含んでもよい。命令論理１５６は、ユーザの別のウェイクアップ命令言葉、及び／又は、アップデートトレーニングデータを利用してモデルをアップデートしもよい。モデルは、ユーザに関連付けて命令メモリ１５８に記憶される。

幾つかの実施例において、命令論理１５６は、ユーザに用いられる声紋をさらに開発する。ユーザが喋る時に、命令論理１５６は、ユーザに用いられる声紋を発生させる。例えば、命令論理１５６は、ユーザに、自由に喋る（テキストと関係なし）ように指令し、又は、指示によって喋り（テキストに依存）、以采集ユーザの音声と言葉の特徴。幾つかの実施例において、ユーザのために声紋を作成した後、命令論理１５６は、さらに、ユーザが命令メインセンター１０４とインタラクションする時に利用可能な別のサンプルで声紋をアップデートする。

幾つかの実施例において、命令論理１５６は、新しいウェイクアップ言葉が混乱を引き起こす可能性があるか否かを評価する。命令メインセンター１０４が不意にウェイクアップされる可能性が大きい、又は、ユーザに望まれるようにウェイクアップされることがあまりあり得ないと、ウェイクアップ言葉は、混乱を引き起こす可能性が大きい。例えば、よく用いられる、他の単語に類似するように聞こえる、又は、既に異なった命令を特徴づけるために用いられたウェイクアップ音声は、混乱を引き起こす可能性が大きい。１つの方法では、命令論理１５６は、例えば、使用目的、使用頻度、又は、音声同様程度のうちの１つ又は複数に基づき、点数を算出することにより、混乱の可能性を評価する。

既存の命令をチェックすることにより、使用目的を確かめることができる。例えば、如果「Ｇｏｒｔ」は、電子レンジをオンにするための命令としてエンコードされたとすれば、それを命令メインセンター１０４へのウェイクアップ言葉として用いると、混乱を引き起こす可能性が大きい。英語や他の言語の言語データベースから、又は、特定のユーザの使用の監視から使用頻度を確定する。単語における一部の音節の発音を含む単語の発音と、一部の発音を含む他の単語の発音とを比較することにより、音声の類似度を確定することができる。ウェイクアップ言葉が混乱を引き起こす可能性が大きいと、命令論理１５６は、ユーザに警告し、かつ、ウェイクアップ言葉を使用するように設置する前にユーザと確かめる。選択的に、ウェイクアップ言葉が混乱を引き起こす可能性が大きいと、命令論理１５６は、ユーザに、異なるウェイクアップ言葉を選択するように示唆する。ユーザがウェイクアップ言葉をアップデートするように要求すると、命令論理１５６は、命令メモリ１５８に記憶されたウェイクアップ言葉をアップデートする。ウェイクアップ言葉をアップデートするプロセスは、上述したようなウェイクアップ言葉を作成するプロセスと同様である。

幾つかの実施例において、命令論理１５６は、入力された単語が汚い言葉や他の禁じられた言葉であるか否かをチェックし、かつ、ユーザに、その代わりに異なるウェイクアップ言葉を使用するように示唆する。

幾つかの実施例において、特定の命令メインセンターは、特定のウェイクアップ言葉に関連付けられる。命令論理１５６は、特定のユーザのウェイクアップ言葉を命令メモリ１５８に記憶する。幾つかの実施例において、特定の命令メインセンターに対して、それぞれのユーザは、それぞれのウェイクアップ言葉を使用するように配置することができる。命令論理１５６は、ウェイクアップ言葉を対応するユーザに関連付けるとともに、ウェイクアップ言葉とその相関を命令メモリ１５８に記憶する。

幾つかの実施例において、ユーザは、装置群が同一のウェイクアップ命令によりアクティブにされるように配置する。ユーザは、上述したようなプロセスを使用することにより、装置群における１つの装置を配置する。幾つかの実施例において、命令論理１５６は、ウェイクアップ命令を装置群に関連付ける。メインセンター１０４自身がウェイクアップされると、メインセンター１０４は、装置群における他の装置をウェイクアップするようにトリガーし、その中、例えば、ウェイクアップ信号を送信することにより他の装置をウェイクアップするようにトリガーしてもよい。幾つかの実施例において、命令論理１５６は、ウェイクアップ言葉を装置群に分配する。装置群は同一の地域にあってもよい。ユーザは、群における１つの装置をウェイクアップすることにより、群における全ての装置をウェイクアップするように配置してもよい。ユーザにより、群を新しい装置を含み、又は、既存の装置を除去するようにアップデートすると、命令論理１５６は、ウェイクアップ言葉を新しい装置に広げ、又は、除去された装置からウェイクアップ言葉の配置を除去する。

図１に戻すと、スピーカ１６０は、音をユーザに出力することで、例えば、警告、警報、確認、指令といった異なる意味を指示する。従って、ユーザは、音声を介して音声制御メインセンター１０４とインタラクションする。命令メインセンター１０４は、例えば、ディスプレイや振動素子の別の又は代替出力インターフェースを備えてもよい。

図示された例において、音声命令モジュール１５０は、自律装置の命令メインセンター１０４に実施される。音声命令モジュール１５０及びその部材は、モバイル装置（例えば、スマートフォン、タブレット型パソコンや携帯用のコンピュータ）、デスクトップコンピュータや仮想アシスタントに実施されてもよい。それは、例えば、上述したような家庭用機器に集積され、又は、例えば上述したような家庭用機器として実施されてもよい。

図２は、一実施例による、カスタマイズ可能なウェイクアップ命令を配置する例示的なプロセスを示す。エドマンド１０２は、命令メインセンター１０４に用いられるウェイクアップ言葉を設置又は変更するように要求する（２０２）。装置の能力と配置によって、ユーザは、様々な方式でウェイクアップ言葉を設置するように要求することができる。例えば、ユーザは、「ウェイクアップ命令を配置しろ」という音声命令を出し、ボタンを押し、又は、ユーザの携帯電話に表示された「ウェイクアップ命令を配置する」をクリックする。メインセンター１０４は、エドマンド１０２から要求を受信する（２０４）。幾つかの実施例において、メインセンター１０４は、最初に、ウェイクアップ命令の配置のために用意する状態にある。例えば、メインセンター１０４は、それがクラウドサービス２００に接続されたか否かをチェックし、接続されていない場合には、ユーザの身元が既知であるか否かを認識し、ユーザが未知であると、ユーザにユーザ１Ｄを指定するなど。メインセンター１０４は応答をエドマンドに送信する（２０６）ことにより、メインセンター１０４にウェイクアップ命令の配置に用意するように指示する。応答は、音、光指示、振動、ビデオディスプレーやメインセンター１０４の配置に依存する他の形であってもよい。エドマンド１０２は「Ｇｏｒｔ」を言う（２０８）。幾つかの実施例において、メインセンター１０４は、ユーザにウェイクアップ言葉を数回繰り返すようにガイドする。

メインセンター１０４は、エドマンドの言葉である音声入力を受信する（２１０）。装置は、受信された音声入力をクラウドサービス２００に送信する（２１２）。下記にさらに記載されるように、クラウドサービス２００は、受信された音声入力を処理する。この例において、クラウドサービス２００は、例えば、大語彙音声認識技術を使用することにより、（複数の）単語（例えば、「Ｇｏｒｔ」）を認識する（２１４）。クラウドサービス２００は、例えば、隠れマルコフモデル、ディープフィードフォワードニューラルネットワークや他の大語彙音声認識モデルの技術を利用することにより、ユーザに言われた１つ又は複数の単語を認識することができる。クラウドサービス２００は、何れの単語が認識されたかをチェックする（２１６）。

認識された単語について、クラウドサービス２００は、混乱の可能性、混乱に反映される、命令メインセンター１０４が不意にアクティブにされる、又は、ユーザにより所望に応じてアクティブにされない可能性を算出する（２１８）。ウェイクアップ言葉は、他の命令に用いられるようにエンコードされた、又は、日常会話によく用いられるとすれば、当該ウェイクアップ言葉を使用すると、不意に命令メインセンター１０４をアクティブにする可能性が大きい。ウェイクアップ言葉は、他の単語に類似するように聞こえるとすれば、当該ウェイクアップ言葉を使用すると、命令メインセンター１０４が所望に応じてアクティブにされない可能性が大きい。クラウドサービス２００は、算出された可能性と閾値とを比較する（２２０）ことにより、ユーザの選択が混乱を引き起こす可能性が大きいか否かを確定する。当該選択が混乱を引き起こす可能性があまりないと確定されると、クラウドサービス２００は、当該単語のユーザ言葉を特徴づけるモデルを作成する（２２２）。モデルは、汎用型であってもよく、例えば、多くの話者のウェイクアップ命令言葉によるトレーニングデータを利用することにより開発される。モデルは、特定のユーザの言葉を特徴づけてもよい。クラウドサービス２００は、命令メインセンター１０４に、認識された言葉とモデルを提供する（２２４）。命令メインセンター１０４は言葉とモデルを記憶する（２２６）。命令メインセンター１０４は、ウェイクアップ言葉を認識するために、当該モデルを使用する。幾つかの実施例において、クラウドサービス２００は、モデルだけを命令メインセンター１０４に提供する。メインセンター１０４は、確認をユーザ１０２に送信し（２２８）、ウェイクアップ命令の配置が成功したことを指示する。確認は、音、光指示、振動、ビデオディスプレーやメインセンター１０４の配置に依存する他の形であってもよい。

幾つかの実施例において、クラウドサービス２００は、認識された言葉を、ユーザと、及び命令メインセンター１０４と関連付け、かつ当該相関を記憶する。クラウドサービス２００は、ユーザのために作成されたモデルをさらに記憶する。

クラウドサービス２００により、認識された単語がなく、又は、認識された単語により、単語が混乱を引き起こす可能性が閾値を超えたと確定されると、クラウドサービス２００は、警告を命令メインセンター１０４に送信する（２０３）。他の実施において、クラウドサービス２００により、認識された単語がないと確定されても、クラウドサービス２００は、ユーザの音声入力に基づき、言葉モデル２２２を作成する。メインセンター１０４は、警告をエドマンド１０２に送信し（２３２）、配置が成功していないことを指示する。

この例では、クラウドサービス２００は、単語を認識し、かつ、単語が認識されたか否かを確定し、混乱の可能性を算出し、かつ、単語が混乱を引き起こす可能性が大きいか否かを確かめ、また、単語及び／又は単語の言葉を特徴づけるモデルを作成する。これらの操作のうちの１つ又は複数は、命令メインセンター１０４により実行可能である。

図３は、一実施例による、本願に記載されるようなカスタマイズされたウェイクアップ言葉により、命令メインセンター１０４をアクティブにする例示的なプロセスを示す。図３に係る検討では、命令メインセンター１０４は、最初にスリープモードにあり、音声命令の実行に用意していない。ユーザは、幾つかの言葉を言い出す（３０２）。メインセンター１０４は、低電力モードにあるが、それが周りの環境における声を検出する。メインセンター１０４は、音声入力を受信する（３０４）。音声入力は緩衝記憶される。メインセンター１０４は、ユーザ１０２が許可されたユーザであるか否かを確かめる。例えば、メインセンター１０４は、受信された音声入力により声紋を確かめるとともに、ユーザの声紋を、メインセンター１０４の使用が許可されたユーザの声紋とをマッチングする。マッチングが認識された場合に、メインセンター１０４は、当該ユーザを許可されたユーザと確定する。ユーザが許可されたユーザではないと、メインセンター１０４は、引き続き周りの環境での声の入力を監視する。幾つかの実施例において、メインセンター１０４は、ユーザの身元に基づき、ウェイクアップ命令を認識する。メインセンター１０４は、ユーザに対応するウェイクアップ言葉を調べる。

ユーザ１０２が許可されたユーザであると、メインセンター１０４は、ユーザの音声入力がウェイクアップ言葉を含むか否かを確かめる（３０８）。1つ又は複数の音声認識技術によりウェイクアップ命令の認識を実行してもよい。低電力モードの幾つかの実施例において、命令メインセンター１０４は、メインセンター１０４の使用が許可されたユーザだけに配置された１つ又は複数のウェイクアップ言葉と配置される。例えば、命令メインセンター１０４は、ウェイクアップ命令のウェイクアップ言葉、及び／又はユーザ言葉を特徴づける１つ又は複数のモデルにより、ウェイクアップ言葉を認識し、モデルは、例えば、隠れマルコフ、混合ガウスモデル、大辞典、及び／又は、自然言語処理アルゴリズムである。認識されたウェイクアップ言葉がないと、命令メインセンターは、引き続き周りの環境での声の入力を監視する。

ユーザ１０２に用いられるウェイクアップ命令が認識されると、命令メインセンター１０４は、アクティブにされるように、低電力モードからウェイクアップされる（３１０）。命令メインセンター１０４は、ユーザ１０２に、命令メインセンター１０４がアクティブにされたように指示することができる。ウェイクアップ命令が検出された後、命令メインセンター１０４は、ユーザ１０２により言い出された別の音声入力を受信することができる（３１２）。命令メインセンター１０４は、１つ又は複数の命令の認識のために、音声入力をクラウドサービス２００に送信する（３１４）。送信される音声入力は、ユーザ１０２からウェイクアップ命令を言い出してからの期間に言い出された音声入力を含む。例えば、ユーザ１０２は、「今は何時、Ｇｏｒｔ？僕の次のデートは何時？」と言い出し、「今は何時」という音声入力はクラウドサービス２００に解析するように送信されるが、それは、ウェイクアップ命令である「Ｇｏｒｔ」を言い出してからの一定の期間に言い出されたことからである。メインセンター１０４は、「今は何時」と「僕の次のデートは何時」という音声入力を、クラウドサービス２００に解析するように送信する。

クラウドサービス２００は、受信された音声入力からの命令を認識する（３１６）。クラウドサービス２００は、ユーザの音声入力を解釈可能な例えば声学モデル又は言語モデルの音声認識技術又は自然言語処理技術を利用する。１つ前の例に引き続き、クラウドサービス２００は、「今は何時」と「僕の次のデートは何時」という音声入力から、「時間」と「カレンダー」という命令を認識する。クラウドサービス２００は、認識された（複数の）命令をメインセンター１０４に送信する（３１８）。メインセンター１０４は、受信された命令を実行する（３２０）。メインセンター１０４は、ユーザ１０２に、要求された結果又は確認された応答を送信する（３２２）。例えば、メインセンター１０４は、現在の時間とカレンダーで次のイベントをユーザ１０２に返す。認識された命令がなく、又は、メインセンター１０４が認識された命令を実行することができないと、メインセンター１０４はそれに応じてユーザに警告する。

図４は、図１に示す部材を実施するための例示的な装置４００を示すハイレベルブロック図である。装置４００は、少なくとも１つのプロセッサ４０２と、内部メモリ制御メインセンター４２０と、入力／出力（Ｉ／Ｏ）制御メインセンター４２２とを含むチップ／チップセット４０４を備える。内部メモリ４０６は、内部メモリ制御メインセンター４２０に接続される。記憶装置４０８、Ｉ／Ｏインターフェース４１４、及びネットワークアダプター４１６は、Ｉ／Ｏ制御メインセンター４２２に接続される。装置４００の他の実施例は、異なる構造を有する。

記憶装置４０８は、非一時的なコンピュータ読み取り可能な記憶媒体、例えば、ハードディスクドライブ、ＣＤ−ＲＯＭ、ＤＶＤや固体記憶装置である。内部メモリ４０６は、プロセッサ４０２に使用される指令とデータを保持する。Ｉ／Ｏインターフェース４１４は例えば、マイクロホン、タッチスクリーンインターフェース、マウス、トラックボールや他のタイプのポインティングデバイス、キーボードやその幾つかを組み合わせた装置をサポートすることができ、データを装置４００に入力するためである。幾つかの実施例において、装置４００は、ユーザによるジェスチャー（ｇｅｓｔｕｒｅｓ）を介してＩ／Ｏインターフェース４１４から入力（例えば、命令）を受信するように配置されてもよい。Ｉ／Ｏインターフェースは、出力、例えば、ディスプレイやスピーカをサポートすることもできる。ネットワークアダプター４１６は、装置４００を１つ又は複数のコンピュータネットワークに接続する。

装置４００は、本願に記載される機能を果たすためのコンピュータプログラムモジュールの実行に適用される。本願に用いられるように、「モジュール」という用語は、所定の機能を果たすためのコンピュータプログラム論理を意味する。従って、モジュールは、ハードウェア、ファームウェア及び／又はソフトウェアに実施可能である。一実施例において、プログラムモジュールは、記憶装置４０８に記憶され、内部メモリ４０６にロードされ、プロセッサ４０２により実行される。

図１の実体に用いられる装置４００のタイプは、実施例と実体に要求される処理能力によって異なってもよい。例えば、クラウドサービスは、単一の装置４００において、又は、例えば、サーバ群のネットワークを介して互いに通信している複数のコンピュータ４００において動作することができる。コンピュータ４００は、上述したような部材のうちの幾つかを含まなくてもよい。

本開示の特定の実施例と応用を示して記載したが、実施例は、本願に開示された精確な構造と部材に制限されず、本開示の精神と範囲から逸脱することなく、本願に開示された本開示の方法及び機器の配置、操作や細部に様々な修正、変更と変形を行うことができることが理解すべきである。例えば、音声命令モジュール１５０は、それぞれ、中央命令メインセンター１０４ではなく、単一の家庭用機器において独立して実施されてもよい。他の例として、ウェイクアップ検出モジュール１５２は、独立した部材ではなく、全音声認識モジュール１５４と命令論理１５６の一部として実施されてもよい。

上述した幾つかの部分は、アルゴリズムプロセスと操作において実施例を記載した。これらのアルゴリズムの記載と表現は、データ処理分野における技術者により、それらの仕事の基本的な内容を有効に本分野における他の技術者に伝えることによく用いられる。機能、演算や論理においてこれらの操作を記載したが、これらの操作は、プロセッサ又は等価回路により実行される指令、マイクロ指令などを含むコンピュータプログラムにより実施されると理解すべきである。なお、一般性を失うことなく、場合によっては、機能操作のような配置をモジュールと称することも便利である。記載される操作及びその関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、又はその何れかの組合せにより実現されてもよい。

本願に用いられるように、「一実施例」又は「実施例」についての何れの引用も、実施例に合わせて記載された特定の素子、特徴、構造、又は特徴が、少なくとも１つの実施例に含まれることを意味する。明細書に各箇所に現れた「一実施例において」というフレーズは、必ずしも全て同一の実施例を意味することではない。

本願に用いられるように、「含む」、「備える」、「有する」という用語、又は、その何れの変形も、非排他的な包含をカバーすることを意図する。例えば、一連の素子を含むプロセス、方法、物品や機器は、必ずしもそれらの素子に制限されず、明らかに挙げられていない、又は、この種類のプロセス、方法、物品や機器に固有の他の素子を含んでもよい。なお、反対する意味を明らかに指摘しない限り、「又は」とは、排他的な「又は」ではなく、包含的な「又は」を意味する。例えば、条件Ａ又はＢは、Ａが真（又は、ある）でＢが偽（又は、無い）であり、Ａが偽（又は、無い）でＢが真（又は、ある）であり、及び、ＡとＢが共に真（又は、ある）である、ということの何れか一項により満たされる。

なお、「１つ」又は「1種」は、本願における実施例の素子と部材を記載するために用いられる。これは、便宜のために過ぎず、本開示の一般的な意味を表す。当該記載は、１つ又は少なくとも１つを含むと理解すべきであり、明らかに他の意味がない限り、単数には複数も含まれる。

Claims

少なくとも１つのプロセッサを備える電子装置において実行される方法であって、
ユーザから言葉を受信し、かつ、前記言葉を、ウェイクアップ命令に対応する新しいウェイクアップ言葉を定義するためのカスタマイズ命令を含む所定の命令語彙からの命令に変換するステップと、
１つのユーザから受信された第１の言葉がカスタマイズ命令に対応すると確定したことに応じて、前記カスタマイズ命令を用いて前記ウェイクアップ命令に対応する新しいウェイクアップ言葉を定義するステップと、
前記ユーザから第２の言葉を受信するステップと、
前記第２の言葉を、前記ウェイクアップ命令に対応する新しいウェイクアップ言葉として用いることにより混乱を引き起こす可能性を確定するステップと、
前記混乱を引き起こす可能性が閾値よりも低いと確定したことに応じて、前記第２の言葉を、前記新ウェイクアップ命令に対応する新しいウェイクアップ言葉として設定するステップと、を含み、
前記ウェイクアップ命令は、第１地域に対応する家庭用機器群をウェイクアップし、前記家庭用機器群は、最初に前記ウェイクアップ命令によりウェイクアップされる第１家庭用機器と、前記第１地域にあるとともに、前記第１家庭用機器から前記ウェイクアップ命令を受信する１つ又は複数の第２家庭用機器とを含む
方法。
第２の言葉を、前記ウェイクアップ命令に対応する新しいウェイクアップ言葉として用いることにより混乱を引き起こす可能性を確定する前記ステップは、
少なくとも部分的に、前記第２の言葉の第１選定言語データベースにおける使用頻度に基づいて、混乱を引き起こす可能性を確定することを含む
ことを特徴とする請求項１に記載の方法。
前記混乱を引き起こす可能性が前記閾値よりも高いと確定したことに応じて、前記ユーザのために警告を生成するステップをさらに含む
ことを特徴とする請求項１に記載の方法。
１つ又は複数のセンサからデータを受信することと、
受信されたデータを使用して、前記ユーザが行う可能性の高い動作に対応するユーザの意図を認識することと、
少なくとも１つの家庭用機器に前記動作に対応する応答を行わせるような、前記ユーザの意図に対応する命令を生成することと、をさらに含む
ことを特徴とする請求項１に記載の方法。
前記電子装置は、家庭用機器ネットワークのメインセンターに用いられ、前記メインセンターは、１つ又は複数の家庭用機器の命令を実行し、かつ、前記メインセンターは前記ウェイクアップ命令によりウェイクアップされる
ことを特徴とする請求項１に記載の方法。
異なるユーザからの異なるウェイクアップ言葉を同一のウェイクアップ命令に変換することをさらに含む
ことを特徴とする請求項１に記載の方法。
前記異なるユーザの異なるウェイクアップ言葉は、前記ユーザにより定義された第１ウェイクアップ言葉と、別のユーザにより定義された第２ウェイクアップ言葉とを含み、かつ、
前記第１ウェイクアップ言葉と前記第２ウェイクアップ言葉とは、異なるテキストに対応する
ことを特徴とする請求項６に記載の方法。
新しい家庭用機器を前記第１地域に対応する家庭用機器群に追加するユーザ入力を検出するステップと、
新しい家庭用機器を前記第１地域に対応する家庭用機器群に追加するユーザ入力が検出された後、前記第１地域に対応する家庭用機器群のうちの１つの家庭用機器によって既に前記新ウェイクアップ命令が受信されたと確定したことに応じて、前記家庭用機器群に追加された新しい家庭用機器がウェイクアップされるように前記ウェイクアップ命令を自動拡張するステップと、をさらに含む
ことを特徴とする請求項１に記載の方法。
入力バッファに記録された音声入力をウェイクアップ検出モジュールに送信するステップと、
前記音声入力の中から前記新しいウェイクアップ言葉を検出するステップと、
ユーザの意図が確定されるように、前記新ウェイクアップ音声の前に前記入力バッファに記録された音声入力フラグメントをサーバに伝送するステップと、をさらに含む
ことを特徴とする請求項１に記載の方法。
さらに、前記第２の言葉が現在、前記所定の命令語彙のうちの一つとして用いられているか否かに基づいて、前記第２の言葉を前記ウェイクアップ命令に対応する新しいウェイクアップ言葉として用いることにより混乱を引き起こす可能性を確定する
ことを特徴とする請求項１に記載の方法。
さらに、前記第２の言葉と他の言葉との発音の類似度に基づいて、前記第２の言葉を前記ウェイクアップ命令に対応する新しいウェイクアップ言葉として用いることにより混乱を引き起こす可能性を確定する
ことを特徴とする請求項１に記載の方法。
前記新しいウェイクアップ言葉と前記第２の言葉を発話したユーザとを関連付けることをさらに含む
ことを特徴とする請求項１に記載の方法。
プログラム指令を記憶しているメモリと、前記プログラム指令を実行して請求項１〜１２の何れか一項に記載の方法を実行するプロセッサとを含む
ことを特徴とする電子装置。
家庭用機器ネットワークを介して接続される複数の家庭用機器と、
請求項１３に記載の電子装置と、を含む
ことを特徴とする住環境における家庭用機器ネットワーク。
指令を含むコンピュータ読み取り可能な記憶媒体であって、前記指令がコンピュータに実行されると、前記コンピュータは、請求項１〜１２の何れか一項に記載の方法を実行する
ことを特徴とするコンピュータ読み取り可能な記憶媒体。