JP6887031B2 - 方法、電子装置、家庭用機器ネットワークおよび記憶媒体 - Google Patents

方法、電子装置、家庭用機器ネットワークおよび記憶媒体 Download PDF

Info

Publication number
JP6887031B2
JP6887031B2 JP2019572631A JP2019572631A JP6887031B2 JP 6887031 B2 JP6887031 B2 JP 6887031B2 JP 2019572631 A JP2019572631 A JP 2019572631A JP 2019572631 A JP2019572631 A JP 2019572631A JP 6887031 B2 JP6887031 B2 JP 6887031B2
Authority
JP
Japan
Prior art keywords
user
word
wake
instruction
wakeup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019572631A
Other languages
English (en)
Other versions
JP2020525850A (ja
Inventor
王冬岩
顧海松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Midea Group Co Ltd
Original Assignee
Midea Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Midea Group Co Ltd filed Critical Midea Group Co Ltd
Publication of JP2020525850A publication Critical patent/JP2020525850A/ja
Application granted granted Critical
Publication of JP6887031B2 publication Critical patent/JP6887031B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、方法、電子装置、家庭用機器ネットワークおよび記憶媒体に関するものである。
音声に基づくユーザインターフェースは、益々一般的になってきている。音声に基づくユーザインターフェースでは、人間と装置との間での音声命令による自然なコミュニケーションが可能になる。音声命令を利用するチャレンジの1つとして、装置は検出された音声が装置用の音声命令であるか否かを確定しなければならない。従来、音声命令が与えられる前に、ユーザはまず音声命令を受信するように装置を起動する。例えば、ユーザはボタンを押し又はアイコンをクリックすることにより、装置をトリガーして装置に音声命令の受信を準備させる。しかし、柔軟性に欠ける非音声インタラクションによれば、ユーザ体験が妨げられる。選択的に、装置は音声命令の受信を常時準備しなければならないが、これは効率的ではない。
カスタマイズウェイクアップ言葉の機能を提供することにより、本開示は従来技術の限界を克服している。
一実施例において、音声命令モジュールは、複数の家庭用機器を含む住環境において音声命令を実行するために用いられる。音声命令モジュールは、音声認識モジュールと、命令論理とを備える。音声認識モジュールは、ユーザから言葉を受信し、かつ、言葉を、ウェイクアップ命令に対応する新しいウェイクアップ言葉を定義するためのカスタマイズ命令を含む所定の命令語彙からの命令に変換する。命令論理は命令を実行する。カスタマイズ命令が受信されると、命令論理は、新しいウェイクアップ言葉が検出されるとウェイクアップ命令を実行するように、音声命令モジュールを変更する。音声命令モジュールは、意図認識モジュールをさらに含んでもよい。意図認識モジュールは、ユーザの意図を認識し、かつ、認識された意図に基づき、命令を生成する。命令は、家庭用機器及び/又は命令メインセンターをトリガーすることにより、認識された意図に適切に応答する。家庭用機器及び/又は命令メインセンターは、ユーザにより出された命令のように応答することができる。
他の側面は、部材、装置、システム、改良、方法、プロセス、アプリケーション、コンピュータ読み取り可能な媒体、及び上記の何れか1つに関する他の技術を含む。
本開示の実施例は、他の利点と特徴とを有するが、図面と合わせると、これらの他の利点と特徴とは、下記の具体的な実施形態及び添付の特許請求の範囲からさらに容易に明らかになる。上記図面には下記のものがある。
一実施例による住環境を音声制御する例を示す。 一実施例によるカスタマイズ可能なウェイクアップ命令を配置する例示的なプロセスを示す。 一実施例による、本願に記載されるようなカスタマイズされたウェイクアップ言葉により音声をアクティブにして家庭用機器を制御することを示す。 一実施例による、図1に示す実体中の1つ又は複数の例示的な家庭用機器に用いられるハイレベル(high−level)ブロック図を示す。
図面は、種々の実施例を述べるために過ぎない。当業者は、下記の検討から、本願に記載される原理から逸脱することなく、本願に示す構造や方法に代わる実施例を採用できることを容易に理解できる。
図面と下記の明細書は、例を挙げて説明するだけで好ましい実施例を言及する。下記の検討から注意すべきことであるが、本願に開示される構造と方法に代わる実施例は、主張された権利の原理から逸脱することなく、採用される実行可能な代替としてされやすい。
ウェイクアップ言葉は、装置をトリガーして装置に命令の実行を用意させるための特別な単語又はフレーズである。ウェイクアップ言葉は、ウェイクアップ命令に対応する。例えば、ユーザは、ウェイクアップ言葉を他の音声命令ごと言い出し、装置は、ウェイクアップされて(すなわち、ウェイクアップ命令を実行して)音声命令を実行することで応答する。一般的に、具体的な装置配置(例えば、ハードコード)は、装置をトリガーして装置をウェイクアップするために、所定のウェイクアップ言葉を有する。これは、所定のウェイクアップ命令により、装置による予想できない応答を防止することができるためである。しかし、このために、ユーザは、ユーザに特有なウェイクアップ言葉を選択することができない。さらに後述されるように、本願に記載される実施例は、ユーザによるウェイクアップ言葉のカスタマイズが可能になる。
図1は、一実施例による住環境を音声制御する例を示す。この例において、人102は、「Gort、電子レンジのスイッチを入れ、強で60秒。」を言い出すことにより、電子レンジ110のスイッチを入れるように命令メインセンター104へ指示する。ウェイクアップ言葉である「Gort」は既に人102によりカスタマイズされ、命令メインセンター104をアクティブにして人の音声の入力を処理し、かつ、人の音声命令に応答する。音声である「Gort」が検出されると、命令メインセンター104は、音声入力を解釈し、「電子レンジのスイッチを入れる」という命令を認識し、電子レンジ110をオンにすることにより命令に応答する。「命令メインセンター」は、本願において「メインセンター」とも称される。
メインセンター104は、常時にアクティブにされた状態にあるのではない。低電力モード(待機モード又はスリープモードとも称される)では、メインセンター104の1つ又は複数のモジュールと他の家庭用機器は、オフ(off)状態にある。一例として、低電力モードでは、ウェイクアップ言葉の検出及び/又はユーザの意図の認識の外に、メインセンター104は、音声入力を解釈したり、命令に応答したりすることはできない。本願に記載されるように、アクティブにされた状態にあるとは、メインセンター104は、音声入力を、命令語彙からの命令及びその後命令を実行する状態に変換することである。命令、例えば、この例では「強で60秒」の命令に応答する時に、メインセンター104は、ユーザからの別の入力を要求してもよい。
図示された例において、メインセンター104は、家庭用機器ネットワークを介して他の家庭用機器に接続される。他の家庭用機器は、例として、照明機器105、テレビ106と他のオーディオ/映像と娯楽装置、パワードア/ウィンドウ用品107、電気家具やインテリア、サーモスタットや他の環境制御器と冷暖房機器、冷蔵庫109、電子レンジ110や他の台所用機器、浴室用機器と家庭用ロボット装置を含む。この例において、メインセンター104は、装置のうちの1つ又は複数と分離し、ネットワーク(図示せず)を介して通信可能に装置のうちの1つ又は複数に接続される。ネットワークは、種々の技術で実施される無線又は有線ネットワークであってもよい。
命令メインセンター104は、マイクロホン140と、音声命令モジュール150と、スピーカ160とを備える。音声命令モジュール150は、ウェイクアップ検出モジュール152と、音声認識モジュール154と、命令論理156と、命令メモリ158と、意図認識モジュール162と、意図メモリ164とを備えるが、これらは全てさらに後述する。命令メインセンター104は、さらに、1つ又は複数のセンサ(図示せず)、例えば、運動センサ、カメラ、COセンサ、指紋スキャナー及び/又はリーダー、虹彩スキャナー及び/又はリーダーなどを含んであってもよい。センサは、命令メインセンター104と分離し、家庭用機器ネットワークにより命令メインセンター104に接続されることができる。
マイクロホン140は、例えば、ユーザによる音声入力のオーディオ入力を受信し、受信されたオーディオ入力を電気信号に変換する。ユーザはメインセンター104に喋り、かつ、マイクロホン140はユーザの言葉を採取する。スリープモードにおいて、マイクロホン140は、オンにしたままで、メインセンター104の周りの音を採取する。採取された音は、一定の期間緩衝記憶される。メインセンター104は、さらに、ユーザからの入力を受信するための他の入力部材、例えば、ボタン、キーボード、タッチスクリーン、タッチパネル、運動センサやカメラを備えてもよい。
ウェイクアップ検出モジュール152は、ウェイクアップ言葉を認識する。ウェイクアップ検出モジュール152は、音声又はフレーズ認識技術により音声入力を解釈し、ウェイクアップ言葉を検出する。例えば、ウェイクアップ検出モジュール152は、ウェイクアップ言葉を特徴づけるモデルを採用してもよい。幾つかの実施例において、モデルは、音響に基づくスペクトログラムである。他の実施例において、モデルは、ユーザに言い出された一連の単音を特徴づける単音モデルである。ユーザのウェイクアップ言葉の言葉開発モデルを利用してもよい。なお、モデルは、ユーザによりウェイクアップ言葉のような言葉のトレーニングデータを利用してトレーニングする普遍的モデルに基づいてもよい。ウェイクアップ検出モジュール152は、モデルを参照してユーザの音声入力を解析することで、ユーザがウェイクアップ言葉を言い出したか否かを検出する。ウェイクアップ検出モジュール152によりウェイクアップ言葉が検出された場合、ウェイクアップ検出モジュール152は、命令メインセンター104をトリガーすることにより、低電力モードでオフになった1つ又は複数のモジュールをオンにすることで、低電力モードから離れる。
幾つかの実施例において、ウェイクアップ検出モジュール152は、ユーザの身元を確認する。命令メインセンター104は、許可されたユーザだけに応答する。つまり、身元の分からないユーザが、許可されたユーザのメインセンター104をアクティブにするためのウェイクアップ言葉を言い出したとしても、命令メインセンター104は、当該身元の分からないユーザに応答しない。一例として、具体的なウェイクアップ命令に対して、1つ又は複数の許可されたユーザがウェイクアップ言葉を言い出した場合だけに、命令メインセンター104は応答する。他の実施例において、命令メインセンター104は、特定のウェイクアップ言葉を言い出した何れの人にも対応する。
ウェイクアップ検出モジュール152は、例えば、音声入力の特性でユーザの身元を確認する。一例として、ウェイクアップ検出モジュール152は、マイクロホンにより出力されたオーディオ信号の声紋を確定し、かつ、確定された声紋と、許可されたユーザに関連する声紋とを比較することにより、ユーザの身元を確認する。声紋は、人の音声と言葉の特性を表現する特徴を含む。特徴は、過渡的特徴又は音響スペクトル特徴であってもよい。音響的特徴(例えば、アクセント、周波数やニュアンス)及び/又は喋りモード(例えば、特定の単音や音節の強調又は省略、単音や音節間での休止時間など)は例示的な特徴である。ウェイクアップ検出モジュール152は、例えば、周波数推定、隠れマルコフモデル、混合ガウスモデル、モードマッチングアルゴリズム、ニューラルネットワーク、行列表現、ベクトル量子化、及び意思決定木の技術的決定と比較声紋を利用する。
幾つかの実施例において、ウェイクアップ検出モジュール152は、住環境の地域に置かれ、人102が当該地域にあるか、若しくは、当該地域の近くにあるかを確定する。人102が当該地域にあると、ウェイクアップ検出モジュール152は、メインセンター104をウェイクアップする。幾つかの実施例において、ウェイクアップ検出モジュール152は、当該地域にもある家庭用機器群をウェイクアップする。地域は、物理領域に対応するとともに、物理的に当該物理領域にある装置を含む。図示された例において、家屋100は、台所、寝室と居間に対応する3つの地域120、122と124に分けられる。台所地域120には、冷蔵庫109と電子レンジ110が含まれる。居間地域122には、パワーウィンドウ用品107が含まれる。寝室地域124には、灯105とテレビ106が含まれる。ウェイクアップ検出モジュール152は、命令メインセンター104に対する人102の位置を確定し、当該位置と物理領域とを比較することにより、人102が特定地域にあるか否かを確定する。ウェイクアップ検出モジュール152は、例えば、ビーム形成技術及び/又は飛行時間技術といった種々の技術で人の位置を確定してもよい。
ユーザが幾つかの動作をする前に、意図認識モジュール162は、これらの動作を行うようなユーザの意図を認識する。本願に記載されるように、ユーザの意図は、ユーザが所定の期間に行う可能性のある動作である。例えば、ユーザがウェイクアップ言葉をカスタマイズするように図ると、ユーザがウェイクアップ言葉のカスタマイズを要求する前に、意図認識モジュール162は、ユーザの意図を認識する。他の一例として、ユーザが命令メインセンター104とインタラクションするように図ると、ユーザが命令メインセンター104にウェイクアップするように指示する前に、意図認識モジュール162は、ユーザの意図を認識する。更に他の一例として、ユーザが温度を調整するように図り得ると、ユーザが温度を調整する前に、意図認識モジュール162は、ユーザの意図を認識する。
ユーザの意図は、種々のセンサから受信されたデータにより確定することができ、その中、種々のセンサは、音声命令モジュール150に備えられ、又は、音声命令モジュール150に接続される。意図認識モジュール162は、ユーザの意図が確定されるようにデータを解析する。幾つかの実施例において、データは、イベントが検出されるように解析され、また、ユーザの意図は、検出されたイベントから確定することができる。幾つかの実施例において、ユーザの意図は、意図とイベントとの相関、及び/又は、センサから受信されたデータとの相関により確定されてもよい。イベントは、イベントとセンサから受信されたデータとの相関により確定されてもよい。相関は、全てのユーザに適用される一般的な相関、及び1つ又は複数の特定のユーザに適用されるユーザ特有相関を含む。ユーザの身元は、センサから受信されたデータにより確定されてもよい。ユーザの身元は、カメラから撮られた画像又は映像、例えば、画像又は面部認識技術を利用することにより確定されてもよい。ユーザの身元は、上述したような声紋により確定されてもよい。ユーザの身元は、その指紋及び/又は虹彩により確定されてもよい。相関は、意図メモリ164に記憶される。ユーザ特有相関は、ユーザ一とともに記憶される。
例えば、ユーザが手でボタンを押すことにより新しいウェイクアップ言葉を配置することが検出された場合に、意図認識モジュール162は、ユーザが新しいウェイクアップ言葉を配置する可能性が大きいことを確定する。例えば、カメラ及び/又は運動センサに出力されるデータが、ユーザの意図の認識に用いられる。他の一例として、ユーザが空の家屋に入ったことが検出された場合に、意図認識モジュール162は、ユーザが命令メインセンター104とインタラクションする可能性が大きいことを確定する。例えば、入口でのカメラ、ドアに近い運動センサ、及び/又はマイクロホンに出力されるデータが、ユーザの意図の認識に用いられる。また他の一例として、特定のユーザが部屋に15分間も留まった場合に、意図認識モジュール162は、ユーザが部屋での温度と照明を調整しようとする可能性が大きいことを確定する。例えば、部屋での運動センサ、COセンサ、マイクロホン、及び/又はカメラに出力されるデータが、ユーザの身元とユーザの意図の確定に用いられる。さらに他の一例として、特定のユーザが、例えば、エアコンといった家庭用機器に近づいた場合に、意図認識モジュール162は、ユーザがエアコンとインタラクション可能性が大きいことを確定する。例えば、エアコンと同一の部屋でのカメラ、COセンサ、マイクロホン、及び/又はカメラに出力されるデータが、ユーザの身元とユーザの意図の確定に用いられる。
意図認識モジュール162は、確定された意図に基づき、命令を生成する。命令は、所望の動作に対して応答するように、命令メインセンター104及び/又は家庭用機器をトリガーする。ユーザが所望の動作をすると、命令を生成する。それで、ユーザが所望の動作を確実にする前に、命令メインセンター104及び/又は家庭用機器は、ユーザが既に所望の動作をした場合のように応答する。命令は、確定された意図をユーザに確認することにより、命令メインセンター104及び/又は家庭用機器をトリガーして応答してもよい。例えば、ユーザが新しいウェイクアップ言葉を配置する可能性が大きいと、意図認識モジュール162は、命令メインセンター104をトリガーするように命令を生成することにより、ユーザに新しいウェイクアップ言葉を配置したいか否かを尋ねる。他の例として、ユーザが命令メインセンター104とインタラクションしようとする可能性が大きいと、意図認識モジュール162は、ウェイクアップ命令を生成する。従って、ユーザが命令を言い出したものの、ウェイクアップ言葉を言い出していないと、命令メインセンター104はユーザに応答する。また他の一例として、ユーザが温度を調整しようとする可能性が大きいと、意図認識モジュール162は、ユーザの好みにより温度が調整されるように、命令を生成する。さらに他の一例として、ユーザがエアコンとインタラクションしようとする可能性が大きいと、意図認識モジュール162は、ユーザインターフェースを見せるように命令を生成し、当該ユーザインターフェースは、ユーザが手動でエアコンをトリガーして応答する必要がないように、関連する選択肢をユーザに見せる。
音声認識モジュール154は、ユーザの言葉を解釈することにより、命令を認識する。それは、一般的に、言葉を所定の命令語彙からの命令に変換する。一実施例において、音声認識モジュール154は、命令が認識されるように、ユーザの言葉における単語を認識する。命令メモリ158は、言葉と命令との相関を記憶する。音声認識モジュール154は、大語彙音声認識技術により、ユーザの言葉を解釈することができる。特定のウェイクアップ命令だけを認識するウェイクアップ検出モジュール152に比べると、音声認識モジュール154は、より大きい演算密度を実行する。幾つかの実施例において、装置がスリープモードにある場合に、音声認識モジュール154はオフになり、音声認識モジュール154は、メインセンター104がアクティブにされた場合だけに命令を認識する。ウェイクアップ命令が命令の前に、又は、後で現すことができるので、命令メインセンター104がスリープモードからアクティブにされると、音声認識モジュール154は、前に緩衝記憶されたユーザの言葉、及び現在採取されているユーザの言葉を処理する。幾つかの実施例において、音声認識モジュール154の機能は、全部又は一部でクラウドのサービスにより提供される。メインセンター104は、処理のために、ユーザの言葉を、クラウドサービスを提供する1つ又は複数のサーバに提供する。
命令論理156は、音声認識モジュール154、及び/又は、意図認識モジュール162から命令を受信し、かつ、命令を実行する。可能な命令のうちの1つは、新しいウェイクアップ言葉を、ウェイクアップ命令と定義するカスタマイズ命令である。初期設定されたウェイクアップ言葉は、「コンピュータ」であってもよいが、現在、ユーザは、言葉を「Gort」に変換しようとする。命令論理156は、ユーザに用いられるカスタマイズ命令を実行する。ユーザが、メインセンター104に用いられるウェイクアップ言葉をカスタマイズするように要求する場合、ユーザは、カスタマイズ命令を言い出した後、ウェイクアップ命令に対応する新しいウェイクアップ言葉を言い出す。命令メインセンター104は、ユーザの言葉を採取する。幾つかの実施例において、命令論理156は、ユーザの言葉から新しいウェイクアップ言葉を認識し、かつ、将来のウェイクアップ検出のために、新しいウェイクアップ言葉の表現を命令メモリ158に記憶する。
ウェイクアップ言葉は、様々な方式でカスタマイズすることができる。例えば、異なるユーザは、命令メインセンター104を、ユーザによって異なるウェイクアップ言葉が用いられるように配置することができる。幾つかの実施例において、命令論理156は、認識されたウェイクアップ言葉を、当該ウェイクアップ言葉を利用するように設置するようなユーザだけに関連付ける。例えば、エドマンドとハリーは、共に「Gort」を、ウェイクアップ命令をトリガーする言葉として利用するが、マイケルは、「Dolores」でウェイクアップ命令をトリガーする。命令論理156は、ウェイクアップ言葉である「Gort」をエドマンドとハリーに関連付ける一方、ウェイクアップ言葉である「Dolores」をマイケルに関連付ける。ユーザの特別なユーザIDによりユーザを特定する。選択的に、命令メインセンター104は、全てのユーザが同一の(複数の)ウェイクアップ言葉を利用するように配置してもよい。例えば、マイケルが最近、メインセンターを配置したとすれば、全てのユーザに対して、ウェイクアップ言葉は、「Dolores」であってもよい。選択的に、「Gort」と「Dolores」は、共にウェイクアップ言葉として検出されてもよい。
命令論理156は、ウェイクアップ命令の言葉を特徴づけるモデルを発生させることができ、当該モデルは、ウェイクアップ検出モジュール152によりウェイクアップ命令を認識するためである。命令論理156は、ウェイクアップ言葉を特徴づけるモデルを取得することができ、当該モデルは、例えば、クラウドサービスからのトレーニングデータを利用してオフラインでトレーニングする。幾つかの実施例において、モデルは、ユーザのウェイクアップ命令言葉を特徴づける言葉モデルを含む。ウェイクアップ言葉モデルは、ユーザのウェイクアップ命令言葉の特性を表現する特徴、例えば、単音、単音列、音声距離、音素、音素間での遷移、2音、3音や音節等を含む。特徴は、下記にさらに記載されるようなユーザの音声の特性を表現する特徴をさらに含んでもよい。命令論理156は、ユーザの別のウェイクアップ命令言葉、及び/又は、アップデートトレーニングデータを利用してモデルをアップデートしもよい。モデルは、ユーザに関連付けて命令メモリ158に記憶される。
幾つかの実施例において、命令論理156は、ユーザに用いられる声紋をさらに開発する。ユーザが喋る時に、命令論理156は、ユーザに用いられる声紋を発生させる。例えば、命令論理156は、ユーザに、自由に喋る(テキストと関係なし)ように指令し、又は、指示によって喋り(テキストに依存)、以采集ユーザの音声と言葉の特徴。幾つかの実施例において、ユーザのために声紋を作成した後、命令論理156は、さらに、ユーザが命令メインセンター104とインタラクションする時に利用可能な別のサンプルで声紋をアップデートする。
幾つかの実施例において、命令論理156は、新しいウェイクアップ言葉が混乱を引き起こす可能性があるか否かを評価する。命令メインセンター104が不意にウェイクアップされる可能性が大きい、又は、ユーザに望まれるようにウェイクアップされることがあまりあり得ないと、ウェイクアップ言葉は、混乱を引き起こす可能性が大きい。例えば、よく用いられる、他の単語に類似するように聞こえる、又は、既に異なった命令を特徴づけるために用いられたウェイクアップ音声は、混乱を引き起こす可能性が大きい。1つの方法では、命令論理156は、例えば、使用目的、使用頻度、又は、音声同様程度のうちの1つ又は複数に基づき、点数を算出することにより、混乱の可能性を評価する。
既存の命令をチェックすることにより、使用目的を確かめることができる。例えば、如果「Gort」は、電子レンジをオンにするための命令としてエンコードされたとすれば、それを命令メインセンター104へのウェイクアップ言葉として用いると、混乱を引き起こす可能性が大きい。英語や他の言語の言語データベースから、又は、特定のユーザの使用の監視から使用頻度を確定する。単語における一部の音節の発音を含む単語の発音と、一部の発音を含む他の単語の発音とを比較することにより、音声の類似度を確定することができる。ウェイクアップ言葉が混乱を引き起こす可能性が大きいと、命令論理156は、ユーザに警告し、かつ、ウェイクアップ言葉を使用するように設置する前にユーザと確かめる。選択的に、ウェイクアップ言葉が混乱を引き起こす可能性が大きいと、命令論理156は、ユーザに、異なるウェイクアップ言葉を選択するように示唆する。ユーザがウェイクアップ言葉をアップデートするように要求すると、命令論理156は、命令メモリ158に記憶されたウェイクアップ言葉をアップデートする。ウェイクアップ言葉をアップデートするプロセスは、上述したようなウェイクアップ言葉を作成するプロセスと同様である。
幾つかの実施例において、命令論理156は、入力された単語が汚い言葉や他の禁じられた言葉であるか否かをチェックし、かつ、ユーザに、その代わりに異なるウェイクアップ言葉を使用するように示唆する。
幾つかの実施例において、特定の命令メインセンターは、特定のウェイクアップ言葉に関連付けられる。命令論理156は、特定のユーザのウェイクアップ言葉を命令メモリ158に記憶する。幾つかの実施例において、特定の命令メインセンターに対して、それぞれのユーザは、それぞれのウェイクアップ言葉を使用するように配置することができる。命令論理156は、ウェイクアップ言葉を対応するユーザに関連付けるとともに、ウェイクアップ言葉とその相関を命令メモリ158に記憶する。
幾つかの実施例において、ユーザは、装置群が同一のウェイクアップ命令によりアクティブにされるように配置する。ユーザは、上述したようなプロセスを使用することにより、装置群における1つの装置を配置する。幾つかの実施例において、命令論理156は、ウェイクアップ命令を装置群に関連付ける。メインセンター104自身がウェイクアップされると、メインセンター104は、装置群における他の装置をウェイクアップするようにトリガーし、その中、例えば、ウェイクアップ信号を送信することにより他の装置をウェイクアップするようにトリガーしてもよい。幾つかの実施例において、命令論理156は、ウェイクアップ言葉を装置群に分配する。装置群は同一の地域にあってもよい。ユーザは、群における1つの装置をウェイクアップすることにより、群における全ての装置をウェイクアップするように配置してもよい。ユーザにより、群を新しい装置を含み、又は、既存の装置を除去するようにアップデートすると、命令論理156は、ウェイクアップ言葉を新しい装置に広げ、又は、除去された装置からウェイクアップ言葉の配置を除去する。
図1に戻すと、スピーカ160は、音をユーザに出力することで、例えば、警告、警報、確認、指令といった異なる意味を指示する。従って、ユーザは、音声を介して音声制御メインセンター104とインタラクションする。命令メインセンター104は、例えば、ディスプレイや振動素子の別の又は代替出力インターフェースを備えてもよい。
図示された例において、音声命令モジュール150は、自律装置の命令メインセンター104に実施される。音声命令モジュール150及びその部材は、モバイル装置(例えば、スマートフォン、タブレット型パソコンや携帯用のコンピュータ)、デスクトップコンピュータや仮想アシスタントに実施されてもよい。それは、例えば、上述したような家庭用機器に集積され、又は、例えば上述したような家庭用機器として実施されてもよい。
図2は、一実施例による、カスタマイズ可能なウェイクアップ命令を配置する例示的なプロセスを示す。エドマンド102は、命令メインセンター104に用いられるウェイクアップ言葉を設置又は変更するように要求する(202)。装置の能力と配置によって、ユーザは、様々な方式でウェイクアップ言葉を設置するように要求することができる。例えば、ユーザは、「ウェイクアップ命令を配置しろ」という音声命令を出し、ボタンを押し、又は、ユーザの携帯電話に表示された「ウェイクアップ命令を配置する」をクリックする。メインセンター104は、エドマンド102から要求を受信する(204)。幾つかの実施例において、メインセンター104は、最初に、ウェイクアップ命令の配置のために用意する状態にある。例えば、メインセンター104は、それがクラウドサービス200に接続されたか否かをチェックし、接続されていない場合には、ユーザの身元が既知であるか否かを認識し、ユーザが未知であると、ユーザにユーザ1Dを指定するなど。メインセンター104は応答をエドマンドに送信する(206)ことにより、メインセンター104にウェイクアップ命令の配置に用意するように指示する。応答は、音、光指示、振動、ビデオディスプレーやメインセンター104の配置に依存する他の形であってもよい。エドマンド102は「Gort」を言う(208)。幾つかの実施例において、メインセンター104は、ユーザにウェイクアップ言葉を数回繰り返すようにガイドする。
メインセンター104は、エドマンドの言葉である音声入力を受信する(210)。装置は、受信された音声入力をクラウドサービス200に送信する(212)。下記にさらに記載されるように、クラウドサービス200は、受信された音声入力を処理する。この例において、クラウドサービス200は、例えば、大語彙音声認識技術を使用することにより、(複数の)単語(例えば、「Gort」)を認識する(214)。クラウドサービス200は、例えば、隠れマルコフモデル、ディープフィードフォワードニューラルネットワークや他の大語彙音声認識モデルの技術を利用することにより、ユーザに言われた1つ又は複数の単語を認識することができる。クラウドサービス200は、何れの単語が認識されたかをチェックする(216)。
認識された単語について、クラウドサービス200は、混乱の可能性、混乱に反映される、命令メインセンター104が不意にアクティブにされる、又は、ユーザにより所望に応じてアクティブにされない可能性を算出する(218)。ウェイクアップ言葉は、他の命令に用いられるようにエンコードされた、又は、日常会話によく用いられるとすれば、当該ウェイクアップ言葉を使用すると、不意に命令メインセンター104をアクティブにする可能性が大きい。ウェイクアップ言葉は、他の単語に類似するように聞こえるとすれば、当該ウェイクアップ言葉を使用すると、命令メインセンター104が所望に応じてアクティブにされない可能性が大きい。クラウドサービス200は、算出された可能性と閾値とを比較する(220)ことにより、ユーザの選択が混乱を引き起こす可能性が大きいか否かを確定する。当該選択が混乱を引き起こす可能性があまりないと確定されると、クラウドサービス200は、当該単語のユーザ言葉を特徴づけるモデルを作成する(222)。モデルは、汎用型であってもよく、例えば、多くの話者のウェイクアップ命令言葉によるトレーニングデータを利用することにより開発される。モデルは、特定のユーザの言葉を特徴づけてもよい。クラウドサービス200は、命令メインセンター104に、認識された言葉とモデルを提供する(224)。命令メインセンター104は言葉とモデルを記憶する(226)。命令メインセンター104は、ウェイクアップ言葉を認識するために、当該モデルを使用する。幾つかの実施例において、クラウドサービス200は、モデルだけを命令メインセンター104に提供する。メインセンター104は、確認をユーザ102に送信し(228)、ウェイクアップ命令の配置が成功したことを指示する。確認は、音、光指示、振動、ビデオディスプレーやメインセンター104の配置に依存する他の形であってもよい。
幾つかの実施例において、クラウドサービス200は、認識された言葉を、ユーザと、及び命令メインセンター104と関連付け、かつ当該相関を記憶する。クラウドサービス200は、ユーザのために作成されたモデルをさらに記憶する。
クラウドサービス200により、認識された単語がなく、又は、認識された単語により、単語が混乱を引き起こす可能性が閾値を超えたと確定されると、クラウドサービス200は、警告を命令メインセンター104に送信する(203)。他の実施において、クラウドサービス200により、認識された単語がないと確定されても、クラウドサービス200は、ユーザの音声入力に基づき、言葉モデル222を作成する。メインセンター104は、警告をエドマンド102に送信し(232)、配置が成功していないことを指示する。
この例では、クラウドサービス200は、単語を認識し、かつ、単語が認識されたか否かを確定し、混乱の可能性を算出し、かつ、単語が混乱を引き起こす可能性が大きいか否かを確かめ、また、単語及び/又は単語の言葉を特徴づけるモデルを作成する。これらの操作のうちの1つ又は複数は、命令メインセンター104により実行可能である。
図3は、一実施例による、本願に記載されるようなカスタマイズされたウェイクアップ言葉により、命令メインセンター104をアクティブにする例示的なプロセスを示す。図3に係る検討では、命令メインセンター104は、最初にスリープモードにあり、音声命令の実行に用意していない。ユーザは、幾つかの言葉を言い出す(302)。メインセンター104は、低電力モードにあるが、それが周りの環境における声を検出する。メインセンター104は、音声入力を受信する(304)。音声入力は緩衝記憶される。メインセンター104は、ユーザ102が許可されたユーザであるか否かを確かめる。例えば、メインセンター104は、受信された音声入力により声紋を確かめるとともに、ユーザの声紋を、メインセンター104の使用が許可されたユーザの声紋とをマッチングする。マッチングが認識された場合に、メインセンター104は、当該ユーザを許可されたユーザと確定する。ユーザが許可されたユーザではないと、メインセンター104は、引き続き周りの環境での声の入力を監視する。幾つかの実施例において、メインセンター104は、ユーザの身元に基づき、ウェイクアップ命令を認識する。メインセンター104は、ユーザに対応するウェイクアップ言葉を調べる。
ユーザ102が許可されたユーザであると、メインセンター104は、ユーザの音声入力がウェイクアップ言葉を含むか否かを確かめる(308)。1つ又は複数の音声認識技術によりウェイクアップ命令の認識を実行してもよい。低電力モードの幾つかの実施例において、命令メインセンター104は、メインセンター104の使用が許可されたユーザだけに配置された1つ又は複数のウェイクアップ言葉と配置される。例えば、命令メインセンター104は、ウェイクアップ命令のウェイクアップ言葉、及び/又はユーザ言葉を特徴づける1つ又は複数のモデルにより、ウェイクアップ言葉を認識し、モデルは、例えば、隠れマルコフ、混合ガウスモデル、大辞典、及び/又は、自然言語処理アルゴリズムである。認識されたウェイクアップ言葉がないと、命令メインセンターは、引き続き周りの環境での声の入力を監視する。
ユーザ102に用いられるウェイクアップ命令が認識されると、命令メインセンター104は、アクティブにされるように、低電力モードからウェイクアップされる(310)。命令メインセンター104は、ユーザ102に、命令メインセンター104がアクティブにされたように指示することができる。ウェイクアップ命令が検出された後、命令メインセンター104は、ユーザ102により言い出された別の音声入力を受信することができる(312)。命令メインセンター104は、1つ又は複数の命令の認識のために、音声入力をクラウドサービス200に送信する(314)。送信される音声入力は、ユーザ102からウェイクアップ命令を言い出してからの期間に言い出された音声入力を含む。例えば、ユーザ102は、「今は何時、Gort?僕の次のデートは何時?」と言い出し、「今は何時」という音声入力はクラウドサービス200に解析するように送信されるが、それは、ウェイクアップ命令である「Gort」を言い出してからの一定の期間に言い出されたことからである。メインセンター104は、「今は何時」と「僕の次のデートは何時」という音声入力を、クラウドサービス200に解析するように送信する。
クラウドサービス200は、受信された音声入力からの命令を認識する(316)。クラウドサービス200は、ユーザの音声入力を解釈可能な例えば声学モデル又は言語モデルの音声認識技術又は自然言語処理技術を利用する。1つ前の例に引き続き、クラウドサービス200は、「今は何時」と「僕の次のデートは何時」という音声入力から、「時間」と「カレンダー」という命令を認識する。クラウドサービス200は、認識された(複数の)命令をメインセンター104に送信する(318)。メインセンター104は、受信された命令を実行する(320)。メインセンター104は、ユーザ102に、要求された結果又は確認された応答を送信する(322)。例えば、メインセンター104は、現在の時間とカレンダーで次のイベントをユーザ102に返す。認識された命令がなく、又は、メインセンター104が認識された命令を実行することができないと、メインセンター104はそれに応じてユーザに警告する。
図4は、図1に示す部材を実施するための例示的な装置400を示すハイレベルブロック図である。装置400は、少なくとも1つのプロセッサ402と、内部メモリ制御メインセンター420と、入力/出力(I/O)制御メインセンター422とを含むチップ/チップセット404を備える。内部メモリ406は、内部メモリ制御メインセンター420に接続される。記憶装置408、I/Oインターフェース414、及びネットワークアダプター416は、I/O制御メインセンター422に接続される。装置400の他の実施例は、異なる構造を有する。
記憶装置408は、非一時的なコンピュータ読み取り可能な記憶媒体、例えば、ハードディスクドライブ、CD−ROM、DVDや固体記憶装置である。内部メモリ406は、プロセッサ402に使用される指令とデータを保持する。I/Oインターフェース414は例えば、マイクロホン、タッチスクリーンインターフェース、マウス、トラックボールや他のタイプのポインティングデバイス、キーボードやその幾つかを組み合わせた装置をサポートすることができ、データを装置400に入力するためである。幾つかの実施例において、装置400は、ユーザによるジェスチャー(gestures)を介してI/Oインターフェース414から入力(例えば、命令)を受信するように配置されてもよい。I/Oインターフェースは、出力、例えば、ディスプレイやスピーカをサポートすることもできる。ネットワークアダプター416は、装置400を1つ又は複数のコンピュータネットワークに接続する。
装置400は、本願に記載される機能を果たすためのコンピュータプログラムモジュールの実行に適用される。本願に用いられるように、「モジュール」という用語は、所定の機能を果たすためのコンピュータプログラム論理を意味する。従って、モジュールは、ハードウェア、ファームウェア及び/又はソフトウェアに実施可能である。一実施例において、プログラムモジュールは、記憶装置408に記憶され、内部メモリ406にロードされ、プロセッサ402により実行される。
図1の実体に用いられる装置400のタイプは、実施例と実体に要求される処理能力によって異なってもよい。例えば、クラウドサービスは、単一の装置400において、又は、例えば、サーバ群のネットワークを介して互いに通信している複数のコンピュータ400において動作することができる。コンピュータ400は、上述したような部材のうちの幾つかを含まなくてもよい。
本開示の特定の実施例と応用を示して記載したが、実施例は、本願に開示された精確な構造と部材に制限されず、本開示の精神と範囲から逸脱することなく、本願に開示された本開示の方法及び機器の配置、操作や細部に様々な修正、変更と変形を行うことができることが理解すべきである。例えば、音声命令モジュール150は、それぞれ、中央命令メインセンター104ではなく、単一の家庭用機器において独立して実施されてもよい。他の例として、ウェイクアップ検出モジュール152は、独立した部材ではなく、全音声認識モジュール154と命令論理156の一部として実施されてもよい。
上述した幾つかの部分は、アルゴリズムプロセスと操作において実施例を記載した。これらのアルゴリズムの記載と表現は、データ処理分野における技術者により、それらの仕事の基本的な内容を有効に本分野における他の技術者に伝えることによく用いられる。機能、演算や論理においてこれらの操作を記載したが、これらの操作は、プロセッサ又は等価回路により実行される指令、マイクロ指令などを含むコンピュータプログラムにより実施されると理解すべきである。なお、一般性を失うことなく、場合によっては、機能操作のような配置をモジュールと称することも便利である。記載される操作及びその関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、又はその何れかの組合せにより実現されてもよい。
本願に用いられるように、「一実施例」又は「実施例」についての何れの引用も、実施例に合わせて記載された特定の素子、特徴、構造、又は特徴が、少なくとも1つの実施例に含まれることを意味する。明細書に各箇所に現れた「一実施例において」というフレーズは、必ずしも全て同一の実施例を意味することではない。
本願に用いられるように、「含む」、「備える」、「有する」という用語、又は、その何れの変形も、非排他的な包含をカバーすることを意図する。例えば、一連の素子を含むプロセス、方法、物品や機器は、必ずしもそれらの素子に制限されず、明らかに挙げられていない、又は、この種類のプロセス、方法、物品や機器に固有の他の素子を含んでもよい。なお、反対する意味を明らかに指摘しない限り、「又は」とは、排他的な「又は」ではなく、包含的な「又は」を意味する。例えば、条件A又はBは、Aが真(又は、ある)でBが偽(又は、無い)であり、Aが偽(又は、無い)でBが真(又は、ある)であり、及び、AとBが共に真(又は、ある)である、ということの何れか一項により満たされる。
なお、「1つ」又は「1種」は、本願における実施例の素子と部材を記載するために用いられる。これは、便宜のために過ぎず、本開示の一般的な意味を表す。当該記載は、1つ又は少なくとも1つを含むと理解すべきであり、明らかに他の意味がない限り、単数には複数も含まれる。

Claims (15)

  1. 少なくとも1つのプロセッサを備える電子装置において実行される方法であって、
    ユーザから言葉を受信し、かつ、前記言葉を、ウェイクアップ命令に対応する新しいウェイクアップ言葉を定義するためのカスタマイズ命令を含む所定の命令語彙からの命令に変換するステップと、
    1つのユーザから受信された第1の言葉がカスタマイズ命令に対応すると確定したことに応じて、前記カスタマイズ命令を用いて前記ウェイクアップ命令に対応する新しいウェイクアップ言葉を定義するステップと、
    前記ユーザから第2の言葉を受信するステップと、
    前記第2の言葉を、前記ウェイクアップ命令に対応する新しいウェイクアップ言葉として用いることにより混乱を引き起こす可能性を確定するステップと、
    前記混乱を引き起こす可能性が閾値よりも低いと確定したことに応じて、前記第2の言葉を、前記新ウェイクアップ命令に対応する新しいウェイクアップ言葉として設定するステップと、を含み、
    前記ウェイクアップ命令は、第1地域に対応する家庭用機器群をウェイクアップし、前記家庭用機器群は、最初に前記ウェイクアップ命令によりウェイクアップされる第1家庭用機器と、前記第1地域にあるとともに、前記第1家庭用機器から前記ウェイクアップ命令を受信する1つ又は複数の第2家庭用機器とを含む
    方法。
  2. 第2の言葉を、前記ウェイクアップ命令に対応する新しいウェイクアップ言葉として用いることにより混乱を引き起こす可能性を確定する前記ステップは、
    少なくとも部分的に、前記第2の言葉の第1選定言語データベースにおける使用頻度に基づいて、混乱を引き起こす可能性を確定することを含む
    ことを特徴とする請求項1に記載の方法。
  3. 前記混乱を引き起こす可能性が前記閾値よりも高いと確定したことに応じて、前記ユーザのために警告を生成するステップをさらに含む
    ことを特徴とする請求項1に記載の方法。
  4. 1つ又は複数のセンサからデータを受信することと、
    受信されたデータを使用して、前記ユーザが行う可能性の高い動作に対応するユーザの意図を認識することと、
    少なくとも1つの家庭用機器に前記動作に対応する応答を行わせるような、前記ユーザの意図に対応する命令を生成することと、をさらに含む
    ことを特徴とする請求項1に記載の方法。
  5. 前記電子装置は、家庭用機器ネットワークのメインセンターに用いられ、前記メインセンターは、1つ又は複数の家庭用機器の命令を実行し、かつ、前記メインセンターは前記ウェイクアップ命令によりウェイクアップされる
    ことを特徴とする請求項1に記載の方法。
  6. 異なるユーザからの異なるウェイクアップ言葉を同一のウェイクアップ命令に変換することをさらに含む
    ことを特徴とする請求項1に記載の方法。
  7. 前記異なるユーザの異なるウェイクアップ言葉は、前記ユーザにより定義された第1ウェイクアップ言葉と、別のユーザにより定義された第2ウェイクアップ言葉とを含み、かつ、
    前記第1ウェイクアップ言葉と前記第2ウェイクアップ言葉とは、異なるテキストに対応する
    ことを特徴とする請求項6に記載の方法。
  8. 新しい家庭用機器を前記第1地域に対応する家庭用機器群に追加するユーザ入力を検出するステップと、
    新しい家庭用機器を前記第1地域に対応する家庭用機器群に追加するユーザ入力が検出された後、前記第1地域に対応する家庭用機器群のうちの1つの家庭用機器によって既に前記新ウェイクアップ命令が受信されたと確定したことに応じて、前記家庭用機器群に追加された新しい家庭用機器がウェイクアップされるように前記ウェイクアップ命令を自動拡張するステップと、をさらに含む
    ことを特徴とする請求項に記載の方法。
  9. 入力バッファに記録された音声入力をウェイクアップ検出モジュールに送信するステップと、
    前記音声入力の中から前記新しいウェイクアップ言葉を検出するステップと、
    ユーザの意図が確定されるように、前記新ウェイクアップ音声の前に前記入力バッファに記録された音声入力フラグメントをサーバに伝送するステップと、をさらに含む
    ことを特徴とする請求項1に記載の方法。
  10. さらに、前記第2の言葉が現在、前記所定の命令語彙のうちの一つとして用いられているか否かに基づいて、前記第2の言葉を前記ウェイクアップ命令に対応する新しいウェイクアップ言葉として用いることにより混乱を引き起こす可能性を確定する
    ことを特徴とする請求項1に記載の方法。
  11. さらに、前記第2の言葉と他の言葉との発音の類似度に基づいて、前記第2の言葉を前記ウェイクアップ命令に対応する新しいウェイクアップ言葉として用いることにより混乱を引き起こす可能性を確定する
    ことを特徴とする請求項1に記載の方法。
  12. 前記新しいウェイクアップ言葉と前記第2の言葉を発話したユーザとを関連付けることをさらに含む
    ことを特徴とする請求項1に記載の方法。
  13. プログラム指令を記憶しているメモリと、前記プログラム指令を実行して請求項1〜12の何れか一項に記載の方法を実行するプロセッサとを含む
    ことを特徴とする電子装置。
  14. 家庭用機器ネットワークを介して接続される複数の家庭用機器と、
    請求項13に記載の電子装置と、を含む
    ことを特徴とする住環境における家庭用機器ネットワーク。
  15. 指令を含むコンピュータ読み取り可能な記憶媒体であって、前記指令がコンピュータに実行されると、前記コンピュータは、請求項1〜12の何れか一項に記載の方法を実行する
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2019572631A 2017-07-24 2018-06-06 方法、電子装置、家庭用機器ネットワークおよび記憶媒体 Active JP6887031B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/658,357 US10504511B2 (en) 2017-07-24 2017-07-24 Customizable wake-up voice commands
US15/658,357 2017-07-24
PCT/CN2018/090062 WO2019019812A1 (en) 2017-07-24 2018-06-06 CUSTOMIZABLE VOICE ALARM CONTROLS

Publications (2)

Publication Number Publication Date
JP2020525850A JP2020525850A (ja) 2020-08-27
JP6887031B2 true JP6887031B2 (ja) 2021-06-16

Family

ID=65023109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019572631A Active JP6887031B2 (ja) 2017-07-24 2018-06-06 方法、電子装置、家庭用機器ネットワークおよび記憶媒体

Country Status (6)

Country Link
US (1) US10504511B2 (ja)
EP (1) EP3619707B1 (ja)
JP (1) JP6887031B2 (ja)
KR (1) KR102293063B1 (ja)
CN (1) CN110832578B (ja)
WO (1) WO2019019812A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017184169A1 (en) * 2016-04-22 2017-10-26 Hewlett-Packard Development Company, L.P. Communications with trigger phrases
CN107623614B (zh) * 2017-09-19 2020-12-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10586537B2 (en) * 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances
US10672380B2 (en) * 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
US10885919B2 (en) * 2018-01-05 2021-01-05 Nuance Communications, Inc. Routing system and method
US20190295541A1 (en) * 2018-03-23 2019-09-26 Polycom, Inc. Modifying spoken commands
CN112272819B (zh) * 2018-06-05 2024-04-26 三星电子株式会社 被动唤醒用户交互设备的方法和系统
US10825451B1 (en) * 2018-06-25 2020-11-03 Amazon Technologies, Inc. Wakeword detection
US10762896B1 (en) 2018-06-25 2020-09-01 Amazon Technologies, Inc. Wakeword detection
KR20200050235A (ko) * 2018-11-01 2020-05-11 삼성전자주식회사 전자 장치 및 그의 지능형 인터랙션 방법
US11232788B2 (en) 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
CN109887505A (zh) * 2019-03-11 2019-06-14 百度在线网络技术(北京)有限公司 用于唤醒设备的方法和装置
US11482215B2 (en) * 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
US11158305B2 (en) 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
US11222622B2 (en) * 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
KR20210044606A (ko) * 2019-10-15 2021-04-23 삼성전자주식회사 웨이크업 모델 생성 방법 및 이를 위한 전자 장치
US11295741B2 (en) * 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
CN111312222B (zh) * 2020-02-13 2023-09-12 北京声智科技有限公司 一种唤醒、语音识别模型训练方法及装置
US20210287681A1 (en) * 2020-03-16 2021-09-16 Fidelity Information Services, Llc Systems and methods for contactless authentication using voice recognition
CN111599350B (zh) * 2020-04-07 2023-02-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统
CN112435663A (zh) * 2020-11-11 2021-03-02 青岛歌尔智能传感器有限公司 命令语音管理方法、装置、设备及介质
US11862155B2 (en) * 2020-12-11 2024-01-02 Google Llc Group hotwords
TWI765485B (zh) * 2020-12-21 2022-05-21 矽統科技股份有限公司 外接式語音喚醒裝置及其控制方法
KR20220099003A (ko) * 2021-01-05 2022-07-12 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20220141137A (ko) * 2021-04-12 2022-10-19 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
KR102378895B1 (ko) * 2021-09-29 2022-03-28 주식회사 인피닉 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN114189401A (zh) * 2021-11-22 2022-03-15 珠海格力电器股份有限公司 一种语音家电控制方法、装置及系统
KR20240000245A (ko) 2022-06-23 2024-01-02 고려대학교 산학협력단 전류 기반의 아날로그 연산과 시간 기반의 아날로그-디지털 변환을 지원하는 컴퓨팅 인 메모리 전자 장치

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1054387A3 (en) * 1999-05-21 2001-11-14 Winbond Electronics Corporation Method and apparatus for activating voice controlled devices
US6963759B1 (en) 1999-10-05 2005-11-08 Fastmobile, Inc. Speech recognition technique based on local interrupt detection
JP2002120177A (ja) * 2000-10-11 2002-04-23 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002318843A (ja) * 2001-04-20 2002-10-31 Misawa Homes Co Ltd 設備機器遠隔管理システム、設備機器遠隔管理装置、設備機器遠隔管理方法および記憶媒体
JP4579612B2 (ja) * 2003-09-10 2010-11-10 パナソニック株式会社 機器連携装置
JP4662861B2 (ja) * 2006-02-07 2011-03-30 日本電気株式会社 モニタリング装置、評価データ選別装置、応対者評価装置、応対者評価システムおよびプログラム
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
JP5753769B2 (ja) * 2011-11-18 2015-07-22 株式会社日立製作所 音声データ検索システムおよびそのためのプログラム
KR101889836B1 (ko) * 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
CN110096253B (zh) * 2013-07-11 2022-08-30 英特尔公司 利用相同的音频输入的设备唤醒和说话者验证
CN103646646B (zh) * 2013-11-27 2018-08-31 联想(北京)有限公司 一种语音控制方法及电子设备
US9698999B2 (en) * 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
CN104866465B (zh) * 2014-02-25 2017-11-03 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
US9196243B2 (en) * 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
US10978052B2 (en) 2014-04-16 2021-04-13 Facebook, Inc. Email-like user interface for training natural language systems
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN105677004A (zh) 2014-11-18 2016-06-15 中兴通讯股份有限公司 一种终端的处理方法和终端
KR102245747B1 (ko) * 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
CN104538030A (zh) 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
CN105845135A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种机器人系统的声音识别系统及方法
CN104715754A (zh) 2015-03-05 2015-06-17 北京华丰亨通科贸有限公司 一种快速响应语音命令的方法及装置
US10438593B2 (en) * 2015-07-22 2019-10-08 Google Llc Individualized hotword detection models
US9965247B2 (en) * 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
KR20170132622A (ko) * 2016-05-24 2017-12-04 삼성전자주식회사 음성 인식 기능을 갖는 전자 장치 및 전자 장치의 동작 방법
WO2018006372A1 (zh) 2016-07-07 2018-01-11 深圳狗尾草智能科技有限公司 一种基于意图识别控制家电的方法、系统及机器人
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
CN106448664A (zh) 2016-10-28 2017-02-22 魏朝正 一种通过语音控制智能家居设备的系统及方法
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106782526B (zh) * 2016-12-12 2020-12-29 深圳Tcl数字技术有限公司 语音控制方法和装置
US20180177029A1 (en) * 2016-12-19 2018-06-21 Pilot, Inc. Voice-controlled light bulb
US20180174581A1 (en) * 2016-12-19 2018-06-21 Pilot, Inc. Voice-activated vehicle lighting control hub
US10074371B1 (en) * 2017-03-14 2018-09-11 Amazon Technologies, Inc. Voice control of remote device by disabling wakeword detection
US10521512B2 (en) * 2017-05-26 2019-12-31 Bose Corporation Dynamic text-to-speech response from a smart speaker
US20180350360A1 (en) * 2017-05-31 2018-12-06 Lenovo (Singapore) Pte. Ltd. Provide non-obtrusive output
US11489691B2 (en) * 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device

Also Published As

Publication number Publication date
KR20200012928A (ko) 2020-02-05
KR102293063B1 (ko) 2021-08-23
CN110832578B (zh) 2022-04-26
EP3619707A1 (en) 2020-03-11
US10504511B2 (en) 2019-12-10
WO2019019812A1 (en) 2019-01-31
CN110832578A (zh) 2020-02-21
EP3619707A4 (en) 2020-04-29
JP2020525850A (ja) 2020-08-27
EP3619707B1 (en) 2024-02-21
US20190027138A1 (en) 2019-01-24

Similar Documents

Publication Publication Date Title
JP6887031B2 (ja) 方法、電子装置、家庭用機器ネットワークおよび記憶媒体
US11887582B2 (en) Training and testing utterance-based frameworks
US9466286B1 (en) Transitioning an electronic device between device states
KR20200111853A (ko) 전자 장치 및 전자 장치의 음성 인식 제어 방법
CN111344780A (zh) 基于上下文的设备仲裁
CN109661704A (zh) 用于电子设备的上下文感知查询识别
Kamarudin et al. Low cost smart home automation via microsoft speech recognition
KR102563817B1 (ko) 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US20240005918A1 (en) System For Recognizing and Responding to Environmental Noises
KR20190096308A (ko) 전자기기
EP3553775B1 (en) Voice-based authentication
US20240071408A1 (en) Acoustic event detection
KR20200057501A (ko) 전자 장치 및 그의 와이파이 연결 방법
JP7215417B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11942094B2 (en) Hybrid multilingual text-dependent and text-independent speaker verification
KR20230118643A (ko) 화자 의존적인 후속 액션들 및 웜 워드들
EP3839719B1 (en) Computing device and method of operating the same
US11232793B1 (en) Methods, systems and voice managing servers for voice recognition to perform action
Wahile et al. Home Automation System Based on Speech Recognition
Sinha et al. Speech recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210517

R150 Certificate of patent or registration of utility model

Ref document number: 6887031

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250