JP7418563B2 - オンデバイスの機械学習モデルの訓練のための自動化アシスタントの機能の訂正の使用 - Google Patents
オンデバイスの機械学習モデルの訓練のための自動化アシスタントの機能の訂正の使用 Download PDFInfo
- Publication number
- JP7418563B2 JP7418563B2 JP2022522685A JP2022522685A JP7418563B2 JP 7418563 B2 JP7418563 B2 JP 7418563B2 JP 2022522685 A JP2022522685 A JP 2022522685A JP 2022522685 A JP2022522685 A JP 2022522685A JP 7418563 B2 JP7418563 B2 JP 7418563B2
- Authority
- JP
- Japan
- Prior art keywords
- client device
- additional
- global
- audio data
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims description 141
- 238000012937 correction Methods 0.000 title claims description 34
- 238000012549 training Methods 0.000 title description 11
- 238000000034 method Methods 0.000 claims description 180
- 230000006870 function Effects 0.000 claims description 79
- 230000004044 response Effects 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 48
- 238000001514 detection method Methods 0.000 claims description 31
- 230000000977 initiatory effect Effects 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 6
- 230000001960 triggered effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 40
- 230000000875 corresponding effect Effects 0.000 description 38
- 230000009471 action Effects 0.000 description 21
- 230000000007 visual effect Effects 0.000 description 18
- 230000003993 interaction Effects 0.000 description 15
- 230000000694 effects Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 8
- 239000010813 municipal solid waste Substances 0.000 description 8
- 238000011524 similarity measure Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000003825 pressing Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000013481 data capture Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000001976 improved effect Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 235000013580 sausages Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Description
は、継続時間が閾値の継続時間(たとえば、4.0秒もしくはその他の閾値の継続時間)未満であることを条件とすることが可能であり、および/または最初の判断の確率が0.85の閾値の範囲内(たとえば、0.35もしくはその他の範囲内)であることを条件とすることが可能である。言い換えると、そのような場合、継続時間が閾値の継続時間未満であり、確率が閾値0.85の閾値の範囲内にあるときにのみ、誤った判断が判定される。
(たとえば、トーン、イントネーション、およびリズム(cadence))を比較することに基づくことが可能である。
判断と矛盾した)話された発話の受け取りとの間の継続時間(2.0秒)に基づくことが可能である。たとえば、前の判断が誤っていたと判定することは、継続時間が閾値の継続時間(たとえば、4.0秒またはその他の閾値の継続時間)未満であることと、最初の判断の確率が0.85の閾値の範囲内(たとえば、0.35またはその他の範囲内)であることとの関数であることが可能である。言い換えると、そのような場合、継続時間が閾値の継続時間未満であり、確率が閾値0.85の閾値の範囲内にあるときにのみ、誤った判断が判定される。
ラクション、話された発話に基づいてモノのインターネット(IoT)デバイスに(直接もしくは対応するリモートシステムを介して)送信するコマンド、ならびに/または話された発話に基づいて実行するその他の解決アクションを定義し得る。それから、履行データ147Aは、話された発話を解決するための決定されたアクションのローカルのおよび/またはリモートの遂行/実行のために提供される。実行は、たとえば、ローカルのおよび/もしくはリモートの応答をレンダリングすること(たとえば、(任意でローカルのテキストトゥスピーチモジュールを利用して)視覚的におよび/もしくは聞こえるようにレンダリングすること)、ローカルにインストールされたアプリケーションとインタラクションすること、IoTデバイスにコマンドを送信すること、ならびに/またはその他のアクションを含み得る。
、本明細書において説明される継続時間とブロック356における最初の判断に関する最初の確率との関数、および/またはその他の判定に基づいて誤っている(すなわち、偽陰性)と分類され得る。したがって、これらの場合、システムは、ブロック356において行われた最初の判断が誤っていたと判定することに基づいて、現在休止中の自動化アシスタントの機能を開始することができる。
満たすと判定すること、本明細書において説明される継続時間とブロック356における最初の判断に関する最初の確率との関数、ならびに/またはその他の判定に基づいて誤っている(すなわち、偽陰性)と分類され得る。したがって、これらの場合、システムは、ブロック356において行われた最初の判断が誤っていたと判定することに基づいて、現在休止中の自動化アシスタントの機能を開始することができる。
定すること、最初の確率の大きさが閾値の確率に関連する確率的閾値(たとえば、0.85の0.20以内)を満たすと判定すること、本明細書において説明される継続時間とブロック356における最初の判断に関する最初の確率との関数、および/またはその他の判定に基づいて誤っている(すなわち、偽陰性)と分類され得る。したがって、これらの場合、システムは、ブロック356において行われた最初の判断が誤っていたと判定することに基づいて、現在アクティブな自動化アシスタントの機能を停止することを控え(つまり、アシスタントが既に呼び出されているため)、および/またはさらなる現在休止中の自動化アシスタントの機能を開始することができる。
っている(すなわち、偽陽性)と分類され得る。したがって、これらの場合、システムは、ブロック456において行われた最初の判断が誤っていたと判定することに基づいて、現在休止中の自動化アシスタントの機能を開始することを控え、および/または現在アクティブな自動化アシスタントの機能を停止することができる。
と判定すること、本明細書において説明される継続時間とブロック456における最初の判断に関する最初の確率との関数、ならびに/またはその他の判定に基づいて誤っている(すなわち、偽陽性)と分類され得る。したがって、これらの場合、システムは、ブロック456において行われた最初の判断が誤っていたと判定することに基づいて、現在休止中の自動化アシスタントの機能を開始することを控え、および/または現在アクティブな自動化アシスタントの機能を停止することができる。
分類され得る。したがって、これらの場合、システムは、ブロック456において行われた最初の判断が誤っていたと判定することに基づいて、現在アクティブな自動化アシスタントの機能を停止し(つまり、アシスタントが既に呼び出されているため)、および/または現在休止中の自動化アシスタントの機能を開始することを控えることができる。
101A 追加のオーディオデータ
102 その他のセンサデータ
103 予測された出力
105 グラウンドトゥルース出力
106 勾配
107 追加の勾配
110 クライアントデバイス
111 オンデバイスのストレージ
122A 機械学習エンジン
122B ホットワード検出エンジン
122C ホットワードを使用しない呼び出しエンジン
122D 会話継続エンジン
124 アシスタント作動エンジン
126 勾配エンジン
128 音声活動検出器
132A オンデバイスの機械学習訓練エンジン
142 オンデバイスの音声認識器
142A オンデバイスの音声認識モデル
143A 認識されたテキスト
143B さらなる認識されたテキスト
144 オンデバイスのNLUエンジン
144A オンデバイスのNLUモデル
145A NLUデータ
145B さらなるNLUデータ
146 オンデバイスの履行エンジン
146A オンデバイスの履行モデル
147A 履行データ
147B さらなる履行データ
150 実行
152A 機械学習モデル
152A1 大域的な音声認識モデル
152B ホットワード検出モデル
152C ホットワードを使用しない呼び出しモデル
152D 会話継続モデル
160 リモートサーバ、リモートシステム
162 リモート訓練エンジン
164 更新配信エンジン
170 追加のクライアントデバイス
211 マイクロフォン
212 スピーカ
213 視覚構成要素
214 ディスプレイ
240 自動化アシスタントクライアント
242 音声キャプチャエンジン
244 視覚キャプチャエンジン
280 クラウドベースの自動化アシスタント構成要素
281 リモートのASRエンジン
282 リモートのNLUエンジン
283 リモートの履行エンジン
295 自動化アシスタント
300 方法
400 方法
500 方法
610 コンピューティングデバイス
612 バスサブシステム
614 プロセッサ
616 ネットワークインターフェースサブシステム
620 ユーザインターフェース出力デバイス
622 ユーザインターフェース入力デバイス
624 ストレージサブシステム
625 メモリサブシステム
626 ファイルストレージサブシステム
630 RAM
632 ROM
Claims (38)
- クライアントデバイスの1つまたは複数のプロセッサによって実行される方法であって、
前記クライアントデバイスの1つまたは複数のマイクロフォンを介して、ユーザの話された発話をキャプチャするオーディオデータを受信するステップと、
前記クライアントデバイスのローカルに記憶された機械学習モデルを使用して前記オーディオデータを処理して、予測された出力を生成するステップであって、
前記予測された出力は、前記オーディオデータが1つまたは複数の現在休止中の自動化アシスタントの機能を開始するためのユーザの意図を含むかどうかを示す確率に対応する、ステップと、
前記予測された出力に対応する前記確率が確率の閾値を満たすことができないことに基づいて、前記1つまたは複数の現在休止中の自動化アシスタントの機能を開始することを控える判断を行うステップと、
前記1つまたは複数の現在休止中の自動化アシスタントの機能を開始することを控える前記判断を行った後、
前記オーディオデータを受信した後に前記クライアントデバイスにおいて受け取られたさらなるユーザインターフェース入力に基づいて、前記判断が誤っていたと判定するステップと、
前記判断が誤っていたとの判定に応じて、
前記予測された出力に対応する前記確率を前記確率の閾値を満たすグラウンドトゥルース出力と比較することに基づいて、前記機械学習モデルを更新するための勾配を生成するステップであって、
前記確率の閾値を満たす前記グラウンドトゥルース出力は、前記1つまたは複数の現在休止中の自動化アシスタントの機能を開始すべきだったことを示すグラウンドトゥルースの確率である、ステップと、
前記生成された勾配に基づいて前記機械学習モデルの重みを更新するステップと
を含む、方法。 - 前記判断が誤っていたと判定するステップが、前記予測された出力の大きさにさらに基づく請求項1に記載の方法。
- 前記予測された出力の前記大きさにさらに基づいて、前記判断が誤っていたと判定するステップが、前記予測された出力が、前記1つまたは複数の現在休止中の自動化アシスタントの機能を開始するための前記閾値を満たすことはできないが、前記閾値の特定の範囲内にあると判定することを含む請求項2に記載の方法。
- 前記オーディオデータを受信した後に前記クライアントデバイスにおいて受け取られた前記さらなるユーザインターフェース入力に基づいて、前記判断が誤っていたと判定するステップが、前記オーディオデータの受信と前記さらなるユーザインターフェース入力の受け取りとの間の継続時間に基づく請求項1から3のいずれか一項に記載の方法。
- 前記さらなるユーザインターフェース入力が、追加のオーディオデータにキャプチャされた追加の話された発話であり、
前記方法が、
前記機械学習モデルを使用して前記追加のオーディオデータを処理して、追加の予測された出力を生成するステップと、
前記追加の予測された出力が前記閾値を満たすことに基づいて、前記1つまたは複数の現在休止中の自動化アシスタントの機能を開始する追加の判断を行うステップと
をさらに含み、
前記オーディオデータを受信した後に前記クライアントデバイスにおいて受け取られた前記さらなるユーザインターフェース入力に基づいて、前記判断が誤っていたと判定するステップが、
前記1つまたは複数の現在休止中の自動化アシスタントの機能を開始する前記追加の判断に基づいて、前記判断が誤っていたと判定することを含む請求項1から4のいずれか一項に記載の方法。 - 前記さらなるユーザインターフェース入力が、追加のオーディオデータにキャプチャされた追加の話された発話であり、
前記方法が、
前記話された発話と前記追加の話された発話との間の類似性の1つまたは複数の尺度を決定するステップをさらに含み、
前記オーディオデータを受信した後に前記クライアントデバイスにおいて受け取られた前記さらなるユーザインターフェース入力に基づいて、前記判断が誤っていたと判定するステップが、前記話された発話と前記追加の話された発話との間の類似性の前記1つまたは複数の尺度に基づく請求項1から5のいずれか一項に記載の方法。 - 類似性の前記1つまたは複数の尺度が、
前記話された発話および前記追加の話された発話の継続時間の比較に基づく継続時間の類似性、
前記話された発話および前記追加の話された発話の音声の特徴の比較に基づく音声の類似性、または
前記話された発話および前記追加の話された発話の認識されたテキストの比較に基づくテキストの類似性
のうちの1つまたは複数を含む請求項6に記載の方法。 - 前記さらなるユーザインターフェース入力が、追加のオーディオデータにキャプチャされた追加の話された発話であり、
前記オーディオデータを受信した後に前記クライアントデバイスにおいて受け取られた前記さらなるユーザインターフェース入力に基づいて、前記判断が誤っていたと判定するステップが、
前記追加の話された発話の1つまたは複数の音響的特徴、または
前記クライアントデバイスのローカルに記憶された音声認識モデルを使用して前記追加の話された発話から認識されたテキスト
に基づいて、前記判断が誤っていたと判定することを含む請求項1から7のいずれか一項に記載の方法。 - 前記判断が誤っていたと判定するステップが、前記判断が誤っていたという確実性を示す確実性の尺度を決定することを含み、前記方法が、
前記確実性の尺度に基づいて、前記閾値を満たす前記グラウンドトゥルース出力の大きさを決定するステップをさらに含む請求項1から8のいずれか一項に記載の方法。 - 前記1つまたは複数の現在休止中の自動化アシスタントの機能が、
音声認識、
自然言語理解(NLU)、
前記オーディオデータもしくはその後のオーディオデータのリモートサーバへの送信、
前記音声認識からの認識されたテキストのリモートサーバへの送信、または
前記認識されたテキストおよび/もしくは前記NLUからのNLU出力に基づく応答の生成
のうちの1つまたは複数を含む請求項1から9のいずれか一項に記載の方法。 - 前記機械学習モデルが、ホットワード検出モデルであり、
前記1つまたは複数の現在休止中の自動化アシスタントの機能が、
前記クライアントデバイスのローカルに記憶された音声認識モデルを使用する音声認識、
前記オーディオデータのリモートサーバへの送信、
前記音声認識からの認識されたテキストの前記リモートサーバへの送信、または
前記クライアントデバイスのローカルに記憶された自然言語理解モデルを使用する、前記認識されたテキストの自然言語理解
のうちの1つまたは複数を含む請求項1から10のいずれか一項に記載の方法。 - 前記機械学習モデルが、会話継続モデルであり、
前記1つまたは複数の現在休止中の自動化アシスタントの機能が、
前記オーディオデータのリモートサーバへの送信、
前記オーディオデータのローカルの音声認識からの認識されたテキストの前記リモートサーバへの送信、または
前記オーディオデータもしくは前記認識されたテキストに基づく応答の生成
のうちの1つまたは複数を含む請求項1から11のいずれか一項に記載の方法。 - 前記予測された出力が、さらに、前記機械学習モデルを使用して、前記認識されたテキストおよび/または前記認識されたテキストに基づいて生成された自然言語理解データを処理することに基づく請求項12に記載の方法。
- 前記オーディオデータおよび前記さらなるユーザインターフェース入力のいずれも送信せずに、前記生成された勾配をネットワークを介してリモートシステムに送信するステップをさらに含み、
前記リモートシステムが、前記機械学習モデルに対応する大域的な機械学習モデルの大域的な重みを更新するために、前記生成された勾配および追加のクライアントデバイスからの追加の勾配を利用する請求項1から13のいずれか一項に記載の方法。 - 前記大域的な機械学習モデルの前記更新された大域的な重みが、前記リモートシステムのメモリに記憶される請求項14に記載の方法。
- 前記大域的な機械学習モデルを前記リモートシステムから前記クライアントデバイスにおいて受信するステップであって、前記大域的な機械学習モデルを受信するステップが、前記リモートシステムが前記生成された勾配および前記追加の勾配に基づいて前記大域的な機械学習モデルの前記大域的な重みを更新した後である、ステップと、
前記大域的な機械学習モデルの受信に応じて、前記クライアントデバイスのローカルストレージ内で前記機械学習モデルを前記大域的な機械学習モデルによって置き換えるステップと
をさらに含む請求項14または請求項15に記載の方法。 - 前記更新された大域的な重みを前記リモートシステムから前記クライアントデバイスにおいて受信するステップであって、前記更新された大域的な重みを受信するステップが、前記リモートシステムが前記生成された勾配および前記追加の勾配に基づいて前記大域的な機械学習モデルの前記大域的な重みを更新した後である、ステップと、
前記更新された大域的な重みの受信に応じて、前記クライアントデバイスのローカルストレージ内で前記機械学習モデルの重みを前記更新された大域的な重みによって置き換えるステップと
をさらに含む請求項14または請求項15に記載の方法。 - 前記クライアントデバイスの1つまたは複数のセンサからのセンサデータに基づいて、前記クライアントデバイスの現在の状態が1つまたは複数の条件を満たすと判定するステップをさらに含み、
前記勾配を生成するステップおよび/または前記重みを更新するステップが、前記クライアントデバイスの前記現在の状態が前記1つまたは複数の条件を満たすとの判定に応じて実行される請求項1から17のいずれか一項に記載の方法。 - クライアントデバイスの1つまたは複数のプロセッサによって実行される方法であって、
前記クライアントデバイスの1つまたは複数のセンサ構成要素を介して、前記クライアントデバイスの環境の1つまたは複数の環境属性をキャプチャするセンサデータを受信するステップと、
前記クライアントデバイスのローカルに記憶された機械学習モデルを使用して前記センサデータを処理して、1つまたは複数の現在休止中の自動化アシスタントの機能が作動されるかどうかを指示する予測された出力を生成するステップであって、
前記予測された出力は、前記センサデータが前記指示することを含むかどうかを示す確率に対応する、ステップと、
前記予測された出力に対応する前記確率が確率の閾値を満たすことができないことに基づいて、前記1つまたは複数の現在休止中の自動化アシスタントの機能をトリガすべきかどうかに関する判断を行うステップと、
前記判断を行った後、前記判断が誤っていたと判定するステップと、
前記判断が誤っていたとの判定に応じて、
前記予測された出力に対応する前記確率を前記確率の閾値を満たすグラウンドトゥルース出力と比較することに基づいて、前記機械学習モデルを更新するための勾配を生成するステップであって、
前記確率の閾値を満たす前記グラウンドトゥルース出力は、前記1つまたは複数の現在休止中の自動化アシスタントの機能をトリガすべきだったことを示すグラウンドトゥルースの確率である、ステップと、
前記生成された勾配に基づいて前記機械学習モデルの重みを更新するステップと
を含む、方法。 - 前記機械学習モデルが、ホットワードを使用しない呼び出しモデルであり、
前記センサデータが、前記1つまたは複数のセンサ構成要素のカメラからの1つまたは複数の画像、前記1つまたは複数のセンサ構成要素の近接センサからの近接センサデータ、前記1つまたは複数のセンサ構成要素の加速度計からの加速度計データ、および/または前記1つまたは複数のセンサ構成要素の磁力計からの磁力計データを含む請求項19に記載の方法。 - 前記1つまたは複数の現在休止中の自動化アシスタントの機能が、
前記クライアントデバイスのローカルに記憶された音声認識モデルを使用する音声認識、
前記センサデータのリモートサーバへの送信、
前記音声認識からの認識されたテキストの前記リモートサーバへの送信、または
前記クライアントデバイスのローカルに記憶された自然言語理解モデルを使用する、前記認識されたテキストの自然言語理解
のうちの1つまたは複数を含む請求項19または20に記載の方法。 - 前記判断が誤っていたと判定するステップが、
前記センサデータを受信した後に前記クライアントデバイスにおいて追加のユーザインターフェース入力を受け取ることと、
前記追加のユーザインターフェース入力が前記判断の訂正を示すと判定することと
を含み、
前記判断が誤っていたと判定するステップが、前記追加のユーザインターフェース入力が前記判断の前記訂正を示すと判定することに基づく請求項19に記載の方法。 - 前記追加のユーザインターフェース入力が前記判定の前記訂正を示すと判定することが、前記センサデータの受信と前記追加のユーザインターフェース入力の受け取りとの間の継続時間に基づく請求項22に記載の方法。
- 前記センサデータが、話された発話をキャプチャするオーディオデータを含み、
前記追加のユーザインターフェース入力が、追加のオーディオデータにキャプチャされた追加の話された発話であり、
前記方法が、
前記オーディオデータおよび前記追加のオーディオデータに基づいて、前記話された発話と前記追加の話された発話との間の類似性の1つまたは複数の尺度を決定するステップをさらに含み、
前記追加のユーザインターフェース入力が前記判定の前記訂正を示すと判定することが、類似性の前記1つまたは複数の尺度に基づく請求項22または23に記載の方法。 - 前記追加のユーザインターフェース入力が、追加のオーディオデータであり、
前記追加のユーザインターフェース入力が前記判断の前記訂正を示すと判定することが、
前記追加のオーディオデータの1つまたは複数の音響的特徴、および
前記クライアントデバイスのローカルに記憶された音声認識モデルを使用して前記追加のオーディオデータから認識されたテキスト
のうちの1つまたは複数に基づく請求項22または23に記載の方法。 - 前記判断が誤っていたと判定するステップが、前記予測された出力の大きさにさらに基づく請求項19から25のいずれか一項に記載の方法。
- 前記判断が、前記1つまたは複数の現在休止中の自動化アシスタントの機能をトリガしないというものであり、
前記判断が誤っていたと判定するステップが、
前記機械学習モデルを使用して前記追加のユーザインターフェース入力を処理して、追加の予測された出力を生成すること、および
前記追加の予測された出力に基づいて、前記1つまたは複数の現在休止中の自動化アシスタントの機能をトリガすると決定すること
に基づく請求項22から26のいずれか一項に記載の方法。 - 前記判断が、前記1つまたは複数の現在休止中の自動化アシスタントの機能をトリガするというものであり、
前記トリガされる1つまたは複数の現在休止中の自動化アシスタントの機能が、前記センサデータのリモートサーバへの送信を含み、
前記判断が誤っていたと判定するステップが、
送信に応じて前記リモートサーバから、前記判定が誤っていたというインジケーションを受信することを含む請求項22から26のいずれか一項に記載の方法。 - クライアントデバイスの1つまたは複数のプロセッサによって実行される方法であって、
前記クライアントデバイスの1つまたは複数のマイクロフォンを介して、ユーザの話された発話をキャプチャするオーディオデータを受信するステップと、
前記クライアントデバイスのローカルに記憶された機械学習モデルを使用して前記オーディオデータを処理して、予測された出力を生成するステップであって、
前記予測された出力は、前記オーディオデータが1つまたは複数の現在休止中の自動化アシスタントの機能を開始するためのユーザの意図を含むかどうかを示す確率に対応する、ステップと、
前記予測された出力に対応する前記確率が確率の閾値を満たすことができないことに基づいて、前記1つまたは複数の現在休止中の自動化アシスタントの機能を開始することを控える判断を行うステップと、
前記1つまたは複数の現在休止中の自動化アシスタントの機能を開始することを控える前記判断を行った後、
前記オーディオデータを受信した後に前記クライアントデバイスにおいて受け取られたさらなるユーザインターフェース入力に基づいて、前記判断が誤っていたと判定するステップと、
前記判断が誤っていたとの判定に応じて、
前記予測された出力に対応する前記確率を前記確率の閾値を満たすグラウンドトゥルース出力と比較することに基づいて、前記機械学習モデルを更新するための勾配を生成するステップであって、
前記確率の閾値を満たす前記グラウンドトゥルース出力は、前記1つまたは複数の現在休止中の自動化アシスタントの機能を開始すべきだったことを示すグラウンドトゥルースの確率である、ステップと、
前記オーディオデータおよび前記さらなるユーザインターフェース入力のいずれも送信せずに、前記生成された勾配をネットワークを介してリモートシステムに送信するステップと
を含み、
前記リモートシステムが、大域的な音声認識モデルの大域的な重みを更新するために、前記生成された勾配および追加のクライアントデバイスからの追加の勾配を利用する、方法。 - 前記大域的な音声認識モデルの前記更新された大域的な重みが、前記リモートシステムのメモリに記憶される請求項29に記載の方法。
- 前記大域的な音声認識モデルを前記リモートシステムから前記クライアントデバイスにおいて受信するステップであって、前記大域的な音声認識モデルを受信するステップが、前記リモートシステムが前記生成された勾配および前記追加の勾配に基づいて前記大域的な音声認識モデルの前記大域的な重みを更新した後である、ステップと、
前記大域的な音声認識モデルの受信に応じて、前記クライアントデバイスのローカルストレージ内で前記音声認識モデルを前記大域的な音声認識モデルによって置き換えるステップと
をさらに含む請求項29または30に記載の方法。 - 前記更新された大域的な重みを前記リモートシステムから前記クライアントデバイスにおいて受信するステップであって、前記更新された大域的な重みを受信するステップが、前記リモートシステムが前記勾配および前記追加の勾配に基づいて前記大域的なエンドツーエンドの音声認識モデルの前記大域的な重みを更新した後である、ステップと、
前記更新された大域的な重みの受信に応じて、前記クライアントデバイスのローカルストレージ内で前記音声認識モデルの重みを前記更新された大域的な重みによって置き換えるステップと
をさらに含む請求項29または30に記載の方法。 - クライアントデバイスの1つまたは複数のプロセッサによって実行される方法であって、
前記クライアントデバイスの1つまたは複数のセンサ構成要素を介して、前記クライアントデバイスの環境の1つまたは複数の環境属性をキャプチャするセンサデータを受信するステップと、
前記クライアントデバイスのローカルに記憶された機械学習モデルを使用して前記センサデータを処理して、1つまたは複数の現在休止中の自動化アシスタントの機能が作動されるかどうかを指示する予測された出力を生成するステップであって、
前記予測された出力は、前記センサデータが前記指示することを含むかどうかを示す確率に対応する、ステップと、
前記予測された出力に対応する前記確率が確率の閾値を満たすことができないことに基づいて、前記1つまたは複数の現在休止中の自動化アシスタントの機能をトリガすべきかどうかに関する判断を行うステップと、
前記判断を行った後、前記判断が誤っていたと判定するステップと、
前記判断が誤っていたとの判定に応じて、
前記予測された出力に対応する前記確率を前記確率の閾値を満たすグラウンドトゥルース出力と比較することに基づいて、前記機械学習モデルを更新するための勾配を生成するステップであって、
前記確率の閾値を満たす前記グラウンドトゥルース出力は、前記1つまたは複数の現在休止中の自動化アシスタントの機能をトリガすべきだったことを示すグラウンドトゥルースの確率である、ステップと、
オーディオデータおよびさらなるユーザインターフェース入力のいずれも送信せずに、前記生成された勾配をネットワークを介してリモートシステムに送信するステップと
を含み、
前記リモートシステムが、大域的な音声認識モデルの大域的な重みを更新するために、前記生成された勾配および追加のクライアントデバイスからの追加の勾配を利用する、方法。 - 前記大域的な音声認識モデルの前記更新された大域的な重みが、前記リモートシステムのメモリに記憶される請求項33に記載の方法。
- 前記大域的な音声認識モデルを前記リモートシステムから前記クライアントデバイスにおいて受信するステップであって、前記大域的な音声認識モデルを受信するステップが、前記リモートシステムが前記生成された勾配および前記追加の勾配に基づいて前記大域的な音声認識モデルの前記大域的な重みを更新した後である、ステップと、
前記大域的な音声認識モデルの受信に応じて、前記クライアントデバイスのローカルストレージ内で前記音声認識モデルを前記大域的な音声認識モデルによって置き換えるステップと
をさらに含む請求項33または34に記載の方法。 - 前記更新された大域的な重みを前記リモートシステムから前記クライアントデバイスにおいて受信するステップであって、前記更新された大域的な重みを受信するステップが、前記リモートシステムが前記勾配および前記追加の勾配に基づいて前記大域的なエンドツーエンドの音声認識モデルの前記大域的な重みを更新した後である、ステップと、
前記更新された大域的な重みの受信に応じて、前記クライアントデバイスのローカルストレージ内で前記音声認識モデルの重みを前記更新された大域的な重みによって置き換えるステップと
をさらに含む請求項33または34に記載の方法。 - 少なくとも1つのマイクロフォンと、
少なくとも1つのディスプレイと、
1つまたは複数のプロセッサと
を含み、前記1つまたは複数のプロセッサは、前記1つまたは複数のプロセッサに請求項1から36のいずれか一項に記載の方法を実行させるローカルに記憶された命令を実行する、クライアントデバイス。 - 1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1から36のいずれか一項に記載の方法を実行させる命令を含む、コンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2019/060537 WO2021091573A1 (en) | 2019-11-08 | 2019-11-08 | Using corrections, of automated assistant functions, for training of on-device machine learning models |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023500048A JP2023500048A (ja) | 2023-01-04 |
JP7418563B2 true JP7418563B2 (ja) | 2024-01-19 |
Family
ID=69160151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022522685A Active JP7418563B2 (ja) | 2019-11-08 | 2019-11-08 | オンデバイスの機械学習モデルの訓練のための自動化アシスタントの機能の訂正の使用 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11741953B2 (ja) |
EP (2) | EP4254169A3 (ja) |
JP (1) | JP7418563B2 (ja) |
KR (1) | KR20220088926A (ja) |
CN (1) | CN114651228A (ja) |
WO (1) | WO2021091573A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114651228A (zh) * | 2019-11-08 | 2022-06-21 | 谷歌有限责任公司 | 使用自动化助理功能的校正来训练设备上的机器学习模型 |
US11120805B1 (en) * | 2020-06-19 | 2021-09-14 | Micron Technology, Inc. | Intelligent microphone having deep learning accelerator and random access memory |
US11521604B2 (en) * | 2020-09-03 | 2022-12-06 | Google Llc | User mediation for hotword/keyword detection |
EP4099142A4 (en) | 2021-04-19 | 2023-07-05 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND METHOD OF OPERATION |
US11601694B1 (en) | 2021-09-15 | 2023-03-07 | Castle Global, Inc. | Real-time content data processing using robust data models |
US20230177382A1 (en) * | 2021-12-02 | 2023-06-08 | Google Llc | Method(s) and system(s) for improved efficiency in federated learning of machine learning model(s) |
EP4213076A1 (en) * | 2022-01-13 | 2023-07-19 | Nokia Technologies Oy | Updating classifiers |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140365226A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US20180232662A1 (en) | 2017-02-14 | 2018-08-16 | Microsoft Technology Licensing, Llc | Parsers for deriving user intents |
JP2018136568A (ja) | 2014-05-30 | 2018-08-30 | アップル インコーポレイテッド | 手動始点/終点指定及びトリガフレーズの必要性の低減 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9461876B2 (en) * | 2012-08-29 | 2016-10-04 | Loci | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
CN104969289B (zh) * | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US8719039B1 (en) * | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
US10810912B2 (en) * | 2017-03-15 | 2020-10-20 | Aether Inc. | Face recognition triggered digital assistant and LED light ring for a smart mirror |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
WO2018212941A1 (en) * | 2017-05-15 | 2018-11-22 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311872B2 (en) * | 2017-07-25 | 2019-06-04 | Google Llc | Utterance classifier |
KR102661487B1 (ko) * | 2018-05-04 | 2024-04-26 | 구글 엘엘씨 | 검출된 제스처 및 시선에 기초하여 자동화된 어시스턴트 기능 호출 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
WO2020091503A1 (en) * | 2018-11-01 | 2020-05-07 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
EP4047506A1 (en) * | 2019-10-16 | 2022-08-24 | Sigma Technologies, S.L.U. | Method and system to automatically train a chatbot using domain conversations |
CN114651228A (zh) * | 2019-11-08 | 2022-06-21 | 谷歌有限责任公司 | 使用自动化助理功能的校正来训练设备上的机器学习模型 |
US11521604B2 (en) * | 2020-09-03 | 2022-12-06 | Google Llc | User mediation for hotword/keyword detection |
US11830486B2 (en) * | 2020-10-13 | 2023-11-28 | Google Llc | Detecting near matches to a hotword or phrase |
US11557300B2 (en) * | 2020-10-16 | 2023-01-17 | Google Llc | Detecting and handling failures in other assistants |
US11562748B2 (en) * | 2020-12-01 | 2023-01-24 | Google Llc | Detecting and suppressing commands in media that may trigger another automated assistant |
-
2019
- 2019-11-08 CN CN201980101834.2A patent/CN114651228A/zh active Pending
- 2019-11-08 EP EP23193113.0A patent/EP4254169A3/en active Pending
- 2019-11-08 JP JP2022522685A patent/JP7418563B2/ja active Active
- 2019-11-08 KR KR1020227017862A patent/KR20220088926A/ko unknown
- 2019-11-08 WO PCT/US2019/060537 patent/WO2021091573A1/en unknown
- 2019-11-08 EP EP19836116.4A patent/EP3841459B1/en active Active
- 2019-11-08 US US16/973,572 patent/US11741953B2/en active Active
-
2023
- 2023-07-06 US US18/218,818 patent/US20230352019A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140365226A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
JP2018136568A (ja) | 2014-05-30 | 2018-08-30 | アップル インコーポレイテッド | 手動始点/終点指定及びトリガフレーズの必要性の低減 |
US20180232662A1 (en) | 2017-02-14 | 2018-08-16 | Microsoft Technology Licensing, Llc | Parsers for deriving user intents |
Also Published As
Publication number | Publication date |
---|---|
US20210327421A1 (en) | 2021-10-21 |
US11741953B2 (en) | 2023-08-29 |
CN114651228A (zh) | 2022-06-21 |
EP3841459B1 (en) | 2023-10-04 |
EP4254169A3 (en) | 2023-12-13 |
EP3841459A1 (en) | 2021-06-30 |
WO2021091573A1 (en) | 2021-05-14 |
US20230352019A1 (en) | 2023-11-02 |
KR20220088926A (ko) | 2022-06-28 |
EP4254169A2 (en) | 2023-10-04 |
JP2023500048A (ja) | 2023-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7418563B2 (ja) | オンデバイスの機械学習モデルの訓練のための自動化アシスタントの機能の訂正の使用 | |
US11482217B2 (en) | Selectively activating on-device speech recognition, and using recognized text in selectively activating on-device NLU and/or on-device fulfillment | |
AU2020466345B2 (en) | User mediation for hotword/keyword detection | |
US11972766B2 (en) | Detecting and suppressing commands in media that may trigger another automated assistant | |
US20230037085A1 (en) | Preventing non-transient storage of assistant interaction data and/or wiping of stored assistant interaction data | |
US20240055002A1 (en) | Detecting near matches to a hotword or phrase | |
AU2024200224A1 (en) | Detecting and handling failures in automated voice assistants | |
US20230143177A1 (en) | Contextual suppression of assistant command(s) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220606 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7418563 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |