JP2023552855A - 話者依存フォローアップアクションおよびウォームワード - Google Patents
話者依存フォローアップアクションおよびウォームワード Download PDFInfo
- Publication number
- JP2023552855A JP2023552855A JP2023535766A JP2023535766A JP2023552855A JP 2023552855 A JP2023552855 A JP 2023552855A JP 2023535766 A JP2023535766 A JP 2023535766A JP 2023535766 A JP2023535766 A JP 2023535766A JP 2023552855 A JP2023552855 A JP 2023552855A
- Authority
- JP
- Japan
- Prior art keywords
- warm
- user
- speaker
- words
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 116
- 230000001419 dependent effect Effects 0.000 title claims description 37
- 238000000034 method Methods 0.000 claims abstract description 100
- 230000007774 longterm Effects 0.000 claims abstract description 52
- 238000012795 verification Methods 0.000 claims abstract description 38
- 230000003213 activating effect Effects 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 224
- 238000012545 processing Methods 0.000 claims description 56
- 230000015654 memory Effects 0.000 claims description 39
- 238000012790 confirmation Methods 0.000 claims description 13
- 230000005923 long-lasting effect Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 62
- 230000008569 process Effects 0.000 description 56
- 230000006399 behavior Effects 0.000 description 18
- 230000004044 response Effects 0.000 description 13
- 230000001276 controlling effect Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000001994 activation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
12 メモリハードウェア
16 マイクロフォン
18 スピーカ
50 ユーザデバイス
100 システム
100a システム
100b システム
102 ユーザ
104 アシスタント対応デバイス(AED)
105 デジタルアシスタント
106 発話
108 ホットワード検出器
110 ホットワード
112 ウォームワード
114 ウォームワードモデル
116 音声認識器
118 コマンド
120 サーバ
122 音楽
123 合成音声
124 動作識別器
126 ウォームワードセレクタ
132 ネットワーク
154 登録済み話者ベクトル
158 テキスト依存話者ベクトル
160 関連付け器
200 登録済みユーザ
300 グラフィカルユーザインターフェース(GUI)
400a 話者識別プロセス
400b 話者検証プロセス
402 オーディオデータ
410 話者弁別モデル
411 第1の話者弁別ベクトル
412 第2の話者弁別ベクトル
420 比較器
600 コンピューティングデバイス
600a 標準サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ
620 メモリ
630 記憶デバイス
640 高速インターフェース/コントローラ
650 高速拡張ポート
660 低速インターフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート
Claims (28)
- 話者依存ウォームワード(112)を活動化するための方法(500)であって、
データ処理ハードウェア(10)において、ユーザによって話され、前記ユーザに関連するアシスタント対応デバイス(104)によって取り込まれた発話に対応するオーディオデータ(402)を受信するステップであって、前記発話が、デジタルアシスタント(105)が長期にわたる動作を実施するためのコマンド(118)を含む、ステップと、
前記発話に対応する前記オーディオデータ(402)を受信した後、
前記データ処理ハードウェア(10)により、前記長期にわたる動作を制御するためのそれぞれのアクションにそれぞれ関連付けられる1つまたは複数のウォームワード(112)のセットを活動化するステップと、
データ処理ハードウェア(10)により、活動化された1つまたは複数のウォームワード(112)のセットを、前記発話を話した前記ユーザのみに関連付けるステップと、
前記デジタルアシスタント(105)が前記長期にわたる動作を実施している間に、
前記データ処理ハードウェア(10)において、前記アシスタント対応デバイス(104)によって取り込まれた追加の発話に対応する追加のオーディオデータ(402)を受信するステップと、
前記データ処理ハードウェア(10)により、前記追加のオーディオデータ(402)内で、前記活動化された1つまたは複数のウォームワード(112)のセットからの前記ウォームワード(112)のうちの1つを識別するステップと、
前記データ処理ハードウェア(10)により、前記追加のオーディオデータ(402)に関する話者検証を実施して、前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる同一のユーザ(102)によって話されたかどうかを判定するステップと、
前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記同一のユーザ(102)によって話されたとき、データ処理ハードウェア(10)により、前記長期にわたる動作を制御するための前記ウォームワード(112)のうちの識別された1つに関連付けられる前記それぞれのアクションを実施するステップと
を含む方法(500)。 - 1つまたは複数のウォームワード(112)の前記セットを活動化する前記ステップが、前記活動化された1つまたは複数のウォームワード(112)のセット内のそれぞれの対応するウォームワード(112)について、それぞれのウォームワードモデル(114)を活動化して、前記ユーザに関連付けられる前記アシスタント対応デバイス(104)上で実行するステップを含み、
前記追加のオーディオデータ(402)内で、前記活動化された1つまたは複数のウォームワード(112)のセットからの前記ウォームワード(112)のうちの前記1つを識別する前記ステップが、前記ウォームワード(112)のうちの対応する1つについて活動化された前記それぞれのウォームワードモデル(114)を使用して、前記追加のオーディオデータ(402)に関する音声認識を実施することなく、前記追加のオーディオデータ(402)内の前記ウォームワード(112)のうちの前記1つを検出するステップを含む、請求項1に記載の方法(500)。 - 前記追加のオーディオデータ(402)内の前記ウォームワード(112)のうちの前記1つを検出する前記ステップが、
前記追加のオーディオデータ(402)のオーディオ特徴を抽出するステップと、
前記ウォームワード(112)のうちの対応する1つについて活動化された前記それぞれのウォームワードモデル(114)を使用して、抽出されたオーディオ特徴を処理することによってウォームワード信頼スコアを生成するステップと、
前記ウォームワード信頼スコアがウォームワード信頼しきい値を満たすとき、前記追加の発話に対応する前記追加のオーディオデータ(402)が前記ウォームワード(112)のうちの対応する1つを含むと判定するステップと
を含む、請求項2に記載の方法(500)。 - 1つまたは複数のウォームワード(112)の前記セットを活動化する前記ステップが、前記アシスタント対応デバイス(104)上で音声認識器(116)を実行するステップを含み、前記音声認識器(116)が、前記活動化された1つまたは複数のウォームワード(112)のセット内の前記1つまたは複数のウォームワード(112)を認識するようにバイアスされ、
前記追加のオーディオデータ(402)内で、前記活動化された1つまたは複数のウォームワード(112)のセットからの前記ウォームワード(112)のうちの前記1つを識別する前記ステップが、前記アシスタント対応デバイス(104)上で実行中の前記音声認識器(116)を使用して、前記追加のオーディオデータ(402)内の前記ウォームワード(112)のうちの前記1つを認識するステップを含む、請求項1から3のいずれか一項に記載の方法(500)。 - 前記ユーザによって話された前記発話に対応する前記オーディオデータ(402)を受け取った後、前記データ処理ハードウェア(10)により、
前記ユーザによって話された前記発話に対応する前記オーディオデータ(402)から、前記ユーザによって話された前記発話の特徴を表す第1の話者弁別ベクトル(411)を抽出するステップと、
抽出された前記話者弁別ベクトルが、前記アシスタント対応デバイス(104)上に記憶された何らかの登録済み話者ベクトル(154)に合致するかどうかを判定するステップであって、各登録済み話者ベクトル(154)が、前記アシスタント対応デバイス(104)の異なるそれぞれの登録済みユーザ(200)に関連付けられる、ステップと、
前記第1の話者弁別ベクトル(411)が前記登録済み話者ベクトル(154)のうちの1つに合致するとき、前記発話を話した前記ユーザを、抽出された前記話者弁別ベクトルに合致する前記登録済み話者ベクトル(154)のうちの1つに関連付けられるそれぞれの登録済みユーザ(200)として識別するステップと
によって、前記オーディオデータ(402)に関する話者識別を実施して、前記発話を話した前記ユーザを識別することを実施するステップをさらに含む、請求項1から4のいずれか一項に記載の方法(500)。 - 前記ユーザによって話された前記発話が、前記デジタルアシスタント(105)が前記長期にわたる動作を実施するための前記コマンド(118)に先行するホットワード(110)をさらに含み、
前記第1の話者弁別ベクトル(411)が、前記ホットワード(110)を含む前記オーディオデータ(402)の部分から抽出されたテキスト依存話者弁別ベクトルを含み、
各登録済み話者ベクトル(154)が、前記ホットワード(110)を話す前記それぞれの登録済みユーザ(200)の1つまたは複数のオーディオサンプルから抽出されたテキスト依存登録済み話者ベクトル(154)を含む、請求項5に記載の方法(500)。 - 前記追加のオーディオデータ(402)に関する前記話者検証を実施する前記ステップが、
前記ウォームワード(112)のうちの前記1つの前記追加の発話に対応する前記追加のオーディオデータ(402)から、前記追加の発話の特徴を表す第2の話者弁別ベクトルを抽出するステップと、
抽出された前記第2の話者弁別ベクトルが、前記発話を話した前記ユーザとして識別された前記それぞれの登録済みユーザ(200)についての基準話者ベクトル(155)に合致するかどうかを判定するステップと、
抽出された前記第2の話者弁別ベクトルが前記基準話者ベクトル(155)に合致するとき、前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記同一のユーザ(102)によって話されたと判定するステップと
を含む、請求項5または6に記載の方法(500)。 - 前記基準話者ベクトル(155)が、前記それぞれの登録済みユーザ(200)に関連付けられる前記登録済み話者ベクトル(154)を含む、請求項7に記載の方法(500)。
- 前記基準話者ベクトル(155)が、前記ウォームワード(112)のうちの識別された1つを話す前記それぞれの登録済みユーザ(200)の1つまたは複数のオーディオサンプルから抽出されたテキスト依存話者ベクトル(158)を含む、請求項7に記載の方法(500)。
- 前記第1の話者弁別ベクトル(411)が前記登録済み話者ベクトル(154)のいずれにも合致しないとき、前記発話を話した前記ユーザを前記アシスタント対応デバイス(104)のゲストユーザ(102)として識別するステップ、および
前記追加のオーディオデータ(402)に関する前記話者検証を実施する前記ステップが、
前記追加のオーディオデータ(402)から、前記追加の発話の特徴を表す第2の話者弁別ベクトル(412)を抽出するステップと、
前記第2の話者弁別ベクトル(412)が、前記特徴を表す前記第1の話者弁別ベクトル(411)に合致するかどうかを判定するステップと、
前記第1の話者弁別ベクトルおよび抽出された前記第2の話者弁別ベクトルが合致するとき、前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記同一のユーザ(102)によって話されたと判定するステップと
を含む、請求項5から9のいずれか一項に記載の方法(500)。 - 前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記ユーザとは異なるユーザ(103)によって話されたとき、前記データ処理ハードウェア(10)により、前記長期にわたる動作を制御するための前記ウォームワード(112)のうちの識別された1つに関連付けられるそれぞれのアクションの実施を抑制するステップをさらに含む、請求項1から10のいずれか一項に記載の方法(500)。
- 前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記ユーザとは異なるユーザ(103)によって話されたとき、
前記データ処理ハードウェア(10)により、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記ユーザに、前記長期にわたる動作を制御するための前記ウォームワード(112)のうちの識別された1つに関連付けられるそれぞれのアクションの実施を許可するようにプロンプト指示するステップと、
前記データ処理ハードウェア(10)において、前記それぞれのアクションの実施を許可する前記ユーザからの確認(119)を受信するステップと、
前記データ処理ハードウェア(10)により、前記長期にわたる動作を制御するための前記ウォームワード(112)のうちの識別された1つに関連付けられるそれぞれのアクションを実施するステップと
をさらに含む、請求項1から11のいずれか一項に記載の方法(500)。 - 前記ユーザにプロンプト指示する前記ステップが、前記追加の発話を話した前記異なるユーザ(103)を識別するステップを含む、請求項12に記載の方法(500)。
- 前記データ処理ハードウェア(10)により、前記デジタルアシスタント(105)が前記長期にわたる動作を実施することを停止したときを判定するステップと、
前記データ処理ハードウェア(10)により、1つまたは複数のウォームワード(112)の前記セットを非活動化するステップと
をさらに含む、請求項1から13のいずれか一項に記載の方法(500)。 - データ処理ハードウェア(10)と、
前記データ処理ハードウェア(10)と通信しているメモリハードウェア(12)であって、前記データ処理ハードウェア(10)上で実行されるとき、前記データ処理ハードウェア(10)に、
ユーザによって話され、前記ユーザに関連するアシスタント対応デバイス(104)によって取り込まれた発話に対応するオーディオデータ(402)を受信することであって、前記発話が、デジタルアシスタント(105)が長期にわたる動作を実施するためのコマンド(118)を含むことと、
前記発話に対応する前記オーディオデータ(402)を受け取った後、
前記長期にわたる動作を制御するためのそれぞれのアクションにそれぞれ関連付けられる1つまたは複数のウォームワード(112)のセットを活動化することと、
活動化された1つまたは複数のウォームワード(112)のセットを、前記発話を話した前記ユーザのみに関連付けることと、
前記デジタルアシスタント(105)が前記長期にわたる動作を実施している間に、
前記アシスタント対応デバイス(104)によって取り込まれた追加の発話に対応する追加のオーディオデータ(402)を受信することと、
前記追加のオーディオデータ(402)内で、前記活動化された1つまたは複数のウォームワード(112)のセットからの前記ウォームワード(112)のうちの1つを識別することと
前記追加のオーディオデータ(402)に関する話者検証を実施して、前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる同一のユーザ(102)によって話されたかどうかを判定することと、
前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記同一のユーザ(102)によって話されたとき、前記長期にわたる動作を制御するための前記ウォームワード(112)のうちの識別された1つに関連付けられるそれぞれのアクションを実施することと
を含む動作を実施させる命令を記憶する、メモリハードウェア(12)と
を備えるシステム(100)。 - 1つまたは複数のウォームワード(112)の前記セットを活動化することが、前記活動化された1つまたは複数のウォームワード(112)のセット内のそれぞれの対応するウォームワード(112)について、それぞれのウォームワードモデル(114)を活動化して、前記ユーザに関連付けられる前記アシスタント対応デバイス(104)上で実行することを含み、
前記追加のオーディオデータ(402)内で、前記活動化された1つまたは複数のウォームワード(112)のセットからの前記ウォームワード(112)のうちの前記1つを識別することが、前記ウォームワード(112)のうちの対応する1つについて活動化された前記それぞれのウォームワードモデル(114)を使用して、前記追加のオーディオデータ(402)に関する音声認識を実施することなく、前記追加のオーディオデータ(402)内の前記ウォームワード(112)のうちの前記1つを検出することを含む、請求項15に記載のシステム(100)。 - 前記追加のオーディオデータ(402)内の前記ウォームワード(112)のうちの前記1つを検出することが、
前記追加のオーディオデータ(402)のオーディオ特徴を抽出することと、
前記ウォームワード(112)のうちの対応する1つについて活動化された前記それぞれのウォームワードモデルを使用して、抽出されたオーディオ特徴を処理することによってウォームワード信頼スコアを生成することと、
前記ウォームワード信頼スコアがウォームワード信頼しきい値を満たすとき、前記追加の発話に対応する前記追加のオーディオデータ(402)が前記ウォームワード(112)のうちの対応する1つを含むと判定することと
を含む、請求項16または17に記載のシステム(100)。 - 1つまたは複数のウォームワード(112)の前記セットを活動化することが、前記アシスタント対応デバイス(104)上で音声認識器(116)を実行することを含み、前記音声認識器(116)が、前記活動化された1つまたは複数のウォームワード(112)のセット内の前記1つまたは複数のウォームワード(112)を認識するようにバイアスされ、
前記追加のオーディオデータ(402)内で、前記活動化された1つまたは複数のウォームワード(112)のセットからの前記ウォームワード(112)のうちの前記1つを識別することが、前記アシスタント対応デバイス(104)上で実行中の前記音声認識器(116)を使用して、前記追加のオーディオデータ(402)内の前記ウォームワード(112)のうちの前記1つを認識することを含む、請求項15から17のいずれか一項に記載のシステム(100)。 - 前記動作が、前記ユーザによって話された前記発話に対応する前記オーディオデータ(402)を受け取った後、
前記ユーザによって話された前記発話に対応する前記オーディオデータ(402)から、前記ユーザによって話された前記発話の特徴を表す第1の話者弁別ベクトル(411)を抽出することと、
抽出された前記話者弁別ベクトルが、前記アシスタント対応デバイス(104)上に記憶された何らかの登録済み話者ベクトル(154)に合致するかどうかを判定することであって、各登録済み話者ベクトル(154)が、前記アシスタント対応デバイス(104)の異なるそれぞれの登録済みユーザ(200)に関連付けられることと、
前記第1の話者弁別ベクトル(411)が前記登録済み話者ベクトル(154)のうちの1つに合致するとき、前記発話を話した前記ユーザを、抽出された前記話者弁別ベクトルに合致する前記登録済み話者ベクトル(154)のうちの1つに関連付けられるそれぞれの登録済みユーザ(200)として識別することと
によって、前記オーディオデータ(402)に関する話者識別を実施して、前記発話を話した前記ユーザを識別することをさらに含む、請求項15から18のいずれか一項に記載のシステム(100)。 - 前記ユーザによって話された前記発話が、前記デジタルアシスタント(105)が前記長期にわたる動作を実施するための前記コマンド(118)に先行するホットワード(110)をさらに含み、
前記第1の話者弁別ベクトル(411)が、前記ホットワード(110)を含む前記オーディオデータ(402)の部分から抽出されたテキスト依存話者弁別ベクトルを含み、
各登録済み話者ベクトル(154)が、前記ホットワード(110)を話す前記それぞれの登録済みユーザ(200)の1つまたは複数のオーディオサンプルから抽出されたテキスト依存登録済み話者ベクトル(154)を含む、請求項19に記載のシステム(100)。 - 前記追加のオーディオデータ(402)に関する前記話者検証を実施することが、
前記ウォームワード(112)のうちの前記1つの前記追加の発話に対応する前記追加のオーディオデータ(402)から、前記追加の発話の特徴を表す第2の話者弁別ベクトル(412)を抽出することと、
抽出された前記第2の話者弁別ベクトルが、前記発話を話した前記ユーザとして識別された前記それぞれの登録済みユーザ(200)についての基準話者ベクトル(155)に合致するかどうかを判定することと、
抽出された前記第2の話者弁別ベクトル(412)が前記基準話者ベクトル(155)に合致するとき、前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記同一のユーザ(102)によって話されたと判定することと
を含む、請求項19または20に記載のシステム(100)。 - 前記基準話者ベクトル(155)が、前記それぞれの登録済みユーザ(200)に関連付けられる前記登録済み話者ベクトル(154)を含む、請求項21に記載のシステム(100)。
- 前記基準話者ベクトル(155)が、前記ウォームワード(112)のうちの識別された1つを話す前記それぞれの登録済みユーザ(200)の1つまたは複数のオーディオサンプルから抽出されたテキスト依存話者ベクトル(158)を含む、請求項21に記載のシステム(100)。
- 前記第1の話者弁別ベクトル(411)が前記登録済み話者ベクトル(154)のいずれにも合致しないとき、前記発話を話した前記ユーザを前記アシスタント対応デバイス(104)のゲストユーザ(102)として識別すること、および
前記追加のオーディオデータ(402)に関する前記話者検証を実施することが、
前記追加のオーディオデータ(402)から、前記追加の発話の特徴を表す第2の話者弁別ベクトル(412)を抽出することと、
前記第2の話者弁別ベクトル(412)が、前記特徴を表す前記第1の話者弁別ベクトル(411)に合致するかどうかを判定することと、
前記第1の話者弁別ベクトルおよび抽出された前記第2の話者弁別ベクトルが合致するとき、前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記同一のユーザ(102)によって話されたと判定することと
を含む、請求項19から23のいずれか一項に記載のシステム(100)。 - 前記動作が、前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記ユーザとは異なるユーザ(103)によって話されたとき、前記長期にわたる動作を制御するための前記ウォームワード(112)のうちの識別された1つに関連付けられるそれぞれのアクションの実施を抑制することをさらに含む、請求項15から24のいずれか一項に記載のシステム(100)。
- 前記動作が、前記追加の発話が、前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記ユーザとは異なるユーザ(103)によって話されたとき、
前記活動化された1つまたは複数のウォームワード(112)のセットに関連付けられる前記ユーザに、前記長期にわたる動作を制御するための前記ウォームワード(112)のうちの識別された1つに関連付けられるそれぞれのアクションの実施を許可するようにプロンプト指示することと、
前記それぞれのアクションの実施を許可する前記ユーザからの確認(119)を受信することと、
前記長期にわたる動作を制御するための前記ウォームワード(112)のうちの識別された1つに関連付けられるそれぞれのアクションを実施することと
をさらに含む、請求項15から25のいずれか一項に記載のシステム(100)。 - 前記ユーザにプロンプト指示することが、前記追加の発話を話した前記異なるユーザ(103)を識別することを含む、請求項26に記載のシステム(100)。
- 前記動作が、
前記デジタルアシスタントが前記長期にわたる動作を実施することを停止したときを判定することと、
1つまたは複数のウォームワード(112)の前記セットを非活動化することと
をさらに含む、請求項15から27のいずれか一項に記載のシステム(100)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/117,799 US11557278B2 (en) | 2020-12-10 | 2020-12-10 | Speaker dependent follow up actions and warm words |
US17/117,799 | 2020-12-10 | ||
PCT/US2021/059693 WO2022125279A1 (en) | 2020-12-10 | 2021-11-17 | Speaker dependent follow up actions and warm words |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023552855A true JP2023552855A (ja) | 2023-12-19 |
Family
ID=78918666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023535766A Pending JP2023552855A (ja) | 2020-12-10 | 2021-11-17 | 話者依存フォローアップアクションおよびウォームワード |
Country Status (6)
Country | Link |
---|---|
US (1) | US11557278B2 (ja) |
EP (1) | EP4248440A1 (ja) |
JP (1) | JP2023552855A (ja) |
KR (1) | KR20230118643A (ja) |
CN (1) | CN116848582A (ja) |
WO (1) | WO2022125279A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240119088A1 (en) * | 2022-10-06 | 2024-04-11 | Google Llc | Handling Contradictory Queries on a Shared Device |
US20240161741A1 (en) * | 2022-11-14 | 2024-05-16 | Google Llc | Short-Lived Repeat Voice Commands |
US20240161740A1 (en) * | 2022-11-14 | 2024-05-16 | Google Llc | Multi-Assistant Warm Words |
US20240169995A1 (en) * | 2022-11-17 | 2024-05-23 | Google Llc | Multi-User Warm Words |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8121895B2 (en) * | 2005-07-21 | 2012-02-21 | Adknowledge, Inc. | Method and system for delivering electronic communications |
US8386251B2 (en) * | 2009-06-08 | 2013-02-26 | Microsoft Corporation | Progressive application of knowledge sources in multistage speech recognition |
DE102009051508B4 (de) * | 2009-10-30 | 2020-12-03 | Continental Automotive Gmbh | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung |
US9576572B2 (en) * | 2012-06-18 | 2017-02-21 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and nodes for enabling and producing input to an application |
CN103064530B (zh) * | 2012-12-31 | 2017-03-08 | 华为技术有限公司 | 输入处理方法和装置 |
US20140343949A1 (en) * | 2013-05-17 | 2014-11-20 | Fortemedia, Inc. | Smart microphone device |
WO2015008162A2 (en) * | 2013-07-15 | 2015-01-22 | Vocavu Solutions Ltd. | Systems and methods for textual content creation from sources of audio that contain speech |
US8719039B1 (en) * | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US9940929B2 (en) * | 2015-12-09 | 2018-04-10 | Lenovo (Singapore) Pte. Ltd. | Extending the period of voice recognition |
US10365887B1 (en) * | 2016-03-25 | 2019-07-30 | Amazon Technologies, Inc. | Generating commands based on location and wakeword |
US10242673B2 (en) * | 2016-12-07 | 2019-03-26 | Google Llc | Preventing of audio attacks using an input and an output hotword detection model |
US10276161B2 (en) * | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
DE112018002857T5 (de) * | 2017-12-26 | 2020-02-27 | Robert Bosch Gmbh | Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen |
US10580414B2 (en) * | 2018-05-07 | 2020-03-03 | Microsoft Technology Licensing, Llc | Speaker recognition/location using neural network |
KR102498811B1 (ko) * | 2018-08-21 | 2023-02-10 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 |
JP7322076B2 (ja) * | 2018-08-21 | 2023-08-07 | グーグル エルエルシー | 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード |
US10978059B2 (en) * | 2018-09-25 | 2021-04-13 | Google Llc | Speaker diarization using speaker embedding(s) and trained generative model |
US11217254B2 (en) * | 2018-12-24 | 2022-01-04 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
US11349834B2 (en) * | 2019-01-30 | 2022-05-31 | Ncr Corporation | Multi-factor secure operation authentication |
US10897508B2 (en) * | 2019-03-08 | 2021-01-19 | International Business Machines Corporation | Personal call center assistant |
US20200312315A1 (en) * | 2019-03-28 | 2020-10-01 | Apple Inc. | Acoustic environment aware stream selection for multi-stream speech recognition |
EP3726856B1 (en) * | 2019-04-17 | 2022-11-16 | Oticon A/s | A hearing device comprising a keyword detector and an own voice detector |
US11232800B2 (en) * | 2019-04-23 | 2022-01-25 | Google Llc | Personalized talking detector for electronic device |
EP3888084A4 (en) * | 2019-05-16 | 2022-01-05 | Samsung Electronics Co., Ltd. | METHOD AND DEVICE FOR PROVIDING A VOICE RECOGNITION SERVICE |
US11189279B2 (en) * | 2019-05-22 | 2021-11-30 | Microsoft Technology Licensing, Llc | Activation management for multiple voice assistants |
US12001754B2 (en) * | 2019-11-21 | 2024-06-04 | Motorola Mobility Llc | Context based media selection based on preferences setting for active consumer(s) |
US11295741B2 (en) * | 2019-12-05 | 2022-04-05 | Soundhound, Inc. | Dynamic wakewords for speech-enabled devices |
US11341954B2 (en) * | 2019-12-17 | 2022-05-24 | Google Llc | Training keyword spotters |
KR20210079060A (ko) * | 2019-12-19 | 2021-06-29 | 엘지전자 주식회사 | 화자 음성 위조 검사 방법 및 장치 |
US11328733B2 (en) * | 2020-09-24 | 2022-05-10 | Synaptics Incorporated | Generalized negative log-likelihood loss for speaker verification |
US20220165275A1 (en) * | 2020-10-01 | 2022-05-26 | Pindrop Security, Inc. | Enrollment and authentication over a phone call in call centers |
US11830486B2 (en) * | 2020-10-13 | 2023-11-28 | Google Llc | Detecting near matches to a hotword or phrase |
US11468900B2 (en) * | 2020-10-15 | 2022-10-11 | Google Llc | Speaker identification accuracy |
-
2020
- 2020-12-10 US US17/117,799 patent/US11557278B2/en active Active
-
2021
- 2021-11-17 CN CN202180093505.5A patent/CN116848582A/zh active Pending
- 2021-11-17 EP EP21827453.8A patent/EP4248440A1/en active Pending
- 2021-11-17 KR KR1020237023351A patent/KR20230118643A/ko unknown
- 2021-11-17 JP JP2023535766A patent/JP2023552855A/ja active Pending
- 2021-11-17 WO PCT/US2021/059693 patent/WO2022125279A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
KR20230118643A (ko) | 2023-08-11 |
WO2022125279A1 (en) | 2022-06-16 |
CN116848582A (zh) | 2023-10-03 |
US11557278B2 (en) | 2023-01-17 |
EP4248440A1 (en) | 2023-09-27 |
US20220189465A1 (en) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10796702B2 (en) | Method and system for controlling home assistant devices | |
US10861444B2 (en) | Systems and methods for determining whether to trigger a voice capable device based on speaking cadence | |
US11289100B2 (en) | Selective enrollment with an automated assistant | |
US11557278B2 (en) | Speaker dependent follow up actions and warm words | |
US10255922B1 (en) | Speaker identification using a text-independent model and a text-dependent model | |
KR20180050365A (ko) | 화자 검증 | |
US11170787B2 (en) | Voice-based authentication | |
US20230362026A1 (en) | Output device selection | |
US20240046935A1 (en) | Generating and/or utilizing voice authentication biasing parameters for assistant devices | |
US20230377580A1 (en) | Dynamically adapting on-device models, of grouped assistant devices, for cooperative processing of assistant requests | |
JP2024510798A (ja) | ハイブリッド多言語テキスト依存およびテキスト非依存の話者検証 | |
US20240169995A1 (en) | Multi-User Warm Words | |
US20240184867A1 (en) | Adaptive Guest Mode for Portable Speakers | |
US20240119088A1 (en) | Handling Contradictory Queries on a Shared Device | |
US20240161741A1 (en) | Short-Lived Repeat Voice Commands | |
US20240119944A1 (en) | Voice Query Handling in an Environment with Multiple Users | |
US20240161740A1 (en) | Multi-Assistant Warm Words | |
KR20240096889A (ko) | 자동화 어시스턴트 디바이스 사이의 웜 워드 중재 | |
KR20240033006A (ko) | 소프트 핫워드로 자동 스피치 인식 | |
EP4217845A1 (en) | Selecting between multiple automated assistants based on invocation properties |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230809 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230809 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230809 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20231121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240516 |