JP2023540398A - テキスト依存型話者検証機能の自動生成および/または使用 - Google Patents
テキスト依存型話者検証機能の自動生成および/または使用 Download PDFInfo
- Publication number
- JP2023540398A JP2023540398A JP2023517765A JP2023517765A JP2023540398A JP 2023540398 A JP2023540398 A JP 2023540398A JP 2023517765 A JP2023517765 A JP 2023517765A JP 2023517765 A JP2023517765 A JP 2023517765A JP 2023540398 A JP2023540398 A JP 2023540398A
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- user
- speaker
- utterance
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012795 verification Methods 0.000 title claims abstract description 53
- 230000001419 dependent effect Effects 0.000 title claims abstract description 17
- 230000004044 response Effects 0.000 claims abstract description 37
- 230000003993 interaction Effects 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 85
- 238000012545 processing Methods 0.000 claims description 60
- 230000009471 action Effects 0.000 claims description 38
- 238000003062 neural network model Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 9
- 238000001994 activation Methods 0.000 claims description 9
- 238000013481 data capture Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000001747 exhibiting effect Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000001143 conditioned effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Collating Specific Patterns (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
110 アシスタントデバイス
120 自動アシスタントクライアント
122 自動音声認識(ASR)エンジン
124 自然言語理解(NLU)エンジン
126 テキスト読上げ(TTS)エンジン
128 フルフィルメントエンジン
130 認証エンジン
132 比較モジュール
134 発話特徴モジュール
136 他のモジュール
138 話者特徴モジュール
140 自動アシスタントコンポーネント
142 クラウドベースのASRエンジン
144 クラウドベースのNLUエンジン
146 クラウドベースのTTSエンジン
148 クラウドベースのフルフィルメントエンジン
150 クラウドベースの認証エンジン
152A~N TD-SVモデル
154 TD-SV特徴データベース
200 方法
300A 話された発話
300B 話された発話
300C 話された発話
300D 話された発話
300E 話された発話
301A 部分
301D 部分
301E 部分
302 話者特徴
302A 話者特徴
302D 話者特徴
302E 話者特徴
303A 部分
303B 部分
303C 部分
303D 部分
304 話者特徴
304A 話者特徴
304B 話者特徴
304C 話者特徴
304D 話者特徴
305A 部分
305B 部分
305C 部分
305D 部分
305E 部分
306 話者特徴
306A 話者特徴
306B 話者特徴
306C 話者特徴
306D 話者特徴
306E 話者特徴
307A 部分
307B 部分
307C 部分
307D 部分
308 話者特徴
308A 話者特徴
308B 話者特徴
308C 話者特徴
308D 話者特徴
309A 部分
309B 部分
309D 部分
310 話者特徴
310A 話者特徴
310B 話者特徴
400 方法
500A 話された発話
500B 話された発話
501A オーディオデータの部分
501A 部分
502A 発話特徴
502B 発話特徴
503A オーディオデータの部分
503A 部分
504A 発話特徴
505A オーディオデータの部分
505A 部分
505A 発話特徴
506A 発話特徴
506B 発話特徴
507A オーディオデータの部分
507A 部分
508A 発話特徴
509A オーディオデータの部分
509A 部分
510A 発話特徴
512A 第1の距離メトリック
512B 第2の距離メトリック
514A 第4の距離メトリック
516A 第2の距離メトリック
516B 第3の距離メトリック
518A 第3の距離メトリック
520A 第5の距離メトリック
520B 部分
521B 発話特徴
522B 第1の距離メトリック
530 話者特徴
610 コンピューティングデバイス
612 バスサブシステム
614 プロセッサ
616 ネットワークインターフェースサブシステム
620 ユーザインターフェース出力デバイス
622 ユーザインターフェース入力デバイス
624 ストレージサブシステム
625 メモリサブシステム
626 ファイルストレージサブシステム
630 メインランダムアクセスメモリ(「RAM」)
632 読取り専用メモリ(「ROM」)
Claims (24)
ユーザの話された発話をキャプチャするオーディオデータを受信するステップであって、前記オーディオデータが、前記ユーザのアシスタントデバイスの1つまたは複数のマイクを介して検出される、ステップと、
前記話された発話の認識を生成するために、前記オーディオデータに対して音声認識を実行するステップと、
前記音声認識に基づいて、前記話された発話によって伝えられるアシスタントアクションを決定するステップと、
前記話された発話の受信に応答して前記アシスタントアクションを実行するステップと、
前記認識の1つまたは複数の用語が、前記ユーザの特定のテキスト依存型話者検証(TD-SV)に対応することを決定するステップであって、前記1つまたは複数の用語が、前記アシスタントデバイスの任意の一般的な呼出しウェイクワードとは別個のものである、ステップと、
前記ユーザおよび前記話された発話に対する認証基準がしきい値を満たすと決定するステップと、
前記認識の前記1つまたは複数の用語が前記ユーザの特定のTD-SVに対応するという決定に応答して、および前記認証基準が前記しきい値を満たしているという決定に応答して、
前記ユーザの前記特定のTD-SVの話者特徴を生成する際に、前記1つまたは複数の用語に対応する前記オーディオデータの部分を処理するステップと
を含む、方法。
前記ユーザの追加の話された発話をキャプチャする追加のオーディオデータを受信するステップであって、前記追加の話された発話が、前記1つまたは複数の用語を含む、ステップと、
前記追加のオーディオデータの部分の発話特徴を生成する際に、前記1つまたは複数の用語に対応する前記追加のオーディオデータの所与の部分を処理するステップと、
前記ユーザの前記特定のTD-SVについて、前記発話特徴を前記話者特徴と比較するステップと、
前記比較に基づいて、前記追加の話された発話について前記ユーザを認証するかどうかを決定するステップと
をさらに含む、請求項1に記載の方法。
前記1つまたは複数の用語が前記追加の認識に含まれ、前記追加のオーディオデータの所与の部分に対応することを決定するステップと
をさらに含み、
前記追加のオーディオデータの前記所与の部分を処理し、前記発話特徴を前記特定のTD-SVの前記話者特徴と比較するステップが、前記1つまたは複数の用語が前記追加の認識に含まれ、前記追加のオーディオデータの前記所与の部分に対応することを決定するステップに応答する、請求項2に記載の方法。
前記追加の話された発話によって伝えられる追加のアシスタントの対話に依存するしきい値を決定するステップと、
前記距離基準が前記しきい値を満たすことを決定することにのみ応答して、前記追加の話された発話について前記ユーザを認証するステップと
を含む、請求項4に記載の方法。
前記ユーザの前記特定のTD-SVの前記話者特徴を生成する際に前記オーディオデータの前記一部を処理することが、前記オーディオデータの前記一部を処理することに基づいて前記初期の話者特徴を修正することを含む、請求項1から5のいずれか一項に記載の方法。
前記ユーザの指紋検証と、
前記ユーザの顔検証と、
前記ユーザによって入力された検証コードの分析と
のうちの1つまたは複数に基づいて前記認証基準を決定するステップをさらに備える、請求項1から6のいずれか一項に記載の方法。
所与のユーザの話された発話をキャプチャするオーディオデータを受信するステップであって、前記オーディオデータが、前記所与のユーザのアシスタントデバイスの1つまたは複数のマイクを介して検出される、ステップと、
第1の発話特徴を生成するために、前記オーディオデータの第1の部分を処理するステップと、
前記ユーザの第1のテキスト依存型話者検証(TD-SV)のために、前記第1の発話特徴と第1の話者特徴との第1の比較を実行するステップであって、前記第1のTD-SVが、1つまたは複数の用語の第1のセットに依存する、ステップと、
第2の発話特徴を生成するために、前記オーディオデータの第2の部分を処理するステップであって、前記オーディオデータの前記第2の部分が、前記オーディオデータの前記第1の部分とは異なる、ステップと、
前記ユーザの第2のTD-SVについて、前記第2の発話特徴と第2の話者特徴との第2の比較を実行するステップであって、前記第2のTD-SVが、1つまたは複数の用語の前記第1のセットとは異なる、1つまたは複数の用語の第2のセットに依存している、ステップと、
前記第1の比較と前記第2の比較の両方に基づいて、前記話された発話について前記ユーザを認証することを決定するステップと、
前記話された発話について前記ユーザを認証することを決定することに応じて、
前記話された発話に基づく1つまたは複数のアクションを実行するステップと
を含む、方法。
前記一般的な呼出しウェイクワードを話すようにという1つまたは複数のプロンプトに応答して、前記ユーザの複数の発話が収集される登録手順を実行するステップと、
前記複数の発話に応じて前記第1の話者特徴を生成するステップと
をさらに含む、請求項9に記載の方法。
前のオーディオデータの複数のインスタンスに基づいて、前記第2の話者特徴を生成するステップであって、前のオーディオデータの前記複数のインスタンスに基づいて前記第2の話者の特徴を生成するステップが、前のオーディオデータの前記複数のインスタンスが、
1つまたは複数の用語の前記第2のセットのうちの少なくともいくつかをキャプチャし、
前記ユーザが認証されたときにキャプチャされることを決定することに基づくステップをさらに含む、請求項11に記載の方法。
前のオーディオデータの複数のインスタンスに基づいて、前記第2の話者特徴を生成するステップであって、前のオーディオデータの前記複数のインスタンスに基づいて前記第2の話者の特徴を生成するステップが、前のオーディオデータの前記複数のインスタンスが、
1つまたは複数の用語の前記第2のセットのうちの少なくともいくつかをキャプチャし、
前記ユーザが認証されたときにキャプチャされることを決定することに基づくステップをさらに含む、請求項13に記載の方法。
1つまたは複数の用語の前記第2のセットが前記認識に含まれ、前記オーディオデータの前記第2の部分に対応することを決定するステップと
をさらに含み、
前記オーディオデータの前記第2の部分を処理し、前記第2の発話特徴と前記第2のTD-SVの前記第2の話者特徴との前記第2の比較を実行することが、1つまたは複数の用語の前記第2のセットが前記認識に含まれ、前記オーディオデータの前記第2の部分に対応することを決定することに応答する、請求項8から14のいずれか一項に記載の方法。
前記第2の発話特徴を生成するために前記オーディオデータの前記第2の部分を処理するステップが、前記ニューラルネットワークモデルを使用して前記オーディオデータの前記第2の部分を第2の処理するステップを含み、前記第2の発話特徴が、前記第2の処理の後の、前記ニューラルネットワークモデルの活性化の第2のセットに基づく、請求項8から15のいずれか一項に記載の方法。
前記第2の発話特徴を生成するために前記オーディオデータの前記第2の部分を処理するステップが、第2のニューラルネットワークモデルを使用して前記オーディオデータの前記第2の部分を第2の処理するステップを含み、前記第2の発話特徴が、前記第2の処理の後の、前記第2のニューラルネットワークモデルの活性化の第2のセットに基づく、請求項8から15のいずれか一項に記載の方法。
前記第2の比較を実行するステップが、前記第2の発話特徴と前記第2の話者特徴との間の第2の距離基準を決定するステップを含む、請求項8から17のいずれか一項に記載の方法。
前記第1の距離基準と前記第2の距離基準の両方に基づく全体的な基準に基づいて、前記ユーザを認証することを決定するステップを含む、請求項18に記載の方法。
前記話された発話によって伝えられるアシスタントの対話に依存するしきい値を決定するステップと、
前記全体の距離基準が前記しきい値を満たすことを決定することにのみ応答して、前記追加の話された発話について前記ユーザを認証するステップと
を含む、請求項19に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/069,565 | 2020-10-13 | ||
US17/069,565 US11315575B1 (en) | 2020-10-13 | 2020-10-13 | Automatic generation and/or use of text-dependent speaker verification features |
PCT/US2020/064984 WO2022081185A1 (en) | 2020-10-13 | 2020-12-15 | Automatic generation and/or use of text-dependent speaker verification features |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024039147A Division JP2024083355A (ja) | 2020-10-13 | 2024-03-13 | テキスト依存型話者検証機能の自動生成および/または使用 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023540398A true JP2023540398A (ja) | 2023-09-22 |
JP7457207B2 JP7457207B2 (ja) | 2024-03-27 |
Family
ID=74003962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023517765A Active JP7457207B2 (ja) | 2020-10-13 | 2020-12-15 | テキスト依存型話者検証機能の自動生成および/または使用 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11315575B1 (ja) |
EP (2) | EP4235654A1 (ja) |
JP (1) | JP7457207B2 (ja) |
KR (2) | KR20230137496A (ja) |
WO (1) | WO2022081185A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11315575B1 (en) * | 2020-10-13 | 2022-04-26 | Google Llc | Automatic generation and/or use of text-dependent speaker verification features |
US20220189501A1 (en) * | 2020-12-16 | 2022-06-16 | Truleo, Inc. | Audio analysis of body worn camera |
WO2022173962A1 (en) * | 2021-02-11 | 2022-08-18 | Nuance Communications, Inc. | Communication system and method |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6393305B1 (en) * | 1999-06-07 | 2002-05-21 | Nokia Mobile Phones Limited | Secure wireless communication user identification by voice recognition |
KR100297833B1 (ko) * | 1999-07-07 | 2001-11-01 | 윤종용 | 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법 |
US6691089B1 (en) * | 1999-09-30 | 2004-02-10 | Mindspeed Technologies Inc. | User configurable levels of security for a speaker verification system |
US8812319B2 (en) * | 2001-01-31 | 2014-08-19 | Ibiometrics, Inc. | Dynamic pass phrase security system (DPSS) |
US7636855B2 (en) * | 2004-01-30 | 2009-12-22 | Panasonic Corporation | Multiple choice challenge-response user authorization system and method |
US8099288B2 (en) * | 2007-02-12 | 2012-01-17 | Microsoft Corp. | Text-dependent speaker verification |
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US9711148B1 (en) * | 2013-07-18 | 2017-07-18 | Google Inc. | Dual model speaker identification |
US20160293167A1 (en) * | 2013-10-10 | 2016-10-06 | Google Inc. | Speaker recognition using neural networks |
US9401148B2 (en) * | 2013-11-04 | 2016-07-26 | Google Inc. | Speaker verification using neural networks |
US9767787B2 (en) * | 2014-01-01 | 2017-09-19 | International Business Machines Corporation | Artificial utterances for speaker verification |
US8812320B1 (en) * | 2014-04-01 | 2014-08-19 | Google Inc. | Segment-based speaker verification using dynamically generated phrases |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US20150302856A1 (en) * | 2014-04-17 | 2015-10-22 | Qualcomm Incorporated | Method and apparatus for performing function by speech input |
US9792899B2 (en) * | 2014-07-15 | 2017-10-17 | International Business Machines Corporation | Dataset shift compensation in machine learning |
US10580401B2 (en) * | 2015-01-27 | 2020-03-03 | Google Llc | Sub-matrix input for neural network layers |
US10438593B2 (en) * | 2015-07-22 | 2019-10-08 | Google Llc | Individualized hotword detection models |
CN106373575B (zh) | 2015-07-23 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
US9978374B2 (en) * | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
US20170236520A1 (en) * | 2016-02-16 | 2017-08-17 | Knuedge Incorporated | Generating Models for Text-Dependent Speaker Verification |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US10152974B2 (en) * | 2016-04-15 | 2018-12-11 | Sensory, Incorporated | Unobtrusive training for speaker verification |
GB2552082A (en) * | 2016-06-06 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Voice user interface |
EP3287921B1 (en) * | 2016-08-26 | 2020-11-04 | Nxp B.V. | Spoken pass-phrase suitability determination |
US9990926B1 (en) * | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
US10354656B2 (en) * | 2017-06-23 | 2019-07-16 | Microsoft Technology Licensing, Llc | Speaker recognition |
US10325602B2 (en) * | 2017-08-02 | 2019-06-18 | Google Llc | Neural networks for speaker verification |
US10515640B2 (en) * | 2017-11-08 | 2019-12-24 | Intel Corporation | Generating dialogue based on verification scores |
US10789959B2 (en) * | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
JP6980603B2 (ja) * | 2018-06-21 | 2021-12-15 | 株式会社東芝 | 話者モデル作成システム、認識システム、プログラムおよび制御装置 |
US10832671B2 (en) * | 2018-06-25 | 2020-11-10 | Intel Corporation | Method and system of audio false keyphrase rejection using speaker recognition |
US11150866B2 (en) * | 2018-11-13 | 2021-10-19 | Synervoz Communications Inc. | Systems and methods for contextual audio detection and communication mode transactions |
US10923111B1 (en) * | 2019-03-28 | 2021-02-16 | Amazon Technologies, Inc. | Speech detection and speech recognition |
US10650824B1 (en) * | 2019-05-10 | 2020-05-12 | Fmr Llc | Computer systems and methods for securing access to content provided by virtual assistants |
US11282500B2 (en) * | 2019-07-19 | 2022-03-22 | Cisco Technology, Inc. | Generating and training new wake words |
US11315575B1 (en) * | 2020-10-13 | 2022-04-26 | Google Llc | Automatic generation and/or use of text-dependent speaker verification features |
-
2020
- 2020-10-13 US US17/069,565 patent/US11315575B1/en active Active
- 2020-12-15 EP EP23163405.6A patent/EP4235654A1/en active Pending
- 2020-12-15 KR KR1020237032093A patent/KR20230137496A/ko active Application Filing
- 2020-12-15 JP JP2023517765A patent/JP7457207B2/ja active Active
- 2020-12-15 KR KR1020237015749A patent/KR102582022B1/ko active IP Right Grant
- 2020-12-15 WO PCT/US2020/064984 patent/WO2022081185A1/en active Application Filing
- 2020-12-15 EP EP20829153.4A patent/EP4010898B1/en active Active
-
2022
- 2022-03-21 US US17/700,135 patent/US11984128B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP4235654A1 (en) | 2023-08-30 |
KR102582022B1 (ko) | 2023-09-22 |
EP4010898A1 (en) | 2022-06-15 |
US20220215845A1 (en) | 2022-07-07 |
EP4010898B1 (en) | 2023-05-03 |
WO2022081185A1 (en) | 2022-04-21 |
US11984128B2 (en) | 2024-05-14 |
KR20230070523A (ko) | 2023-05-23 |
US11315575B1 (en) | 2022-04-26 |
JP7457207B2 (ja) | 2024-03-27 |
US20220115022A1 (en) | 2022-04-14 |
KR20230137496A (ko) | 2023-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11289100B2 (en) | Selective enrollment with an automated assistant | |
JP7457207B2 (ja) | テキスト依存型話者検証機能の自動生成および/または使用 | |
US11704940B2 (en) | Enrollment with an automated assistant | |
US20240005924A1 (en) | Transient personalization mode for guest users of an automated assistant | |
US20230298583A1 (en) | Suggesting an alternative interface when environmental interference is expected to inhibit certain automated assistant interactions | |
JP2022539674A (ja) | 特定話者スピーチモデルを使用した話者認識 | |
JP2024079788A (ja) | アシスタントリクエストの協調的処理のための、グループ化されたアシスタントデバイスの、オンデバイスモデルを動的に適応させること | |
KR20230147157A (ko) | 어시스턴트 명령(들)의 컨텍스트적 억제 | |
US20220094650A1 (en) | Asynchronous resumption of dialog session(s) between a user and an automated assistant based on intermediate user interaction(s) | |
JP2024083355A (ja) | テキスト依存型話者検証機能の自動生成および/または使用 | |
JP7507885B2 (ja) | アシスタントリクエストの協調的処理のための、グループ化されたアシスタントデバイスの、オンデバイスモデルを動的に適応させること | |
US20230223031A1 (en) | User authentication, for assistant action, using data from other device(s) in a shared environment | |
US20230186909A1 (en) | Selecting between multiple automated assistants based on invocation properties | |
US20230409277A1 (en) | Encrypting and/or decrypting audio data utilizing speaker features | |
WO2023113877A1 (en) | Selecting between multiple automated assistants based on invocation properties |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230516 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230516 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7457207 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |