JP2021520511A - テキスト非依存話者認識 - Google Patents
テキスト非依存話者認識 Download PDFInfo
- Publication number
- JP2021520511A JP2021520511A JP2020546167A JP2020546167A JP2021520511A JP 2021520511 A JP2021520511 A JP 2021520511A JP 2020546167 A JP2020546167 A JP 2020546167A JP 2020546167 A JP2020546167 A JP 2020546167A JP 2021520511 A JP2021520511 A JP 2021520511A
- Authority
- JP
- Japan
- Prior art keywords
- user
- audio data
- speaker
- client device
- automated assistant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001755 vocal effect Effects 0.000 claims abstract description 149
- 230000001419 dependent effect Effects 0.000 claims abstract description 10
- 230000004044 response Effects 0.000 claims description 136
- 238000000034 method Methods 0.000 claims description 126
- 238000005259 measurement Methods 0.000 claims description 123
- 230000008569 process Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 31
- 230000009471 action Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 12
- 230000000977 initiatory effect Effects 0.000 claims description 10
- 230000002093 peripheral effect Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
- Toys (AREA)
- Traffic Control Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
102 クライアントデバイス
104 自動化されたアシスタントクライアント
106 音声キャプチャ/TTS/STTエンジン
107 話者認識モジュール
108 話者埋め込み
110 自動化されたアシスタント
114 クラウドベースの自動化されたアシスタント構成要素
116 クラウドベースエンジン
118 クラウドベースSTTエンジン
120 話者認識モジュール
122 自然言語プロセッサ
124 話者認識モデル
126 以前の発話
200 プロセス
300 プロセス
400 プロセス
510 コンピューティングデバイス
512 バスサブシステム
514 プロセッサ
516 ネットワークインターフェースサブシステム
520 ユーザインターフェース出力デバイス
522 ユーザインターフェース入力デバイス
524 ストレージサブシステム
525 メモリサブシステム
526 ファイルストレージサブシステム
530 主RAM
532 ROM
Claims (28)
クライアントデバイスからネットワークを介して、自動化されたアシスタントの要求を受信するステップであって、前記自動化されたアシスタントの要求が、
前記クライアントデバイスの特定のユーザに関するテキスト非依存(TI)話者埋め込みと、
前記特定のユーザの口頭の入力をキャプチャするオーディオデータであって、前記オーディオデータが、前記クライアントデバイスの1つまたは複数のマイクロフォンによってキャプチャされる、オーディオデータとを含む、ステップと、
TI話者埋め込みがTI話者認識モデルの古いバージョンを使用して生成されたと判定するステップと、
前記TI話者埋め込みが前記TI話者認識モデルの前記古いバージョンを使用して生成されたとの判定に応じて、
TI出力を生成するために、前記TI話者認識モデルの前記古いバージョンを使用して前記オーディオデータの少なくとも一部を処理するステップと、
前記TI出力を前記特定のユーザの前記TI話者埋め込みと比較することによって、前記特定のユーザが前記口頭の入力を言ったかどうかを判定するステップと、
前記特定のユーザが前記口頭の入力を言ったとの判定に応じて、
前記オーディオデータに基づく1つまたは複数のアクションを実行するステップと、
更新された話者埋め込みを生成するために、前記TI話者認識モデルの更新されたバージョンを使用して前記特定のユーザの以前の口頭の入力をキャプチャする以前のオーディオデータを処理するステップと、
将来の自動化されたアシスタントの要求によって送信するために前記更新された話者埋め込みを前記クライアントデバイスにローカルに記憶させるために、前記特定のユーザに関する前記更新された話者埋め込みを前記クライアントデバイスに送信するステップとを含む、
方法。
前記方法は、
前記特定のユーザに関する前記更新された話者埋め込みを前記クライアントデバイスに送信したことに応じて、
前記1つまたは複数のコンピューティングデバイスから前記更新された話者埋め込みのすべてのインスタンスを削除するステップをさらに含む、
請求項1に記載の方法。
前記TI出力を生成するために、前記TI話者認識モデルの前記古いバージョンを使用して前記オーディオデータの呼び出しフレーズ部分に加えて前記オーディオデータの追加的な部分を処理することを含む、
請求項1または2に記載の方法。
前記TI出力を生成するために、前記TI話者認識モデルの前記古いバージョンを使用して前記オーディオデータの呼び出しフレーズ部分および前記オーディオデータの追加的な部分を処理することを含む、
請求項1から3のいずれか一項に記載の方法。
前記更新された話者埋め込みを生成するために前記TI話者認識モデルの前記更新されたバージョンを使用して前記以前のオーディオデータの複数のインスタンスを処理するステップであって、前記以前のオーディオデータの前記インスタンスの各々が前記特定のユーザの以前の口頭の入力をキャプチャする、ステップを含む、
請求項1から4のいずれか一項に記載の方法。
請求項1から5のいずれか一項に記載の方法。
請求項6に記載の方法。
複数の以前のオーディオデータの中の以前のオーディオデータの各インスタンスの長さを決定し、
前記特定のユーザの前記口頭の入力をキャプチャする前記オーディオデータの長さを決定し、
前記オーディオデータの前記長さを以前のオーディオデータの各インスタンスの前記長さと比較し、
比較に基づいて前記オーディオデータが以前のオーディオデータの1つまたは複数のインスタンスよりも長いとの判定に応じて、最も短い長さを有する以前のオーディオデータの前記インスタンスを前記オーディオデータによって置き換えることによって行われる、ステップをさらに含む、
請求項5に記載の方法。
前記TI話者埋め込みに関するバージョン識別子に少なくとも部分的に基づき、前記バージョン識別子が、前記自動化されたアシスタントの要求に含まれる、
請求項1から8のいずれか一項に記載の方法。
前記オーディオデータに基づいて1つまたは複数の周辺デバイスを制御することを含む、
請求項1から9のいずれか一項に記載の方法。
前記特定のユーザのためにカスタマイズされ、前記オーディオデータに基づく応答コンテンツを生成するステップと、
前記クライアントデバイスに前記応答コンテンツに基づく出力をレンダリングさせるステップとを含む、
請求項1から10のいずれか一項に記載の方法。
請求項11に記載の方法。
前記TD話者埋め込みが、前記特定のユーザに関するものであり、
前記TI出力を前記特定のユーザの前記話者埋め込みと比較することによって、前記特定のユーザが前記口頭の入力を言ったかどうかを判定するステップが、
前記TI出力を前記話者埋め込みと比較することによってTIユーザ測定値を決定するステップと、
前記TDユーザ測定値と前記TIユーザ測定値との両方を使用して前記特定のユーザが前記口頭の入力を言ったかどうかを判定するステップとをさらに含む、
請求項1から12のいずれか一項に記載の方法。
前記TDユーザ測定値と前記TIユーザ測定値とを組み合わせることによって、前記特定のユーザが前記口頭の入力を言った確率を示す特定のユーザの確率の測定値を決定するステップと、
前記特定のユーザの確率の測定値が閾値を満たすかどうかを判定することによって、前記特定のユーザが前記口頭の入力を言ったかどうかを判定するステップとを含む、
請求項13に記載の方法。
前記話者埋め込みが前記TI話者認識モデルの前記古いバージョンを使用して生成されたとの判定に応じて、
第1のユーザプロファイルおよび第2のユーザプロファイルが前記自動化されたアシスタントの要求に関連すると判定するステップと、
前記第1のユーザプロファイルおよび前記第2のユーザプロファイルが前記自動化されたアシスタントの要求に関連するとの判定に応じて、
第1のユーザのためにカスタマイズされかつ前記口頭の入力に応答する第1の応答コンテンツの生成を開始するステップと、
第2のユーザのためにカスタマイズされかつ前記口頭の入力に応答する第2の応答コンテンツの生成を開始するステップと、
前記第1の応答コンテンツおよび前記第2の応答コンテンツの生成を完了する前に、TI出力を生成するために前記TI話者認識モデルを使用してオーディオデータの少なくとも前記一部を処理するステップと、
前記TI出力を前記第1のユーザの話者埋め込みと比較することによって、前記特定のユーザが前記第1のユーザであるかどうか、および前記特定のユーザが前記口頭の入力を言ったかどうかを判定するステップとをさらに含み、
前記方法は、
前記特定のユーザが前記口頭の入力を言ったとの判定に応じて、
前記第2の応答コンテンツを前記クライアントデバイスに送信することなく前記第1の応答コンテンツを前記クライアントデバイスに送信するステップをさらに含む、
請求項11に記載の方法。
クライアントデバイスからネットワークを介して、自動化されたアシスタントの要求を受信するステップであって、前記自動化されたアシスタントの要求が、
ユーザの口頭の入力をキャプチャするオーディオデータであって、前記オーディオデータが、前記クライアントデバイスの1つまたは複数のマイクロフォンにおいてキャプチャされる、オーディオデータと、
前記クライアントデバイスのローカルに記憶されたテキスト依存(TD)話者認識モデルを使用して、かつ前記クライアントデバイスのローカルに記憶されたTD話者埋め込みを使用して、前記クライアントデバイスのローカルで生成されたTDユーザ測定値であって、前記TD話者埋め込みが、特定のユーザに関するものである、TDユーザ測定値とを含む、ステップと、
テキスト非依存(TI)出力を生成するために、TI話者認識モデルを使用して前記オーディオデータの少なくとも一部を処理するステップと、
TI出力を、前記自動化されたアシスタントの要求に関連付けられかつ前記特定のユーザに関するものであるTI話者埋め込みと比較することによってTIユーザ測定値を決定するステップと、
前記TDユーザ測定値と前記TIユーザ測定値との両方を使用して、前記特定のユーザが前記口頭の入力を言ったかどうかを判定するステップと、
前記口頭の入力が前記特定のユーザによって言われたとの判定に応じて、
前記口頭の入力に応答し前記特定のユーザのためにカスタマイズされる応答コンテンツを生成するステップと、
前記クライアントデバイスに前記応答コンテンツに基づく出力をレンダリングさせるために前記クライアントデバイスに前記応答コンテンツを送信するステップとを含む、
方法。
請求項16に記載の方法。
前記TDユーザ測定値と前記TIユーザ測定値とを組み合わせることによって、前記特定のユーザが前記口頭の入力を言った確率を示す特定のユーザの確率の測定値を決定するステップと、
前記特定のユーザの確率の測定値が閾値を満たすかどうかを判定することによって、前記特定のユーザが前記口頭の入力を言ったかどうかを判定するステップとを含む、
請求項16または請求項17に記載の方法。
請求項18に記載の方法。
請求項19に記載の方法。
請求項19または請求項20に記載の方法。
前記TDユーザ測定値が閾値を満たすことができないと判定するステップをさらに含み、
TI出力を生成するために前記オーディオデータの前記一部を処理するステップ、前記TIユーザ測定値を決定するステップ、および前記TDユーザ測定値と前記TIユーザ測定値との両方を使用して前記特定のユーザが前記口頭の入力を言ったかどうかを判定するステップが、前記TDユーザ測定値が前記閾値を満たすことができないとの判定に応じてのみ実行される、
請求項16から21のいずれか一項に記載の方法。
クライアントデバイスからネットワークを介して、自動化されたアシスタントの要求を受信するステップであって、前記自動化されたアシスタントの要求が、
口頭の入力をキャプチャするオーディオデータであって、前記オーディオデータが前記クライアントデバイスの1つまたは複数のマイクロフォンにおいてキャプチャされる、オーディオデータを含む、ステップと、
第1のユーザプロファイルおよび第2のユーザプロファイルが前記自動化されたアシスタントの要求に関連すると判定するステップと、
前記第1のユーザプロファイルおよび前記第2のユーザプロファイルが前記自動化されたアシスタントの要求に関連するとの判定に応じて、
第1のユーザのためにカスタマイズされかつ前記口頭の入力に応答する第1の応答コンテンツの生成を開始するステップと、
第2のユーザのためにカスタマイズされかつ前記口頭の入力に応答する第2の応答コンテンツの生成を開始するステップと、
前記第1の応答コンテンツおよび前記第2の応答コンテンツの生成を完了する前に、テキスト非依存(TI)出力を生成するためにTI話者認識モデルを使用して前記オーディオデータの少なくとも一部を処理するステップと、
前記第1のユーザプロファイルに対応する第1のユーザの話者埋め込みをTI出力と比較することによって、前記第1のユーザが前記口頭の入力を言ったと判定するステップと、
前記第1のユーザが前記口頭の入力を言ったとの判定に応じて、
前記第2の応答コンテンツを前記クライアントデバイスに送信することなく前記第1の応答コンテンツを前記クライアントデバイスに送信するステップとを含む、
方法。
前記方法は、
前記第1のユーザが前記口頭の入力を言ったとの判定に応じて、
前記第2のユーザのためにカスタマイズされた前記第2の応答コンテンツの生成を停止するステップをさらに含む、
請求項23に記載の方法。
前記第3のユーザプロファイルが前記自動化されたアシスタントの要求に関連するとの判定に応じて、
第3のユーザのためにカスタマイズされかつ前記口頭の入力に応答する第3の応答コンテンツの生成を開始するステップとをさらに含む、
請求項23または請求項24に記載の方法。
請求項23から25のいずれか一項に記載の方法。
前記第1の応答コンテンツの生成を開始するステップおよび前記第2の応答コンテンツの生成を開始するステップが、第1のTD測定値および前記第2のTD測定値が1つまたは複数の閾値を満たすことができないことにさらに応じて行われる、
請求項23から26のいずれか一項に記載の方法。
1つまたは複数のプロセッサと、
請求項1から27のいずれか一項に記載の方法を、前記1つまたは複数のプロセッサに実行させるための命令を記憶するメモリとを含む、
アシスタントサーバ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862774743P | 2018-12-03 | 2018-12-03 | |
US62/774,743 | 2018-12-03 | ||
PCT/US2019/063927 WO2020117639A2 (en) | 2018-12-03 | 2019-12-02 | Text independent speaker recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021520511A true JP2021520511A (ja) | 2021-08-19 |
JP7017643B2 JP7017643B2 (ja) | 2022-02-08 |
Family
ID=69005924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020546167A Active JP7017643B2 (ja) | 2018-12-03 | 2019-12-02 | テキスト非依存話者認識 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11527235B2 (ja) |
EP (3) | EP3724875B1 (ja) |
JP (1) | JP7017643B2 (ja) |
KR (2) | KR102399420B1 (ja) |
CN (1) | CN111902865A (ja) |
WO (1) | WO2020117639A2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102560019B1 (ko) * | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
US11942094B2 (en) | 2021-03-24 | 2024-03-26 | Google Llc | Hybrid multilingual text-dependent and text-independent speaker verification |
US20230025709A1 (en) * | 2021-07-21 | 2023-01-26 | Google Llc | Transferring dialog data from an initially invoked automated assistant to a subsequently invoked automated assistant |
US20230036771A1 (en) * | 2021-07-28 | 2023-02-02 | Avaya Management L.P. | Systems and methods for providing digital assistance relating to communication session information |
WO2023113786A1 (en) * | 2021-12-14 | 2023-06-22 | Google Llc | System(s) and method(s) for enabling a representative associated with an entity to modify a trained voice bot associated with the entity |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004053821A (ja) * | 2002-07-18 | 2004-02-19 | Univ Waseda | 話者識別方法およびそのシステム、並びにプログラム |
JP2005078072A (ja) * | 2003-09-03 | 2005-03-24 | Samsung Electronics Co Ltd | 音声認識及び話者認識を通じて個別化されたサービスを提供するav装置及びその方法 |
US20160343375A1 (en) * | 2013-03-14 | 2016-11-24 | Verint Americas Inc. | Biometrics Platform |
JP2017076117A (ja) * | 2015-10-16 | 2017-04-20 | グーグル インコーポレイテッド | ホットワード認識 |
JP2017207602A (ja) * | 2016-05-18 | 2017-11-24 | 日本電信電話株式会社 | 音声入力装置、その方法、及びプログラム |
JP2018517927A (ja) * | 2015-09-04 | 2018-07-05 | グーグル エルエルシー | 話者検証のためのニューラルネットワーク |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US8442824B2 (en) * | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
US8155961B2 (en) | 2008-12-09 | 2012-04-10 | Nokia Corporation | Adaptation of automatic speech recognition acoustic models |
KR101330328B1 (ko) | 2010-12-14 | 2013-11-15 | 한국전자통신연구원 | 음성 인식 방법 및 이를 위한 시스템 |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8768707B2 (en) * | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US9489950B2 (en) * | 2012-05-31 | 2016-11-08 | Agency For Science, Technology And Research | Method and system for dual scoring for text-dependent speaker verification |
CN102737633B (zh) * | 2012-06-21 | 2013-12-25 | 北京华信恒达软件技术有限公司 | 一种基于张量子空间分析的说话人识别方法及其装置 |
US9711148B1 (en) | 2013-07-18 | 2017-07-18 | Google Inc. | Dual model speaker identification |
EP2897076B8 (en) * | 2014-01-17 | 2018-02-07 | Cirrus Logic International Semiconductor Ltd. | Tamper-resistant element for use in speaker recognition |
US20150255068A1 (en) * | 2014-03-10 | 2015-09-10 | Microsoft Corporation | Speaker recognition including proactive voice model retrieval and sharing features |
US10672385B2 (en) * | 2015-09-04 | 2020-06-02 | Honeywell International Inc. | Method and system for remotely training and commanding the speech recognition system on a cockpit via a carry-on-device in a connected aircraft |
US10152974B2 (en) * | 2016-04-15 | 2018-12-11 | Sensory, Incorporated | Unobtrusive training for speaker verification |
US10304463B2 (en) * | 2016-10-03 | 2019-05-28 | Google Llc | Multi-user personalization at a voice interface device |
WO2018106971A1 (en) * | 2016-12-07 | 2018-06-14 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
US10464530B2 (en) * | 2017-01-17 | 2019-11-05 | Nio Usa, Inc. | Voice biometric pre-purchase enrollment for autonomous vehicles |
US10522154B2 (en) * | 2017-02-13 | 2019-12-31 | Google Llc | Voice signature for user authentication to electronic device |
US10467509B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
US9990926B1 (en) * | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
KR101989106B1 (ko) * | 2017-03-31 | 2019-06-13 | 엘지전자 주식회사 | 홈 어플라이언스, 음성 인식 모듈 및 홈 어플라이언스 시스템 |
US10395658B2 (en) * | 2017-05-22 | 2019-08-27 | International Business Machines Corporation | Pre-processing partial inputs for accelerating automatic dialog response |
US10339935B2 (en) * | 2017-06-19 | 2019-07-02 | Intel Corporation | Context-aware enrollment for text independent speaker recognition |
US10325602B2 (en) * | 2017-08-02 | 2019-06-18 | Google Llc | Neural networks for speaker verification |
US10515640B2 (en) * | 2017-11-08 | 2019-12-24 | Intel Corporation | Generating dialogue based on verification scores |
US10984795B2 (en) * | 2018-04-12 | 2021-04-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
GB2573809B (en) * | 2018-05-18 | 2020-11-04 | Emotech Ltd | Speaker Recognition |
EP3575202A1 (en) * | 2018-06-01 | 2019-12-04 | GE Aviation Systems Limited | Systems and methods for secure commands in vehicles |
US11004454B1 (en) * | 2018-11-06 | 2021-05-11 | Amazon Technologies, Inc. | Voice profile updating |
-
2019
- 2019-12-02 KR KR1020207026622A patent/KR102399420B1/ko active IP Right Grant
- 2019-12-02 US US17/046,994 patent/US11527235B2/en active Active
- 2019-12-02 EP EP19827988.7A patent/EP3724875B1/en active Active
- 2019-12-02 KR KR1020227016240A patent/KR102438671B1/ko active IP Right Grant
- 2019-12-02 WO PCT/US2019/063927 patent/WO2020117639A2/en unknown
- 2019-12-02 EP EP21180020.6A patent/EP3920181B1/en active Active
- 2019-12-02 JP JP2020546167A patent/JP7017643B2/ja active Active
- 2019-12-02 EP EP23196353.9A patent/EP4270224A3/en active Pending
- 2019-12-02 CN CN201980020775.6A patent/CN111902865A/zh active Pending
-
2022
- 2022-12-09 US US18/078,476 patent/US20230113617A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004053821A (ja) * | 2002-07-18 | 2004-02-19 | Univ Waseda | 話者識別方法およびそのシステム、並びにプログラム |
JP2005078072A (ja) * | 2003-09-03 | 2005-03-24 | Samsung Electronics Co Ltd | 音声認識及び話者認識を通じて個別化されたサービスを提供するav装置及びその方法 |
US20160343375A1 (en) * | 2013-03-14 | 2016-11-24 | Verint Americas Inc. | Biometrics Platform |
JP2018517927A (ja) * | 2015-09-04 | 2018-07-05 | グーグル エルエルシー | 話者検証のためのニューラルネットワーク |
JP2017076117A (ja) * | 2015-10-16 | 2017-04-20 | グーグル インコーポレイテッド | ホットワード認識 |
JP2017207602A (ja) * | 2016-05-18 | 2017-11-24 | 日本電信電話株式会社 | 音声入力装置、その方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3724875B1 (en) | 2021-06-30 |
EP4270224A2 (en) | 2023-11-01 |
WO2020117639A2 (en) | 2020-06-11 |
CN111902865A (zh) | 2020-11-06 |
EP3920181B1 (en) | 2023-10-18 |
JP7017643B2 (ja) | 2022-02-08 |
KR102399420B1 (ko) | 2022-05-19 |
US11527235B2 (en) | 2022-12-13 |
KR20220070546A (ko) | 2022-05-31 |
EP3724875A2 (en) | 2020-10-21 |
US20230113617A1 (en) | 2023-04-13 |
KR102438671B1 (ko) | 2022-08-31 |
WO2020117639A3 (en) | 2020-08-06 |
EP3920181A2 (en) | 2021-12-08 |
EP4270224A3 (en) | 2023-11-15 |
KR20200121845A (ko) | 2020-10-26 |
US20210043191A1 (en) | 2021-02-11 |
EP3920181A3 (en) | 2022-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111052229B (zh) | 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言 | |
JP7017643B2 (ja) | テキスト非依存話者認識 | |
EP3622507B1 (en) | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface | |
JP6978520B2 (ja) | 自動アシスタントのためのコマンドバンドル提案の提供 | |
JP2021533397A (ja) | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション | |
JP7256237B2 (ja) | 局所的なテキスト応答マップを利用する、ユーザの口頭発話への応答のレンダリング | |
JP7418563B2 (ja) | オンデバイスの機械学習モデルの訓練のための自動化アシスタントの機能の訂正の使用 | |
JP7371135B2 (ja) | 特定話者スピーチモデルを使用した話者認識 | |
JP2024506778A (ja) | アシスタントコマンドの受動的な曖昧さ解消 | |
US20240169989A1 (en) | Multimodal responses | |
KR20230005966A (ko) | 거의 일치하는 핫워드 또는 구문 검출 | |
US20240005924A1 (en) | Transient personalization mode for guest users of an automated assistant | |
JP2023535250A (ja) | 自動化された音声アシスタントにおける失敗の検出および処理 | |
KR20230147157A (ko) | 어시스턴트 명령(들)의 컨텍스트적 억제 | |
US11164576B2 (en) | Multimodal responses | |
US20230197072A1 (en) | Warm word arbitration between automated assistant devices | |
US20240038246A1 (en) | Non-wake word invocation of an automated assistant from certain utterances related to display content | |
US20230317082A1 (en) | Generating and/or utilizing unintentional memorization measure(s) for automatic speech recognition model(s) | |
KR20230153450A (ko) | 자동 스피치 인식의 로컬 실행을 위한 디바이스 중재 | |
WO2023114087A1 (en) | Warm word arbitration between automated assistant devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7017643 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |