JP2017076117A - ホットワード認識 - Google Patents
ホットワード認識 Download PDFInfo
- Publication number
- JP2017076117A JP2017076117A JP2016179290A JP2016179290A JP2017076117A JP 2017076117 A JP2017076117 A JP 2017076117A JP 2016179290 A JP2016179290 A JP 2016179290A JP 2016179290 A JP2016179290 A JP 2016179290A JP 2017076117 A JP2017076117 A JP 2017076117A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- hot word
- audio data
- computing device
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 64
- 230000004044 response Effects 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 28
- 238000002604 ultrasonography Methods 0.000 claims description 26
- 238000012795 verification Methods 0.000 claims description 25
- 230000002618 waking effect Effects 0.000 claims 6
- 230000015654 memory Effects 0.000 description 39
- 230000000875 corresponding effect Effects 0.000 description 30
- 238000004891 communication Methods 0.000 description 18
- 238000004590 computer program Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- GXPHKUHSUJUWKP-UHFFFAOYSA-N troglitazone Chemical compound C1CC=2C(C)=C(O)C(C)=C(C)C=2OC1(C)COC(C=C1)=CC=C1CC1SC(=O)NC1=O GXPHKUHSUJUWKP-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/20—Individual registration on entry or exit involving the use of a pass
- G07C9/22—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
- G07C9/25—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/20—Individual registration on entry or exit involving the use of a pass
- G07C9/22—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
- G07C9/25—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
- G07C9/257—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】発声に対応するオーディオデータを受信し、オーディオデータがホットワードに対応するか判定し、ホットワードに対応すると判定されたオーディオデータのホットワードオーディオフィンガプリントを生成し、ホットワードオーディオフィンガプリントを、ホットワードに対応すると以前に判定されたオーディオデータの記憶されたオーディオフィンガプリントと比較し、該比較の類似性が所定しきい値を満足するか否かに基づいて、ホットワードオーディオフィンガプリントが、ホットワードに対応すると以前に判定されたオーディオデータの記憶されたオーディオフィンガプリントと一致するか否かを検出し、ホットワードオーディオフィンガプリントが記憶されたオーディオフィンガプリントと一致することに応じて発声されたコンピューティングデバイスへのアクセスを無効化する。
【選択図】図1
Description
本願は、その内容が参照によって本明細書に組み込まれている2015年10月16日出願の米国仮出願番号第62/242,650号の利益を主張する。
120 オーディオサブシステム
125 超音波オーディオサブシステム
130 ホットワード検出器
135 部分的ホットワード検出器
140 オーディオフィンガプリント生成器
150 リプレイ攻撃エンジン
160 ホットワードフィンガプリントデータベース
220 オーディオサブシステム
225 超音波オーディオサブシステム
230 ホットワード検出器
235 部分的ホットワード検出器
240 オーディオフィンガプリント生成器
250 リプレイ攻撃エンジン
400 コンピューティングデバイス
402 プロセッサ
404 メモリ
406 記憶デバイス
408 高速インターフェース、高速コントローラ
410 高速拡張ポート
412 低速インターフェース、低速コントローラ
414 低速バス、低速拡張ポート
416 ディスプレイ
420 サーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
450 モバイルコンピュータデバイス
452 プロセッサ
454 ディスプレイ、拡張メモリ
456 ディスプレイインターフェース
458 制御インターフェース
460 オーディオコーデック
462 外部インターフェース
464 メモリ
466 通信インターフェース
468 トランシーバ
480 セルラ電話
482 スマートフォン
Claims (60)
- コンピュータによって実施される方法であって、
発声に対応するオーディオデータを受信するステップと、
前記オーディオデータがホットワードに対応すると判定するステップと、
前記ホットワードに対応すると判定された前記オーディオデータのホットワードオーディオフィンガプリントを生成するステップと、
前記ホットワードオーディオフィンガプリントと、前記ホットワードに対応すると以前に判定されたオーディオデータの1つまたは複数の記憶されたオーディオフィンガプリントとの間の類似性を判定するステップと、
前記ホットワードオーディオフィンガプリントと、前記1つまたは複数の記憶されたオーディオフィンガプリントのうちの1つとの間の前記類似性が、あらかじめ決定されたしきい値を満足するか否かに基づいて、前記ホットワードオーディオフィンガプリントが、前記ホットワードに対応すると以前に判定されたオーディオデータの記憶されたオーディオフィンガプリントと一致するか否かを検出するステップと、
前記ホットワードオーディオフィンガプリントが、記憶されたオーディオフィンガプリントと一致することを検出するステップに応じて、前記発声が話されたコンピューティングデバイスへのアクセスを無効化するステップと
を備える方法。 - 前記オーディオデータがホットワードに対応すると判定するステップは、
前記オーディオデータの1つまたは複数の音響特性を識別するステップと、
前記オーディオデータの前記1つまたは複数の音響特性を、データベースに記憶された1つまたは複数のホットワードに関連付けられた1つまたは複数の音響特性と比較するステップと、
前記オーディオデータの前記1つまたは複数の音響特性と、前記データベースに記憶された1つまたは複数のホットワードに関連付けられた前記1つまたは複数の音響特性との前記比較に基づいて、前記オーディオデータが、前記データベースに記憶された前記1つまたは複数のホットワードのうちの1つに対応すると判定するステップと
を備える、請求項1に記載のコンピュータによって実施される方法。 - 追加の発声に対応する追加のオーディオデータを受信するステップと、
前記追加のオーディオデータを使用して、話者識別d-ベクトルを識別するステップと、
前記追加のオーディオデータからの前記話者識別d-ベクトルと、前記発声に対応する前記オーディオデータからのホットワードd-ベクトルとの間の類似性を判定するステップと、
前記追加のオーディオデータからの前記話者識別d-ベクトルと、前記発声に対応する前記オーディオデータからの前記ホットワードd-ベクトルとの間の前記類似性が、特定のしきい値を満足するか否かに基づいて、前記ホットワードに対応する前記オーディオデータが、前記追加のオーディオデータに一致するか否かを検出するステップと、
前記ホットワードに対応する前記オーディオデータが、前記追加のオーディオデータと一致しないことを検出するステップに応じて、前記コンピューティングデバイスへのアクセスを無効化するステップと
をさらに備える、請求項1に記載のコンピュータによって実施される方法。 - 前記ホットワードは、特定の用語に後続する1つまたは複数の用語のうちの追加の用語の意味的な解釈をトリガする前記特定の用語である、請求項1に記載のコンピュータによって実施される方法。
- 音声コマンドまたはクエリに対応する追加のオーディオデータを受信するステップと、
前記音声コマンドまたはクエリのタイプを判定するステップであって、前記あらかじめ決定されたしきい値は、前記音声コマンドまたはクエリの前記タイプに基づいて調節される、判定するステップと
を備える、請求項1に記載のコンピュータによって実施される方法。 - 前記オーディオデータがホットワードに対応すると判定するステップは、
前記オーディオデータの初期部分が、前記ホットワードの初期部分に対応すると判定するステップと、
前記オーディオデータの前記初期部分が、前記ホットワードの前記初期部分に対応すると判定するステップに応じて、複数のユニークな超音波オーディオサンプルのうちの1つを、前記オーディオデータの前記初期部分が受信された後に出力させるステップと
を備える、請求項1に記載のコンピュータによって実施される方法。 - 前記受信されたオーディオデータが、前記複数のユニークな超音波オーディオサンプルのうちの1つに対応するオーディオデータを備えていると判定するステップと、
前記受信されたオーディオデータが、前記複数のユニークな超音波オーディオサンプルのうちの1つに対応するオーディオデータを備えていると判定するステップに応じて、前記コンピューティングデバイスへのアクセスを無効化するステップと
を備える、請求項6に記載のコンピュータによって実施される方法。 - 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行された場合、前記1つまたは複数のコンピュータに対して、動作を実行させるように動作可能な命令を記憶した1つまたは複数の記憶デバイスとを備えるシステムであって、前記動作は、
発声に対応するオーディオデータを受信するステップと、
前記オーディオデータがホットワードに対応すると判定するステップと、
前記ホットワードに対応すると判定された前記オーディオデータのホットワードオーディオフィンガプリントを生成するステップと、
前記ホットワードオーディオフィンガプリントと、前記ホットワードに対応すると以前に判定されたオーディオデータの1つまたは複数の記憶されたオーディオフィンガプリントとの間の類似性を判定するステップと、
前記ホットワードオーディオフィンガプリントと、前記1つまたは複数の記憶されたオーディオフィンガプリントのうちの1つとの間の前記類似性が、あらかじめ決定されたしきい値を満足するか否かに基づいて、前記ホットワードオーディオフィンガプリントが、前記ホットワードに対応すると以前に判定されたオーディオデータの記憶されたオーディオフィンガプリントと一致するか否かを検出するステップと、
前記ホットワードオーディオフィンガプリントが、記憶されたオーディオフィンガプリントと一致することを検出するステップに応じて、前記発声が話されたコンピューティングデバイスへのアクセスを無効化するステップと
を備える、システム。 - 前記オーディオデータがホットワードに対応すると判定するステップは、
前記オーディオデータの1つまたは複数の音響特性を識別するステップと、
前記オーディオデータの前記1つまたは複数の音響特性を、データベースに記憶された1つまたは複数のホットワードに関連付けられた1つまたは複数の音響特性と比較するステップと、
前記オーディオデータの前記1つまたは複数の音響特性と、前記データベースに記憶された1つまたは複数のホットワードに関連付けられた前記1つまたは複数の音響特性との前記比較に基づいて、前記オーディオデータが、前記データベースに記憶された前記1つまたは複数のホットワードのうちの1つに対応すると判定するステップと
を備える、請求項8に記載のシステム。 - 前記動作は、
追加の発声に対応する追加のオーディオデータを受信するステップと、
前記追加のオーディオデータを使用して、話者識別d-ベクトルを識別するステップと、
前記追加のオーディオデータからの前記話者識別d-ベクトルと、前記発声に対応する前記オーディオデータからのホットワードd-ベクトルとの間の類似性を判定するステップと、
前記追加のオーディオデータからの前記話者識別d-ベクトルと、前記発声に対応する前記オーディオデータからの前記ホットワードd-ベクトルとの間の前記類似性が、特定のしきい値を満足するか否かに基づいて、前記ホットワードに対応する前記オーディオデータが、前記追加のオーディオデータに一致するか否かを検出するステップと、
前記ホットワードに対応する前記オーディオデータが、前記追加のオーディオデータに一致しないことを検出するステップに応じて、前記コンピューティングデバイスへのアクセスを無効化するステップと
を備える、請求項8に記載のシステム。 - 前記ホットワードは、特定の用語に後続する1つまたは複数の用語のうちの追加の用語の意味的な解釈をトリガする前記特定の用語である、請求項8に記載のシステム。
- 前記動作は、
音声コマンドまたはクエリに対応する追加のオーディオデータを受信するステップと、
前記音声コマンドまたはクエリのタイプを判定するステップであって、前記あらかじめ決定されたしきい値は、前記音声コマンドまたはクエリの前記タイプに基づいて重み付けされる、判定するステップと
を備える、請求項8に記載のシステム。 - 前記オーディオデータがホットワードに対応すると判定するステップは、
前記オーディオデータの初期部分が、前記ホットワードの初期部分に対応すると判定するステップと、
前記オーディオデータの前記初期部分が、前記ホットワードの前記初期部分に対応すると判定するステップに応じて、複数のユニークな超音波オーディオサンプルのうちの1つを、前記オーディオデータの前記初期部分が受信された後に出力させるステップと
を備える、請求項8に記載のシステム。 - 前記動作は、
前記受信されたオーディオデータが、前記複数のユニークな超音波オーディオサンプルのうちの1つに対応するオーディオデータを備えていると判定するステップと、
前記受信されたオーディオデータが、前記複数のユニークな超音波オーディオサンプルのうちの1つに対応するオーディオデータを備えていると判定するステップに応じて、前記コンピューティングデバイスへのアクセスを無効化するステップと
を備える、請求項13に記載のシステム。 - 実行されると、1つまたは複数のコンピュータに対して動作を実行させる、前記1つまたは複数のコンピュータによって実行可能な命令を備えるソフトウェアを記憶するコンピュータ読取可能な記憶デバイスであって、前記動作は、
発声に対応するオーディオデータを受信するステップと、
前記オーディオデータがホットワードに対応すると判定するステップと、
前記ホットワードに対応すると判定された前記オーディオデータのホットワードオーディオフィンガプリントを生成するステップと、
前記ホットワードオーディオフィンガプリントと、前記ホットワードに対応すると以前に判定されたオーディオデータの1つまたは複数の記憶されたオーディオフィンガプリントとの間の類似性を判定するステップと、
前記ホットワードオーディオフィンガプリントと、前記1つまたは複数の記憶されたオーディオフィンガプリントのうちの1つとの間の前記類似性が、あらかじめ決定されたしきい値を満足するか否かに基づいて、前記ホットワードオーディオフィンガプリントが、前記ホットワードに対応すると以前に判定されたオーディオデータの記憶されたオーディオフィンガプリントと一致するか否かを検出するステップと、
前記ホットワードオーディオフィンガプリントが、記憶されたオーディオフィンガプリントと一致することを検出するステップに応じて、前記発声が話されたコンピューティングデバイスへのアクセスを無効化するステップと
を備える、コンピュータ読取可能な記憶デバイス。 - 前記オーディオデータがホットワードに対応すると判定するステップは、
前記オーディオデータの1つまたは複数の音響特性を識別するステップと、
前記オーディオデータの前記1つまたは複数の音響特性を、データベースに記憶された1つまたは複数のホットワードに関連付けられた1つまたは複数の音響特性と比較するステップと、
前記オーディオデータの前記1つまたは複数の音響特性と、前記データベースに記憶された1つまたは複数のホットワードに関連付けられた前記1つまたは複数の音響特性との前記比較に基づいて、前記オーディオデータが、前記データベースに記憶された前記1つまたは複数のホットワードのうちの1つに対応すると判定するステップと
を備える、請求項15に記載のコンピュータ読取可能な記憶デバイス。 - 前記動作は、
追加の発声に対応する追加のオーディオデータを受信するステップと、
前記追加のオーディオデータを使用して、話者識別d-ベクトルを識別するステップと、
前記追加のオーディオデータからの前記話者識別d-ベクトルと、前記発声に対応する前記オーディオデータからのホットワードd-ベクトルとの間の類似性を判定するステップと、
前記追加のオーディオデータからの前記話者識別d-ベクトルと、前記発声に対応する前記オーディオデータからの前記ホットワードd-ベクトルとの間の前記類似性が、特定のしきい値を満足するか否かに基づいて、前記ホットワードに対応する前記オーディオデータが、前記追加のオーディオデータに一致するか否かを検出するステップと、
前記ホットワードに対応する前記オーディオデータが、前記追加のオーディオデータに一致しないことを検出するステップに応じて、前記コンピューティングデバイスへのアクセスを無効化するステップと
を備える、請求項15に記載のコンピュータ読取可能な記憶デバイス。 - 前記ホットワードは、特定の用語に後続する1つまたは複数の用語のうちの追加の用語の意味的な解釈をトリガする前記特定の用語である、請求項15に記載のコンピュータ読取可能な記憶デバイス。
- 前記動作は、
音声コマンドまたはクエリに対応する追加のオーディオデータを受信するステップと、
前記音声コマンドまたはクエリのタイプを判定するステップであって、前記あらかじめ決定されたしきい値は、前記音声コマンドまたはクエリの前記タイプに基づいて重み付けされる、判定するステップと
を備える、請求項15に記載のコンピュータ読取可能な記憶デバイス。 - 前記オーディオデータがホットワードに対応すると判定するステップは、
前記オーディオデータの初期部分が、前記ホットワードの初期部分に対応すると判定するステップと、
前記オーディオデータの前記初期部分が、前記ホットワードの前記初期部分に対応すると判定するステップに応じて、複数のユニークな超音波オーディオサンプルのうちの1つを、前記オーディオデータの前記初期部分が受信された後に出力させるステップと、
前記受信されたオーディオデータが、前記複数のユニークな超音波オーディオサンプルのうちの1つに対応するオーディオデータを備えていると判定するステップと、
前記受信されたオーディオデータが、前記複数のユニークな超音波オーディオサンプルのうちの1つに対応するオーディオデータを備えていると判定するステップに応じて、前記コンピューティングデバイスへのアクセスを無効化するステップと
を備える、請求項15に記載のコンピュータ読取可能な記憶デバイス。 - コンピュータによって実施される方法であって、
モバイルコンピューティングデバイスによって、以前に同一のモバイルコンピューティングデバイスに入力されたホットワードの発声の記録に対応するオーディオ入力を受信するステップと、
前記モバイルコンピューティングデバイスによって、以前に同一のモバイルコンピューティングデバイスに入力されたホットワードの発声の記録に対応する前記オーディオ入力を受信することに対応して、前記モバイルコンピューティングデバイスによって、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップと
を備える方法。 - 以前に入力された前記ホットワードの前記発声は、データベースに記憶される、請求項21に記載のコンピュータによって実施される方法。
- 前記ホットワードは、特定の用語に後続する1つまたは複数の用語のうちの追加の用語の意味的な解釈をトリガする前記特定の用語である、請求項21に記載のコンピュータによって実施される方法。
- 前記オーディオ入力と前記ホットワードの1つまたは複数の記憶された発声との間の類似性に基づいて、以前に入力されたホットワード発声に対応する前記オーディオ入力を判定するステップをさらに備える、請求項21に記載のコンピュータによって実施される方法。
- 前記モバイルコンピューティングデバイスによって、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップは、
前記モバイルコンピューティングデバイスがロック解除されることを阻止するステップと、
前記モバイルコンピューティングデバイスをロックするステップと、
認証プロセスを開始するステップと、
前記モバイルコンピューティングデバイスがウェイクすることを阻止するステップ
の1つまたは複数を含む、請求項21に記載のコンピュータによって実施される方法。 - 前記モバイルコンピューティングデバイスによって、音声コマンドまたはクエリに対応する追加のオーディオデータを受信するステップと、
前記音声コマンドまたはクエリのタイプを判定するステップと
をさらに備える、請求項21に記載のコンピュータによって実施される方法。 - データベース内に、以前に同一のモバイルコンピューティングデバイスに入力されたホットワードの発声の記録に対応する前記オーディオ入力を記憶するステップ
をさらに備える、請求項21に記載のコンピュータによって実施される方法。 - 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行された場合、前記1つまたは複数のコンピュータに対して、動作を実行させるように動作可能な命令を記憶した1つまたは複数の記憶デバイスとを備えるシステムであって、前記動作は、
モバイルコンピューティングデバイスによって、以前に同一のモバイルコンピューティングデバイスに入力されたホットワードの発声の記録に対応するオーディオ入力を受信するステップと、
前記モバイルコンピューティングデバイスによって、以前に同一のモバイルコンピューティングデバイスに入力されたホットワードの発声の記録に対応する前記オーディオ入力を、受信することに対応して、前記モバイルコンピューティングデバイスによって、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップと
を備えるシステム。 - 以前に入力された前記ホットワードの前記発声は、データベースに記憶される、請求項28に記載のシステム。
- 前記ホットワードは、特定の用語に後続する1つまたは複数の用語のうちの追加の用語の意味的な解釈をトリガする前記特定の用語である、請求項28に記載のシステム。
- 前記オーディオ入力と前記ホットワードの1つまたは複数の記憶された発声との間の類似性に基づいて、以前に入力されたホットワード発声に対応する前記オーディオ入力を判定するステップをさらに備える、請求項28に記載のシステム。
- 前記モバイルコンピューティングデバイスによって、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップは、
前記モバイルコンピューティングデバイスがロック解除されることを阻止するステップと、
前記モバイルコンピューティングデバイスをロックするステップと、
認証プロセスを開始するステップと、
前記モバイルコンピューティングデバイスがウェイクすることを阻止するステップ
の1つまたは複数を含む、請求項28に記載のシステム。 - 前記モバイルコンピューティングデバイスによって、音声コマンドまたはクエリに対応する追加のオーディオデータを受信するステップと、
前記音声コマンドまたはクエリのタイプを判定するステップと
をさらに備える、請求項28に記載のシステム。 - データベース内に、以前に同一のモバイルコンピューティングデバイスに入力されたホットワードの発声の記録に対応する前記オーディオ入力を記憶するステップをさらに備える、請求項28に記載のシステム。
- 実行されると、1つまたは複数のコンピュータに対して動作を実行させる、前記1つまたは複数のコンピュータによって実行可能な命令を備えるソフトウェアを記憶するコンピュータ読取可能な記憶デバイスであって、前記動作は、
モバイルコンピューティングデバイスによって、以前に同一のモバイルコンピューティングデバイスに入力されたホットワードの発声の記録に対応するオーディオ入力を受信するステップと、
前記モバイルコンピューティングデバイスによって、以前に同一のモバイルコンピューティングデバイスに入力されたホットワードの発声の記録に対応する前記オーディオ入力を、受信することに対応して、前記モバイルコンピューティングデバイスによって、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップと
を備える、コンピュータ読取可能な記憶デバイス。 - 以前に入力された前記ホットワードの前記発声は、データベースに記憶される、請求項35に記載のコンピュータ読取可能な記憶デバイス。
- 前記ホットワードは、特定の用語に後続する1つまたは複数の用語のうちの追加の用語の意味的な解釈をトリガする前記特定の用語である、請求項35に記載のコンピュータ読取可能な記憶デバイス。
- 前記オーディオ入力と前記ホットワードの1つまたは複数の記憶された発声との間の類似性に基づいて、以前に入力されたホットワード発声に対応する前記オーディオ入力を判定するステップをさらに備える、請求項35に記載のコンピュータ読取可能な記憶デバイス。
- 前記モバイルコンピューティングデバイスによって、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップは、
前記モバイルコンピューティングデバイスがロック解除されることを阻止するステップと、
前記モバイルコンピューティングデバイスをロックするステップと、
認証プロセスを開始するステップと、
前記モバイルコンピューティングデバイスがウェイクすることを阻止するステップ
の1つまたは複数を含む、請求項35に記載のコンピュータ読取可能な記憶デバイス。 - 前記モバイルコンピューティングデバイスによって、音声コマンドまたはクエリに対応する追加のオーディオデータを受信するステップと、
前記音声コマンドまたはクエリのタイプを判定するステップと
をさらに備える、請求項35に記載のコンピュータ読取可能な記憶デバイス。 - コンピュータによって実施される方法であって、
モバイルコンピューティングデバイスによって、ホットワードの初期部分の発声に対応する初期のオーディオ入力を受信するステップと、
前記ホットワードの残存部分が発声されている間であるとともに、前記ホットワードが完全に発生される前に、前記モバイルコンピューティングデバイスによって、前記モバイルコンピューティングデバイスのスピーカを介して出力するための検証オーディオを提供するステップと、
前記ホットワードが完全に発生された後に、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを選択的に可能にするステップと
を備える方法。 - 前記検証オーディオは、複数のユニークな超音波オーディオサンプルのうちの1つを備える、請求項41に記載のコンピュータによって実施される方法。
- 前記ホットワードは、特定の用語に後続する1つまたは複数の用語のうちの追加の用語の意味的な解釈をトリガする前記特定の用語である、請求項41に記載のコンピュータによって実施される方法。
- 前記モバイルコンピューティングデバイスによって、ホットワードの前記残存部分の発声に対応する追加のオーディオ入力を受信するステップと、
ホットワードの初期部分の発声に対応する前記初期のオーディオ入力、または、ホットワードの前記残存部分の発声に対応する前記追加のオーディオ入力、のいずれか一方が、前記モバイルコンピューティングデバイスのスピーカを介して出力するために提供された前記検証オーディオとは異なる検証オーディオに対応するオーディオデータを備える、ことを判定するステップと、
前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップと
をさらに備える、請求項41に記載のコンピュータによって実施される方法。 - 前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップは、
前記モバイルコンピューティングデバイスがロック解除されることを阻止するステップと、
前記モバイルコンピューティングデバイスをロックするステップと、
認証プロセスを開始するステップと、
前記モバイルコンピューティングデバイスがウェイクすることを阻止するステップ
の1つまたは複数を含む、請求項44に記載のコンピュータによって実施される方法。 - 前記モバイルコンピューティングデバイスによって、ホットワードの前記残存部分の発声に対応する追加のオーディオ入力を受信するステップと、
ホットワードの初期部分の発声に対応する前記初期のオーディオ入力と、ホットワードの前記残存部分の発声に対応する前記追加のオーディオ入力とを、まとめて、全ホットワードに対応するか、判定するステップと
をさらに備え、
前記ホットワードが完全に発生された後に、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを選択的に可能にするステップは、ホットワードの初期部分の発声に対応する前記初期のオーディオ入力と、ホットワードの前記残存部分の発声に対応する前記追加のオーディオ入力とを、まとめて、全ホットワードに対応するか、判定するステップの少なくとも一部に基づく、請求項41に記載のコンピュータによって実施される方法。 - 前記検証オーディオは、ホットワードの初期部分の発声に対応する前記初期のオーディオ入力に関連付けられてデータベースに記憶される、請求項41に記載のコンピュータによって実施される方法。
- 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行された場合、前記1つまたは複数のコンピュータに対して、動作を実行させるように動作可能な命令を記憶した1つまたは複数の記憶デバイスとを備えるシステムであって、前記動作は、
モバイルコンピューティングデバイスによって、ホットワードの初期部分の発声に対応する初期のオーディオ入力を受信するステップと、
前記ホットワードの残存部分が発声されている間であるとともに、前記ホットワードが完全に発生される前に、前記モバイルコンピューティングデバイスによって、前記モバイルコンピューティングデバイスのスピーカを介して出力するための検証オーディオを提供するステップと、
前記ホットワードが完全に発生された後に、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを選択的に可能にするステップと
を備えるシステム。 - 前記検証オーディオは、複数のユニークな超音波オーディオサンプルのうちの1つを備える、請求項48に記載のシステム。
- 前記ホットワードは、特定の用語に後続する1つまたは複数の用語のうちの追加の用語の意味的な解釈をトリガする前記特定の用語である、請求項48に記載のシステム。
- 前記動作は、
前記モバイルコンピューティングデバイスによって、ホットワードの前記残存部分の発声に対応する追加のオーディオ入力を受信するステップと、
ホットワードの初期部分の発声に対応する前記初期のオーディオ入力、または、ホットワードの前記残存部分の発声に対応する前記追加のオーディオ入力、のいずれか一方が、前記モバイルコンピューティングデバイスのスピーカを介して出力するために提供された前記検証オーディオとは異なる検証オーディオに対応するオーディオデータを備える、ことを判定するステップと、
前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップと
をさらに備える、請求項48に記載のシステム。 - 前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップは、
前記モバイルコンピューティングデバイスがロック解除されることを阻止するステップと、
前記モバイルコンピューティングデバイスをロックするステップと、
認証プロセスを開始するステップと、
前記モバイルコンピューティングデバイスがウェイクすることを阻止するステップ
の1つまたは複数を含む、請求項51に記載のシステム。 - 前記動作は、
前記モバイルコンピューティングデバイスによって、ホットワードの前記残存部分の発声に対応する追加のオーディオ入力を受信するステップと、
ホットワードの初期部分の発声に対応する前記初期のオーディオ入力と、ホットワードの前記残存部分の発声に対応する前記追加のオーディオ入力とを、まとめて、全ホットワードに対応するか、判定するステップと
をさらに備え、
前記ホットワードが完全に発生された後に、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを選択的に可能にするステップは、ホットワードの初期部分の発声に対応する前記初期のオーディオ入力と、ホットワードの前記残存部分の発声に対応する前記追加のオーディオ入力とを、まとめて、全ホットワードに対応するか、判定するステップの少なくとも一部に基づく、請求項48に記載のシステム。 - 前記検証オーディオは、ホットワードの初期部分の発声に対応する前記初期のオーディオ入力に関連付けられてデータベースに記憶される、請求項48に記載のシステム。
- 実行されると、1つまたは複数のコンピュータに対して動作を実行させる、前記1つまたは複数のコンピュータによって実行可能な命令を備えるソフトウェアを記憶するコンピュータ読取可能な記憶デバイスであって、前記動作は、
モバイルコンピューティングデバイスによって、ホットワードの初期部分の発声に対応する初期のオーディオ入力を受信するステップと、
前記ホットワードの残存部分が発声されている間であるとともに、前記ホットワードが完全に発生される前に、前記モバイルコンピューティングデバイスによって、前記モバイルコンピューティングデバイスのスピーカを介して出力するための検証オーディオを提供するステップと、
前記ホットワードが完全に発生された後に、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを選択的に可能にするステップと
を備える、コンピュータ読取可能な記憶デバイス。 - 前記検証オーディオは、複数のユニークな超音波オーディオサンプルのうちの1つを備える、請求項55に記載のコンピュータ読取可能な記憶デバイス。
- 前記ホットワードは、特定の用語に後続する1つまたは複数の用語のうちの追加の用語の意味的な解釈をトリガする前記特定の用語である、請求項55に記載のコンピュータ読取可能な記憶デバイス。
- 前記動作は、
前記モバイルコンピューティングデバイスによって、ホットワードの前記残存部分の発声に対応する追加のオーディオ入力を受信するステップと、
ホットワードの初期部分の発声に対応する前記初期のオーディオ入力、または、ホットワードの前記残存部分の発声に対応する前記追加のオーディオ入力、のいずれか一方が、前記モバイルコンピューティングデバイスのスピーカを介して出力するために提供された前記検証オーディオとは異なる検証オーディオに対応するオーディオデータを備える、ことを判定するステップと、
前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップと
をさらに備える、請求項55に記載のコンピュータ読取可能な記憶デバイス。 - 前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを無効化するステップは、
前記モバイルコンピューティングデバイスがロック解除されることを阻止するステップと、
前記モバイルコンピューティングデバイスをロックするステップと、
認証プロセスを開始するステップと、
前記モバイルコンピューティングデバイスがウェイクすることを阻止するステップ
の1つまたは複数を含む、請求項58に記載のコンピュータ読取可能な記憶デバイス。 - 前記動作は、
前記モバイルコンピューティングデバイスによって、ホットワードの前記残存部分の発声に対応する追加のオーディオ入力を受信するステップと、
ホットワードの初期部分の発声に対応する前記初期のオーディオ入力と、ホットワードの前記残存部分の発声に対応する前記追加のオーディオ入力とを、まとめて、全ホットワードに対応するか、判定するステップと
さらに備え、
前記ホットワードが完全に発生された後に、前記モバイルコンピューティングデバイスの1つまたは複数のリソースへのアクセスを選択的に可能にするステップは、ホットワードの初期部分の発声に対応する前記初期のオーディオ入力と、ホットワードの前記残存部分の発声に対応する前記追加のオーディオ入力とを、まとめて、全ホットワードに対応するか、判定するステップの少なくとも一部に基づく、請求項55に記載のコンピュータ読取可能な記憶デバイス。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562242650P | 2015-10-16 | 2015-10-16 | |
US62/242,650 | 2015-10-16 | ||
US14/943,287 US9747926B2 (en) | 2015-10-16 | 2015-11-17 | Hotword recognition |
US14/943,287 | 2015-11-17 | ||
US15/176,830 US9928840B2 (en) | 2015-10-16 | 2016-06-08 | Hotword recognition |
US15/176,482 US9934783B2 (en) | 2015-10-16 | 2016-06-08 | Hotword recognition |
US15/176,830 | 2016-06-08 | ||
US15/176,482 | 2016-06-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017076117A true JP2017076117A (ja) | 2017-04-20 |
JP6463710B2 JP6463710B2 (ja) | 2019-02-06 |
Family
ID=58550238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016179290A Active JP6463710B2 (ja) | 2015-10-16 | 2016-09-14 | ホットワード認識 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10650828B2 (ja) |
JP (1) | JP6463710B2 (ja) |
KR (3) | KR101917791B1 (ja) |
CN (1) | CN107016999B (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019187371A1 (ja) | 2018-03-29 | 2019-10-03 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
WO2020016967A1 (ja) * | 2018-07-18 | 2020-01-23 | 三菱電機株式会社 | 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 |
JP2020091448A (ja) * | 2018-12-07 | 2020-06-11 | コニカミノルタ株式会社 | 音声操作システム、音声操作方法および音声操作プログラム |
JP2020519946A (ja) * | 2017-05-11 | 2020-07-02 | グーグル エルエルシー | 音声クエリの検出および抑制 |
JP2020112778A (ja) * | 2019-01-11 | 2020-07-27 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話設備のウェイクアップ方法、装置、設備及び記憶媒体 |
US11089404B2 (en) | 2019-01-29 | 2021-08-10 | Panasonic Intellectual Property Management Co., Ltd. | Sound processing apparatus and sound processing method |
JP2021520511A (ja) * | 2018-12-03 | 2021-08-19 | グーグル エルエルシーGoogle LLC | テキスト非依存話者認識 |
JP2021524063A (ja) * | 2018-05-17 | 2021-09-09 | グーグル エルエルシーGoogle LLC | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 |
JP2021533397A (ja) * | 2018-09-25 | 2021-12-02 | グーグル エルエルシーGoogle LLC | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
JP7515641B2 (ja) | 2017-05-11 | 2024-07-12 | グーグル エルエルシー | 音声クエリの検出および抑制 |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
US10395650B2 (en) * | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
KR102087202B1 (ko) * | 2017-09-13 | 2020-03-10 | (주)파워보이스 | 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비 |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN107799120A (zh) * | 2017-11-10 | 2018-03-13 | 北京康力优蓝机器人科技有限公司 | 服务机器人识别唤醒方法及装置 |
CN108109619B (zh) * | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
US10276175B1 (en) * | 2017-11-28 | 2019-04-30 | Google Llc | Key phrase detection with audio watermarking |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
GB2573809B (en) | 2018-05-18 | 2020-11-04 | Emotech Ltd | Speaker Recognition |
US10692496B2 (en) * | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
CN110875058A (zh) * | 2018-08-31 | 2020-03-10 | 中国移动通信有限公司研究院 | 一种语音通信处理方法、终端设备及服务器 |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
KR102102387B1 (ko) * | 2018-10-29 | 2020-04-21 | 주식회사 사운드잇 | 다채널오디오스트리밍에서 화자의 발화구간을 검출하는 방법 및 시스템 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10992297B2 (en) | 2019-03-29 | 2021-04-27 | Cirrus Logic, Inc. | Device comprising force sensors |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN110765239B (zh) * | 2019-10-29 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
WO2021146661A2 (en) * | 2020-01-17 | 2021-07-22 | Syntiant | Systems and methods for generating wake signals from known users |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
RU2767962C2 (ru) | 2020-04-13 | 2022-03-22 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для распознавания воспроизведенного речевого фрагмента |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11948565B2 (en) * | 2020-12-11 | 2024-04-02 | Google Llc | Combining device or assistant-specific hotwords in a single utterance |
US11915711B2 (en) | 2021-07-20 | 2024-02-27 | Direct Cursus Technology L.L.C | Method and system for augmenting audio signals |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11231895A (ja) * | 1998-02-17 | 1999-08-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びその装置 |
JP2002514318A (ja) * | 1997-01-31 | 2002-05-14 | ティ―ネティックス,インコーポレイテッド | 録音された音声を検出するシステムおよび方法 |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
JP2015079152A (ja) * | 2013-10-17 | 2015-04-23 | 富士通株式会社 | 音声認証装置、音声認証方法及び音声認証プログラム |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5265191A (en) | 1991-09-17 | 1993-11-23 | At&T Bell Laboratories | Technique for voice-based security systems |
US6330672B1 (en) | 1997-12-03 | 2001-12-11 | At&T Corp. | Method and apparatus for watermarking digital bitstreams |
US7013301B2 (en) | 2003-09-23 | 2006-03-14 | Predixis Corporation | Audio fingerprinting system and method |
US7444353B1 (en) | 2000-01-31 | 2008-10-28 | Chen Alexander C | Apparatus for delivering music and information |
US6963975B1 (en) | 2000-08-11 | 2005-11-08 | Microsoft Corporation | System and method for audio fingerprinting |
US20040059922A1 (en) | 2002-09-20 | 2004-03-25 | Harris Rodney C. | Continuous voice recognition for user authentication by a digital transmitting device |
US7516074B2 (en) | 2005-09-01 | 2009-04-07 | Auditude, Inc. | Extraction and matching of characteristic fingerprints from audio signals |
KR100711094B1 (ko) | 2005-11-29 | 2007-04-27 | 삼성전자주식회사 | 분산 통신 환경에서의 이동체들 간의 자원 할당 방법 |
US20070239675A1 (en) | 2006-03-29 | 2007-10-11 | Microsoft Corporation | Web search media service |
US8411977B1 (en) | 2006-08-29 | 2013-04-02 | Google Inc. | Audio identification using wavelet-based signatures |
EP2090000A2 (en) | 2006-12-22 | 2009-08-19 | Apple, Inc. | Communicating and storing information associated with media broadcasts |
US20080222105A1 (en) | 2007-03-09 | 2008-09-11 | Joseph Matheny | Entity recommendation system using restricted information tagged to selected entities |
US20080275846A1 (en) | 2007-05-04 | 2008-11-06 | Sony Ericsson Mobile Communications Ab | Filtering search results using contact lists |
US8375131B2 (en) | 2007-12-21 | 2013-02-12 | Yahoo! Inc. | Media toolbar and aggregated/distributed media ecosystem |
EP2324475A1 (en) | 2008-08-26 | 2011-05-25 | Dolby Laboratories Licensing Corporation | Robust media fingerprints |
US20100070488A1 (en) | 2008-09-12 | 2010-03-18 | Nortel Networks Limited | Ranking search results based on affinity criteria |
DE102008058883B4 (de) * | 2008-11-26 | 2023-07-27 | Lumenvox Corporation | Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs |
GB2466242B (en) * | 2008-12-15 | 2013-01-02 | Audio Analytic Ltd | Sound identification systems |
US8180765B2 (en) | 2009-06-15 | 2012-05-15 | Telefonaktiebolaget L M Ericsson (Publ) | Device and method for selecting at least one media for recommendation to a user |
US8402533B2 (en) | 2010-08-06 | 2013-03-19 | Google Inc. | Input to locked computing device |
GB2483370B (en) | 2010-09-05 | 2015-03-25 | Mobile Res Labs Ltd | A system and method for engaging a person in the presence of ambient audio |
US9093120B2 (en) | 2011-02-10 | 2015-07-28 | Yahoo! Inc. | Audio fingerprint extraction by scaling in time and resampling |
US9087182B2 (en) | 2011-03-02 | 2015-07-21 | Blackberry Limited | Password-based operation of a locked computing device |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
EP2751804A1 (en) | 2011-08-29 | 2014-07-09 | Telefónica, S.A. | A method to generate audio fingerprints |
US20130117259A1 (en) | 2011-11-04 | 2013-05-09 | Nathan J. Ackerman | Search Query Context |
US20130124371A1 (en) | 2011-11-15 | 2013-05-16 | Verizon Patent And Licensing Inc. | Determining local catalog of digital content |
US9665643B2 (en) | 2011-12-30 | 2017-05-30 | Microsoft Technology Licensing, Llc | Knowledge-based entity detection and disambiguation |
CN103327158A (zh) * | 2012-03-19 | 2013-09-25 | 上海博路信息技术有限公司 | 一种语音识别的锁定和开锁方法 |
CN103366745B (zh) * | 2012-03-29 | 2016-01-20 | 三星电子(中国)研发中心 | 基于语音识别保护终端设备的方法及其终端设备 |
US8484017B1 (en) | 2012-09-10 | 2013-07-09 | Google Inc. | Identifying media content |
US10229676B2 (en) * | 2012-10-05 | 2019-03-12 | Avaya Inc. | Phrase spotting systems and methods |
US20150279351A1 (en) | 2012-12-19 | 2015-10-01 | Google Inc. | Keyword detection based on acoustic alignment |
EP2989807A4 (en) | 2013-05-03 | 2016-11-09 | Digimarc Corp | WATERMARK MARKING AND SIGNAL RECOGNITION FOR ADMINISTERING AND DIVISION OF INTEGRATED CONTENT, METADATA RECORDING AND RELATED ARRANGEMENTS |
US9258425B2 (en) | 2013-05-22 | 2016-02-09 | Nuance Communications, Inc. | Method and system for speaker verification |
US8768712B1 (en) | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US9769564B2 (en) * | 2015-02-11 | 2017-09-19 | Google Inc. | Methods, systems, and media for ambient background noise modification based on mood and/or behavior information |
US9704488B2 (en) | 2015-03-20 | 2017-07-11 | Microsoft Technology Licensing, Llc | Communicating metadata that identifies a current speaker |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US9928840B2 (en) | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
-
2016
- 2016-09-14 CN CN201610825577.5A patent/CN107016999B/zh active Active
- 2016-09-14 JP JP2016179290A patent/JP6463710B2/ja active Active
- 2016-10-11 KR KR1020160131571A patent/KR101917791B1/ko active IP Right Grant
- 2016-10-11 KR KR1020160131558A patent/KR101917790B1/ko active IP Right Grant
- 2016-10-11 KR KR1020160131573A patent/KR101918696B1/ko active IP Right Grant
-
2019
- 2019-03-25 US US16/362,990 patent/US10650828B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002514318A (ja) * | 1997-01-31 | 2002-05-14 | ティ―ネティックス,インコーポレイテッド | 録音された音声を検出するシステムおよび方法 |
JPH11231895A (ja) * | 1998-02-17 | 1999-08-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びその装置 |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
JP2015079152A (ja) * | 2013-10-17 | 2015-04-23 | 富士通株式会社 | 音声認証装置、音声認証方法及び音声認証プログラム |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7515641B2 (ja) | 2017-05-11 | 2024-07-12 | グーグル エルエルシー | 音声クエリの検出および抑制 |
JP2020519946A (ja) * | 2017-05-11 | 2020-07-02 | グーグル エルエルシー | 音声クエリの検出および抑制 |
JP7210634B2 (ja) | 2017-05-11 | 2023-01-23 | グーグル エルエルシー | 音声クエリの検出および抑制 |
JP2021119388A (ja) * | 2017-05-11 | 2021-08-12 | グーグル エルエルシーGoogle LLC | 音声クエリの検出および抑制 |
US11804220B2 (en) | 2018-03-29 | 2023-10-31 | Panasonic Intellectual Property Management Co., Ltd. | Voice processing device, voice processing method and voice processing system |
WO2019187371A1 (ja) | 2018-03-29 | 2019-10-03 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
JP2022137201A (ja) * | 2018-05-17 | 2022-09-21 | グーグル エルエルシー | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 |
US11848002B2 (en) | 2018-05-17 | 2023-12-19 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
US11488575B2 (en) | 2018-05-17 | 2022-11-01 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
JP2021524063A (ja) * | 2018-05-17 | 2021-09-09 | グーグル エルエルシーGoogle LLC | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 |
JPWO2020016967A1 (ja) * | 2018-07-18 | 2020-10-01 | 三菱電機株式会社 | 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 |
WO2020016967A1 (ja) * | 2018-07-18 | 2020-01-23 | 三菱電機株式会社 | 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 |
JP2021533397A (ja) * | 2018-09-25 | 2021-12-02 | グーグル エルエルシーGoogle LLC | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
JP7191987B2 (ja) | 2018-09-25 | 2022-12-19 | グーグル エルエルシー | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
US11735176B2 (en) | 2018-09-25 | 2023-08-22 | Google Llc | Speaker diarization using speaker embedding(s) and trained generative model |
JP2021520511A (ja) * | 2018-12-03 | 2021-08-19 | グーグル エルエルシーGoogle LLC | テキスト非依存話者認識 |
US11527235B2 (en) | 2018-12-03 | 2022-12-13 | Google Llc | Text independent speaker recognition |
JP7271925B2 (ja) | 2018-12-07 | 2023-05-12 | コニカミノルタ株式会社 | 音声操作システム、音声操作方法および音声操作プログラム |
JP2020091448A (ja) * | 2018-12-07 | 2020-06-11 | コニカミノルタ株式会社 | 音声操作システム、音声操作方法および音声操作プログラム |
JP2020112778A (ja) * | 2019-01-11 | 2020-07-27 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話設備のウェイクアップ方法、装置、設備及び記憶媒体 |
US11089404B2 (en) | 2019-01-29 | 2021-08-10 | Panasonic Intellectual Property Management Co., Ltd. | Sound processing apparatus and sound processing method |
Also Published As
Publication number | Publication date |
---|---|
KR101917791B1 (ko) | 2018-11-13 |
CN107016999A (zh) | 2017-08-04 |
KR101918696B1 (ko) | 2018-11-14 |
JP6463710B2 (ja) | 2019-02-06 |
KR20180040027A (ko) | 2018-04-19 |
KR101917790B1 (ko) | 2018-11-13 |
US10650828B2 (en) | 2020-05-12 |
US20190287536A1 (en) | 2019-09-19 |
KR20170045123A (ko) | 2017-04-26 |
KR20180040028A (ko) | 2018-04-19 |
CN107016999B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6463710B2 (ja) | ホットワード認識 | |
US10262659B2 (en) | Hotword recognition | |
US9934783B2 (en) | Hotword recognition | |
US10460735B2 (en) | Speaker verification using co-location information | |
KR101824158B1 (ko) | 화자 검증을 위한 동적 임계치 | |
US20230386506A1 (en) | Self-supervised speech representations for fake audio detection | |
US11942095B2 (en) | Speaker verification using co-location information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180905 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20180913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6463710 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |