JP6630765B2 - 個別化されたホットワード検出モデル - Google Patents
個別化されたホットワード検出モデル Download PDFInfo
- Publication number
- JP6630765B2 JP6630765B2 JP2018061958A JP2018061958A JP6630765B2 JP 6630765 B2 JP6630765 B2 JP 6630765B2 JP 2018061958 A JP2018061958 A JP 2018061958A JP 2018061958 A JP2018061958 A JP 2018061958A JP 6630765 B2 JP6630765 B2 JP 6630765B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- hot word
- utterance
- audio data
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 96
- 238000000034 method Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 30
- 230000004044 response Effects 0.000 claims description 21
- 230000015654 memory Effects 0.000 description 43
- 238000004891 communication Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 14
- 230000009471 action Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000287463 Phalacrocorax Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006266 hibernation Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
PUTER」を検出するために個人化されたホットワード検出モデルを取得するのに、クライアントデバイス120は、「NOW PERSONALIZING HOTWORD DETECTION, SAY 'OK COMPUTER' THREE TIMES」というプロンプトをユーザ110に提供することができる。クライアントデバイス120は、音を音響データとして取り込む音響データ生成器を備え得る。たとえば、クライアントデバイス120は、ユーザ110が「OK COMPUTER」を「OK COM-UT-ER」と話すのを信号として取り込むマイクロフォンを備えるものとしてよく、信号をメル周波数ケプストラム係数によって表される登録音響データ122として符号化する。
言う候補音響データ、「User E」が「OK COMPUTER」を「OK COM-MUT-ER」と言う候補音響データ、「User F」が「OK COMPUTER」を「OK COM-PUT-EW」という候補音響データ、および他のユーザが「OK COMPUTER」と言う他の候補音響データを含み得る。
ある状況では、マルチタスキングおよび並列処理が有利である場合がある。さらに、上述の実施形態においてさまざまなシステム構成要素が分離しているが、すべての実施形態においてそのような分離が必要とされていると理解されるべきではなく、また説明されているプログラム構成要素およびシステムは、一般的に、単一のソフトウェア製品に一体化され得るか、または複数のソフトウェア製品にパッケージングされ得ることは理解されるであろう。
110 ユーザ
120 クライアントデバイス
122 登録音響データ
130 サーバ
132 候補音響データベース
134 候補音響データスコアラー
136 候補音響データセレクター
138 学習セット
140 ホットワード検出モデル生成器
152 個人化されたホットワード検出モデル
202 登録音響データ
204 候補音響データ
300 処理
300 プロセス
400 コンピューティングデバイス
402 プロセッサ
404 メモリ
406 記憶装置
408 高速インターフェイス
410 高速拡張ポート
412 低速インターフェイス
414 低速拡張ポート
416 ディスプレイ
420 標準サーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
450 モバイルコンピューティングデバイス
452 プロセッサ
454 ディスプレイ
456 ディスプレイインターフェイス
458 制御インターフェイス
460 オーディオコーデック
462 外部インターフェイス
464 メモリ
466 通信インターフェイス
468 トランシーバ
470 GPS(全地球測位システム)受信機モジュール
472 拡張インターフェイス
474 拡張メモリ
480 携帯電話
482 スマートフォン
Claims (20)
- コンピュータ実装方法であって、
登録プロセス中に、特定のホットワードを話すようユーザに対してクライアントデバイスによって促し、前記ユーザによる前記特定のホットワードの単一の発話に対応するオーディオデータを前記クライアントデバイスによって受け取るステップと、
前記登録プロセス中の前記ユーザによる前記特定のホットワードの単一の発話に対応する前記オーディオデータを受け取ったことに応答して、個別化されたホットワード検出モデルを前記クライアントデバイスによって取得するステップであって、
前記個別化されたホットワード検出モデルは、
(i)前記登録プロセス中の前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータと、
(ii)他のユーザによる他の発話に対応する他の記憶されたオーディオデータであって、該他の記憶されたオーディオデータは、(i)同一の特定のホットワード、および、(ii)前記登録プロセス中に話された前記ユーザによる前記特定のホットワードの前記単一の発話に音響的に類似していると示されるものの両方である、前記他の記憶されたオーディオデータと
を含む音響データの生成された学習セットを使用して、前記ユーザによる前記特定のホットワードのあり得る発話を検出するように学習される、ステップと、
前記音響データの生成された学習セットを使用して、前記ユーザが前記特定のホットワードをいつ話すかを検出するように学習される前記個別化されたホットワード検出モデルを取得した後、前記個別化されたホットワード検出モデルを使用して、その後受け取ったオーディオデータ内の前記ユーザによる前記特定のホットワードの前記あり得る発話を前記クライアントデバイスによって検出するステップと
を含む、方法。 - 前記登録プロセス中に、前記特定のホットワードを話すよう前記ユーザに対して促し、前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータを受け取るステップは、
その後に続く1つもしくは複数の言葉の意味解釈をトリガーするものであって、1つもしくは複数の言葉である特定のホットワードを話すよう前記ユーザに対して促すステップを含む、請求項1に記載の方法。 - 前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータを受け取ったことに応答して、個別化されたホットワード検出モデルを取得するステップは、
前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータを受け取った後に、前記特定のホットワードの前記ユーザによる別の発話に対応する追加のオーディオデータを受け取ることなく、前記個別化されたホットワード検出モデルを生成するステップを含む、請求項1に記載の方法。 - 前記個別化されたホットワード検出モデルを取得した後に前記登録プロセスを終了するステップを含む、請求項1に記載の方法。
- 前記個別化されたホットワード検出モデルは、前記単一の発話に少なくとも基づき、前記特定のホットワードの前記ユーザによる別の発話に基づかない、請求項1に記載の方法。
- 前記個別化されたホットワード検出モデルを使用して、前記その後受け取ったオーディオデータ内の前記特定のホットワードの前記あり得る発話を検出するステップは、
その後の発話に対応するオーディオデータを受け取るステップと、
前記その後の発話は、前記個別化されたホットワード検出モデルに少なくとも基づく前記特定のホットワードを含む可能性があるかどうかを決定するステップと
を含む、請求項1に記載の方法。 - 前記その後の発話が、前記個別化されたホットワード検出モデルに少なくとも基づく前記特定のホットワードを含む可能性があるかどうかを決定したことに応答して、前記その後の発話の少なくとも一部に関して意味解釈を実行するステップを含む、請求項6に記載の方法。
- 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されたときに、以下の動作を前記1つまたは複数のコンピュータに実行させることが可能である命令を記憶する1つまたは複数の記憶装置とを備えたシステムであって、前記動作は、
登録プロセス中に、特定のホットワードを話すようユーザに対してクライアントデバイスによって促し、前記ユーザによる前記特定のホットワードの単一の発話に対応するオーディオデータを前記クライアントデバイスによって受け取るステップと、
前記登録プロセス中の前記ユーザによる前記特定のホットワードの単一の発話に対応する前記オーディオデータを受け取ったことに応答して、個別化されたホットワード検出モデルを前記クライアントデバイスによって取得するステップであって、
前記個別化されたホットワード検出モデルは、
(i)前記登録プロセス中の前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータと、
(ii)他のユーザによる他の発話に対応する他の記憶されたオーディオデータであって、該他の記憶されたオーディオデータは、(i)同一の特定のホットワード、および、(ii)前記登録プロセス中に話された前記ユーザによる前記特定のホットワードの前記単一の発話に音響的に類似していると示されるものの両方である、前記他の記憶されたオーディオデータと
を含む音響データの生成された学習セットを使用して、前記ユーザによる前記特定のホットワードのあり得る発話を検出するように学習される、ステップと、
前記音響データの生成された学習セットを使用して、前記ユーザが前記特定のホットワードをいつ話すかを検出するように学習される前記個別化されたホットワード検出モデルを取得した後、前記個別化されたホットワード検出モデルを使用して、その後受け取ったオーディオデータ内の前記ユーザによる前記特定のホットワードの前記あり得る発話を前記クライアントデバイスによって検出するステップと
を含む、システム。 - 前記登録プロセス中に、前記特定のホットワードを話すよう前記ユーザに対して促し、前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータを受け取るステップは、
その後に続く1つもしくは複数の言葉の意味解釈をトリガーするものであって、1つもしくは複数の言葉である特定のホットワードを話すよう前記ユーザに対して促すステップを含む、請求項8に記載のシステム。 - 前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータを受け取ったことに応答して、個別化されたホットワード検出モデルを取得するステップは、
前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータを受け取った後に、前記特定のホットワードの前記ユーザによる別の発話に対応する追加のオーディオデータを受け取ることなく、前記個別化されたホットワード検出モデルを生成するステップを含む、請求項8に記載のシステム。 - 前記動作は、
前記個別化されたホットワード検出モデルを取得した後に前記登録プロセスを終了するステップを含む、請求項8に記載のシステム。 - 前記個別化されたホットワード検出モデルは、前記単一の発話に少なくとも基づき、前記特定のホットワードの前記ユーザによる別の発話に基づかない、請求項8に記載のシステム。
- 前記個別化されたホットワード検出モデルを使用して、前記その後受け取ったオーディオデータ内の前記特定のホットワードの前記あり得る発話を検出するステップは、
その後の発話に対応するオーディオデータを受け取るステップと、
前記その後の発話は、前記個別化されたホットワード検出モデルに少なくとも基づく前記特定のホットワードを含む可能性があるかどうかを決定するステップと
を含む、請求項8に記載のシステム。 - 前記その後の発話が、前記個別化されたホットワード検出モデルに少なくとも基づく前記特定のホットワードを含む可能性があるかどうかを決定したことに応答して、前記その後の発話の少なくとも一部に関して意味解釈を実行するステップを含む、請求項13に記載のシステム。
- 1つまたは複数のコンピュータによって実行可能な命令を含むソフトウェアを記憶する非一時的コンピュータ可読媒体であって、そのような実行時に、前記命令が、前記1つまたは複数のコンピュータに以下の動作を実行させ、前記動作は、
登録プロセス中に、特定のホットワードを話すようユーザに対してクライアントデバイスによって促し、前記ユーザによる前記特定のホットワードの単一の発話に対応するオーディオデータを前記クライアントデバイスによって受け取るステップと、
前記登録プロセス中の前記ユーザによる前記特定のホットワードの単一の発話に対応する前記オーディオデータを受け取ったことに応答して、個別化されたホットワード検出モデルを前記クライアントデバイスによって取得するステップであって、
前記個別化されたホットワード検出モデルは、
(i)前記登録プロセス中の前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータと、
(ii)他のユーザによる他の発話に対応する他の記憶されたオーディオデータであって、該他の記憶されたオーディオデータは、(i)同一の特定のホットワード、および、(ii)前記登録プロセス中に話された前記ユーザによる前記特定のホットワードの前記単一の発話に音響的に類似していると示されるものの両方である、前記他の記憶されたオーディオデータと
を含む音響データの生成された学習セットを使用して、前記ユーザによる前記特定のホットワードのあり得る発話を検出するように学習される、ステップと、
前記音響データの生成された学習セットを使用して、前記ユーザが前記特定のホットワードをいつ話すかを検出するように学習される前記個別化されたホットワード検出モデルを取得した後、前記個別化されたホットワード検出モデルを使用して、その後受け取ったオーディオデータ内の前記ユーザによる前記特定のホットワードの前記あり得る発話を前記クライアントデバイスによって検出するステップと
を含む、媒体。 - 前記登録プロセス中に、前記特定のホットワードを話すよう前記ユーザに対して促し、前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータを受け取るステップは、
その後に続く1つもしくは複数の言葉の意味解釈をトリガーするものであって、1つもしくは複数の言葉である特定のホットワードを話すよう前記ユーザに対して促すステップを含む、請求項15に記載の媒体。 - 前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータを受け取ったことに応答して、個別化されたホットワード検出モデルを取得するステップは、
前記ユーザによる前記特定のホットワードの前記単一の発話に対応する前記オーディオデータを受け取った後に、前記特定のホットワードの前記ユーザによる別の発話に対応する追加のオーディオデータを受け取ることなく、前記個別化されたホットワード検出モデルを生成するステップを含む、請求項15に記載の媒体。 - 前記動作は、
前記個別化されたホットワード検出モデルを取得した後に前記登録プロセスを終了するステップを含む、請求項15に記載の媒体。 - 前記個別化されたホットワード検出モデルは、前記単一の発話に少なくとも基づき、前記特定のホットワードの前記ユーザによる別の発話に基づかない、請求項15に記載の媒体。
- 前記個別化されたホットワード検出モデルを使用して、前記その後受け取ったオーディオデータ内の前記特定のホットワードの前記あり得る発話を検出するステップは、
その後の発話に対応するオーディオデータを受け取るステップと、
前記その後の発話は、前記個別化されたホットワード検出モデルに少なくとも基づく前記特定のホットワードを含む可能性があるかどうかを決定するステップと
を含む請求項15に記載の媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/805,753 | 2015-07-22 | ||
US14/805,753 US10438593B2 (en) | 2015-07-22 | 2015-07-22 | Individualized hotword detection models |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016143155A Division JP6316884B2 (ja) | 2015-07-22 | 2016-07-21 | 個別化されたホットワード検出モデル |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018109789A JP2018109789A (ja) | 2018-07-12 |
JP6630765B2 true JP6630765B2 (ja) | 2020-01-15 |
Family
ID=56204080
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016143155A Active JP6316884B2 (ja) | 2015-07-22 | 2016-07-21 | 個別化されたホットワード検出モデル |
JP2018061958A Active JP6630765B2 (ja) | 2015-07-22 | 2018-03-28 | 個別化されたホットワード検出モデル |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016143155A Active JP6316884B2 (ja) | 2015-07-22 | 2016-07-21 | 個別化されたホットワード検出モデル |
Country Status (5)
Country | Link |
---|---|
US (3) | US10438593B2 (ja) |
EP (2) | EP3125234B1 (ja) |
JP (2) | JP6316884B2 (ja) |
KR (2) | KR101859708B1 (ja) |
CN (1) | CN106373564B (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10437837B2 (en) * | 2015-10-09 | 2019-10-08 | Fujitsu Limited | Generating descriptive topic labels |
WO2017151443A1 (en) * | 2016-02-29 | 2017-09-08 | Myteamcalls Llc | Systems and methods for customized live-streaming commentary |
US9990926B1 (en) * | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
WO2018195185A1 (en) * | 2017-04-20 | 2018-10-25 | Google Llc | Multi-user authentication on a device |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及系统 |
US10504511B2 (en) * | 2017-07-24 | 2019-12-10 | Midea Group Co., Ltd. | Customizable wake-up voice commands |
JP2019066702A (ja) | 2017-10-02 | 2019-04-25 | 東芝映像ソリューション株式会社 | 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法 |
JP2019086903A (ja) | 2017-11-02 | 2019-06-06 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
CN111357048B (zh) * | 2017-12-31 | 2024-10-08 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
US10244286B1 (en) * | 2018-01-30 | 2019-03-26 | Fmr Llc | Recommending digital content objects in a network environment |
JP2019210197A (ja) | 2018-06-07 | 2019-12-12 | 株式会社Ihi | セラミック基複合材料 |
JP2021529382A (ja) | 2018-06-19 | 2021-10-28 | エリプシス・ヘルス・インコーポレイテッド | 精神的健康評価のためのシステム及び方法 |
US20190385711A1 (en) | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
WO2020005202A1 (en) * | 2018-06-25 | 2020-01-02 | Google Llc | Hotword-aware speech synthesis |
KR102622357B1 (ko) * | 2018-07-13 | 2024-01-08 | 구글 엘엘씨 | 종단 간 스트리밍 키워드 탐지 |
KR102563817B1 (ko) * | 2018-07-13 | 2023-08-07 | 삼성전자주식회사 | 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
KR20200023088A (ko) * | 2018-08-24 | 2020-03-04 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
EP3667512A1 (en) * | 2018-12-11 | 2020-06-17 | Siemens Aktiengesellschaft | A cloud platform and method for efficient processing of pooled data |
US10964324B2 (en) * | 2019-04-26 | 2021-03-30 | Rovi Guides, Inc. | Systems and methods for enabling topic-based verbal interaction with a virtual assistant |
US11132992B2 (en) | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
US11158305B2 (en) * | 2019-05-05 | 2021-10-26 | Microsoft Technology Licensing, Llc | Online verification of custom wake word |
US11222622B2 (en) | 2019-05-05 | 2022-01-11 | Microsoft Technology Licensing, Llc | Wake word selection assistance architectures and methods |
WO2020231181A1 (en) * | 2019-05-16 | 2020-11-19 | Samsung Electronics Co., Ltd. | Method and device for providing voice recognition service |
GB2588689B (en) * | 2019-11-04 | 2024-04-24 | Nokia Technologies Oy | Personalized models |
US11238847B2 (en) | 2019-12-04 | 2022-02-01 | Google Llc | Speaker awareness using speaker dependent speech model(s) |
US11341954B2 (en) * | 2019-12-17 | 2022-05-24 | Google Llc | Training keyword spotters |
CN111105788B (zh) * | 2019-12-20 | 2023-03-24 | 北京三快在线科技有限公司 | 敏感词分数检测方法、装置、电子设备及存储介质 |
JP7274441B2 (ja) * | 2020-04-02 | 2023-05-16 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
US11315575B1 (en) * | 2020-10-13 | 2022-04-26 | Google Llc | Automatic generation and/or use of text-dependent speaker verification features |
US11798530B2 (en) * | 2020-10-30 | 2023-10-24 | Google Llc | Simultaneous acoustic event detection across multiple assistant devices |
US11620993B2 (en) * | 2021-06-09 | 2023-04-04 | Merlyn Mind, Inc. | Multimodal intent entity resolver |
Family Cites Families (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5465318A (en) * | 1991-03-28 | 1995-11-07 | Kurzweil Applied Intelligence, Inc. | Method for generating a speech recognition model for a non-vocabulary utterance |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
US6073096A (en) | 1998-02-04 | 2000-06-06 | International Business Machines Corporation | Speaker adaptation system and method based on class-specific pre-clustering training speakers |
JP2000089780A (ja) | 1998-09-08 | 2000-03-31 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
US6978238B2 (en) | 1999-07-12 | 2005-12-20 | Charles Schwab & Co., Inc. | Method and system for identifying a user by voice |
US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
US20040236573A1 (en) * | 2001-06-19 | 2004-11-25 | Sapeluk Andrew Thomas | Speaker recognition systems |
EP1293964A3 (en) | 2001-09-13 | 2004-05-12 | Matsushita Electric Industrial Co., Ltd. | Adaptation of a speech recognition method to individual users and environments with transfer of data between a terminal and a server |
JP2005107550A (ja) | 2001-09-13 | 2005-04-21 | Matsushita Electric Ind Co Ltd | 端末装置、サーバ装置および音声認識方法 |
US7203652B1 (en) * | 2002-02-21 | 2007-04-10 | Nuance Communications | Method and system for improving robustness in a speech system |
DE60327020D1 (de) | 2002-05-27 | 2009-05-20 | Pioneer Corp | Vorrichtung, Verfahren und computerlesbares Aufzeichnungsmedium zur Erkennung von Schlüsselwörtern in spontaner Sprache |
US7212613B2 (en) | 2003-09-18 | 2007-05-01 | International Business Machines Corporation | System and method for telephonic voice authentication |
US7552055B2 (en) * | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US7386448B1 (en) | 2004-06-24 | 2008-06-10 | T-Netix, Inc. | Biometric voice authentication |
US20070055517A1 (en) | 2005-08-30 | 2007-03-08 | Brian Spector | Multi-factor biometric authentication |
JP2007111169A (ja) * | 2005-10-19 | 2007-05-10 | Nelson Precision Casting Co Ltd | ゴルフクラブヘッドのワックスパターンの製造方法 |
JP4854732B2 (ja) | 2006-03-24 | 2012-01-18 | パイオニア株式会社 | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
AU2008222906A1 (en) * | 2007-03-05 | 2008-09-12 | Paxfire, Inc. | Internet lookup engine |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US9092781B2 (en) | 2007-06-27 | 2015-07-28 | Verizon Patent And Licensing Inc. | Methods and systems for secure voice-authenticated electronic payment |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
CN101593519B (zh) | 2008-05-29 | 2012-09-19 | 夏普株式会社 | 检测语音关键词的方法和设备及检索方法和系统 |
US8489399B2 (en) * | 2008-06-23 | 2013-07-16 | John Nicholas and Kristin Gross Trust | System and method for verifying origin of input through spoken language analysis |
US8676904B2 (en) * | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8332223B2 (en) * | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
CN101447185B (zh) | 2008-12-08 | 2012-08-08 | 深圳市北科瑞声科技有限公司 | 一种基于内容的音频快速分类方法 |
JP5610304B2 (ja) | 2011-06-24 | 2014-10-22 | 日本電信電話株式会社 | モデルパラメータ配列装置とその方法とプログラム |
US8924219B1 (en) * | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US8818810B2 (en) | 2011-12-29 | 2014-08-26 | Robert Bosch Gmbh | Speaker verification in a health monitoring system |
GB2514943A (en) * | 2012-01-24 | 2014-12-10 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US9323912B2 (en) | 2012-02-28 | 2016-04-26 | Verizon Patent And Licensing Inc. | Method and system for multi-factor biometric authentication |
US9646610B2 (en) | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US20150279351A1 (en) * | 2012-12-19 | 2015-10-01 | Google Inc. | Keyword detection based on acoustic alignment |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9123330B1 (en) * | 2013-05-01 | 2015-09-01 | Google Inc. | Large-scale speaker identification |
US9620123B2 (en) * | 2013-05-02 | 2017-04-11 | Nice Ltd. | Seamless authentication and enrollment |
JP2014232258A (ja) * | 2013-05-30 | 2014-12-11 | 株式会社東芝 | 連携業務支援装置、方法およびプログラム |
US9336781B2 (en) * | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US10019985B2 (en) * | 2013-11-04 | 2018-07-10 | Google Llc | Asynchronous optimization for sequence training of neural networks |
CN103559881B (zh) | 2013-11-08 | 2016-08-31 | 科大讯飞股份有限公司 | 语种无关的关键词识别方法及系统 |
US8768712B1 (en) * | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US9589564B2 (en) * | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
US9548979B1 (en) * | 2014-09-19 | 2017-01-17 | United Services Automobile Association (Usaa) | Systems and methods for authentication program enrollment |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
-
2015
- 2015-07-22 US US14/805,753 patent/US10438593B2/en active Active
-
2016
- 2016-06-29 US US15/197,268 patent/US10535354B2/en active Active
- 2016-07-12 EP EP16186281.8A patent/EP3125234B1/en active Active
- 2016-07-12 EP EP16179113.2A patent/EP3121809B1/en active Active
- 2016-07-21 JP JP2016143155A patent/JP6316884B2/ja active Active
- 2016-07-21 KR KR1020160092851A patent/KR101859708B1/ko active IP Right Grant
- 2016-07-22 CN CN201610586197.0A patent/CN106373564B/zh active Active
- 2016-08-04 KR KR1020160099402A patent/KR102205371B1/ko active IP Right Grant
-
2017
- 2017-03-17 US US15/462,160 patent/US20170194006A1/en not_active Abandoned
-
2018
- 2018-03-28 JP JP2018061958A patent/JP6630765B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20170025125A1 (en) | 2017-01-26 |
KR20170012112A (ko) | 2017-02-02 |
JP6316884B2 (ja) | 2018-04-25 |
CN106373564A (zh) | 2017-02-01 |
US10535354B2 (en) | 2020-01-14 |
US20170194006A1 (en) | 2017-07-06 |
EP3125234A1 (en) | 2017-02-01 |
CN106373564B (zh) | 2019-11-22 |
EP3125234B1 (en) | 2019-05-15 |
KR20180010923A (ko) | 2018-01-31 |
KR102205371B1 (ko) | 2021-01-20 |
US10438593B2 (en) | 2019-10-08 |
US20170186433A1 (en) | 2017-06-29 |
JP2018109789A (ja) | 2018-07-12 |
EP3121809B1 (en) | 2018-06-06 |
JP2017027049A (ja) | 2017-02-02 |
KR101859708B1 (ko) | 2018-05-18 |
EP3121809A1 (en) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6630765B2 (ja) | 個別化されたホットワード検出モデル | |
US12094472B2 (en) | Server side hotwording | |
US10269346B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
JP6474762B2 (ja) | 発話者の検証のための動的な閾値 | |
US9058805B2 (en) | Multiple recognizer speech recognition | |
US20160055847A1 (en) | System and method for speech validation | |
US20150106089A1 (en) | Name Based Initiation of Speech Recognition | |
US10102852B2 (en) | Personalized speech synthesis for acknowledging voice actions | |
CN107066494B (zh) | 语音查询的搜索结果预获取 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180330 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6630765 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |