JP6316884B2 - 個別化されたホットワード検出モデル - Google Patents
個別化されたホットワード検出モデル Download PDFInfo
- Publication number
- JP6316884B2 JP6316884B2 JP2016143155A JP2016143155A JP6316884B2 JP 6316884 B2 JP6316884 B2 JP 6316884B2 JP 2016143155 A JP2016143155 A JP 2016143155A JP 2016143155 A JP2016143155 A JP 2016143155A JP 6316884 B2 JP6316884 B2 JP 6316884B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic data
- candidate
- hot word
- user
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 100
- 238000000034 method Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000015654 memory Effects 0.000 description 43
- 238000004891 communication Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 15
- 238000004590 computer program Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000287463 Phalacrocorax Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006266 hibernation Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
110 ユーザ
120 クライアントデバイス
122 登録音響データ
130 サーバ
132 候補音響データベース
134 候補音響データスコアラー
136 候補音響データセレクター
138 学習セット
140 ホットワード検出モデル生成器
152 個人化されたホットワード検出モデル
202 登録音響データ
204 候補音響データ
300 処理
300 プロセス
400 コンピューティングデバイス
402 プロセッサ
404 メモリ
406 記憶装置
408 高速インターフェイス
410 高速拡張ポート
412 低速インターフェイス
414 低速拡張ポート
416 ディスプレイ
420 標準サーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
450 モバイルコンピューティングデバイス
452 プロセッサ
454 ディスプレイ
456 ディスプレイインターフェイス
458 制御インターフェイス
460 オーディオコーデック
462 外部インターフェイス
464 メモリ
466 通信インターフェイス
468 トランシーバ
470 GPS(全地球測位システム)受信機モジュール
472 拡張インターフェイス
474 拡張メモリ
480 携帯電話
482 スマートフォン
Claims (35)
- コンピュータ実装方法であって、
ユーザによって話される登録発話を表す登録音響データを取得するステップと、
他のユーザによって話される発話を表す候補音響データのセットを取得するステップと、
候補音響データの前記セットの各候補音響データについて、前記登録音響データと前記候補音響データとの間の類似性を表す類似度スコアを決定するステップと、
前記類似度スコアと、所定の数の候補音響データを選択することとに少なくとも基づき候補音響データの前記セットから、より高い類似性を反映する前記類似度スコアを有する前記所定の数の候補音響データのサブセットを選択するステップと、
候補音響データの前記サブセットに基づき検出モデルを生成するステップと、
前記ユーザによって話される発話を検出する際に使用するための前記検出モデルを提供するステップと
を含む、方法。 - ユーザによって話される登録発話を表す登録音響データを取得するステップは、
前記ユーザによって話される所定の語句の複数の発話に対する登録音響データを取得するステップを含む、請求項1に記載の方法。 - 他のユーザによって話される発話を表す候補音響データのセットを取得するステップは、
前記登録発話が所定の語句の発話であると決定するステップと、
他のユーザによって話される前記所定の語句の発話を表す候補音響データを識別するステップと
を含む、請求項1に記載の方法。 - 候補音響データの前記セットの各候補音響データについて、前記類似度スコアを決定するステップは、
前記登録音響データと前記候補音響データとの間の距離を決定するステップと、
前記距離に基づき前記類似度スコアを決定するステップと
を含む、請求項1に記載の方法。 - 候補音響データの前記セットの各候補音響データについて、前記類似度スコアを決定するステップは、
前記候補音響データによって表される前記発話を話した前記他のユーザの人口学的情報と、前記登録発話を話した前記ユーザの人口学的情報とに基づき前記類似度スコアを決定するステップを含む、請求項1に記載の方法。 - 候補音響データの前記サブセットに基づき検出モデルを生成するステップは、
候補音響データの前記サブセットを使用してニューラルネットワークを学習させるステップを含む、請求項1に記載の方法。 - 前記検出モデルを使用して所定の語句の発話を検出するステップを含む、請求項1に記載の方法。
- 1つまたは複数のコンピュータと、
前記1つまたは複数のコンピュータによって実行されたときに、前記1つまたは複数のコンピュータに以下の動作を実行させることが可能である命令を記憶する1つまたは複数の記憶装置と
を備えたシステムであって、前記動作は
ユーザによって話される登録発話を表す登録音響データを取得するステップと、
他のユーザによって話される発話を表す候補音響データのセットを取得するステップと、
候補音響データの前記セットの各候補音響データについて、前記登録音響データと前記候補音響データとの間の類似性を表す類似度スコアを決定するステップと、
前記類似度スコアと、所定の数の候補音響データを選択することとに少なくとも基づき候補音響データの前記セットから、より高い類似性を反映する前記類似度スコアを有する前記所定の数の候補音響データのサブセットを選択するステップと、
候補音響データの前記サブセットに基づき検出モデルを生成するステップと、
前記ユーザによって話される発話を検出する際に使用するために前記検出モデルを提供するステップと
を含む、システム。 - ユーザによって話される登録発話を表す登録音響データを取得するステップは、
前記ユーザによって話される所定の語句の複数の発話に対する登録音響データを取得するステップを含む、請求項8に記載のシステム。 - 他のユーザによって話される発話を表す候補音響データのセットを取得するステップは、
前記登録発話が所定の語句の発話であると決定するステップと、
他のユーザによって話される前記所定の語句の発話を表す候補音響データを識別するステップと
を含む、請求項8に記載のシステム。 - 候補音響データの前記セットの各候補音響データについて、前記類似度スコアを決定するステップは、
前記登録音響データと前記候補音響データとの間の距離を決定するステップと、
前記距離に基づき前記類似度スコアを決定するステップと
を含む、請求項8に記載のシステム。 - 候補音響データの前記セットの各候補音響データについて、前記類似度スコアを決定するステップは、
前記候補音響データによって表される前記発話を話した前記他のユーザの人口学的情報と、前記登録発話を話した前記ユーザの人口学的情報とに基づき前記類似度スコアを決定するステップを含む、請求項8に記載のシステム。 - 候補音響データの前記サブセットに基づき検出モデルを生成するステップは、
候補音響データの前記サブセットを使用してニューラルネットワークを学習させるステップを含む、請求項8に記載のシステム。 - 前記動作は、
前記検出モデルを使用して所定の語句の発話を検出するステップを含む、請求項8に記載のシステム。 - 1つまたは複数のコンピュータによって実行可能な命令を記憶するコンピュータ可読媒体であって、そのような実行時に、前記命令が、前記1つまたは複数のコンピュータに以下の動作を実行させ、前記動作が、
ユーザによって話される登録発話を表す登録音響データを取得するステップと、
他のユーザによって話される発話を表す候補音響データのセットを取得するステップと、
候補音響データの前記セットの各候補音響データについて、前記登録音響データと前記候補音響データとの間の類似性を表す類似度スコアを決定するステップと、
前記類似度スコアと、所定の数の候補音響データを選択することとに少なくとも基づき候補音響データの前記セットから、より高い類似性を反映する前記類似度スコアを有する前記所定の数の候補音響データのサブセットを選択するステップと、
候補音響データの前記サブセットに基づき検出モデルを生成するステップと、
前記ユーザによって話される発話を検出する際に使用するための前記検出モデルを提供するステップと
を含む、コンピュータ可読媒体。 - ユーザによって話される登録発話を表す登録音響データを取得するステップは、
前記ユーザによって話される所定の語句の複数の発話に対する登録音響データを取得するステップを含む、請求項15に記載の媒体。 - 他のユーザによって話される発話を表す候補音響データのセットを取得するステップは、
前記登録発話が所定の語句の発話であると決定するステップと、
他のユーザによって話される前記所定の語句の発話を表す候補音響データを識別するステップと
を含む、請求項15に記載の媒体。 - 候補音響データの前記セットの各候補音響データについて、前記類似度スコアを決定するステップは、
前記登録音響データと前記候補音響データとの間の距離を決定するステップと、
前記距離に基づき前記類似度スコアを決定するステップと
を含む、請求項15に記載の媒体。 - コンピュータ実装方法であって、
登録プロセス中に、特定のホットワードを話すようユーザに対してプロンプトを提供し、前記ユーザによる前記特定のホットワードの単一の発話のみに対応するオーディオデータを受け取るステップと、
前記ユーザによる前記特定のホットワードの単一の発話のみに対応する前記オーディオデータを受け取ったことに応答して、ホットワード検出モデルを取得するステップであって、前記ホットワード検出モデルを取得するステップは、
他のユーザによる前記特定のホットワードの単一の発話のみに対応する候補オーディオデータのセットを取得するステップと、
候補オーディオデータの前記セットの各候補オーディオデータについて、前記オーディオデータと前記候補オーディオデータとの間の類似性を表す類似度スコアを決定するステップと、
前記類似度スコアと、所定の数の候補オーディオデータを選択することとに少なくとも基づき、候補オーディオデータの前記セットから、より高い類似性を反映する前記類似度スコアを有する前記所定の数の候補オーディオデータのサブセットを選択するステップと、
候補オーディオデータの前記サブセットに基づき前記ホットワード検出モデルを生成するステップと
を含む、ステップと、
前記ホットワード検出モデルを使用して、その後受け取ったオーディオデータ内の前記特定のホットワードのあり得る発話を検出するステップと
を含む、方法。 - 登録プロセス中に、特定のホットワードを話すようユーザに対してプロンプトを提供し、前記ユーザによる前記特定のホットワードの単一の発話のみに対応するオーディオデータを受け取るステップは、
1つもしくは複数の言葉または前記特定のホットワードに続く1つもしくは複数の言葉の意味解釈をトリガーする1つもしくは複数の言葉を話すよう前記ユーザに対してプロンプトを提供するステップを含む、請求項19に記載の方法。 - 前記ホットワード検出モデルを取得した後に前記登録プロセスを終了するステップを含む、請求項19に記載の方法。
- 前記ホットワード検出モデルは、前記単一の発話に少なくとも基づき、前記特定のホットワードの別の発話に基づかない、請求項19に記載の方法。
- 前記ホットワード検出モデルを使用して、その後受け取ったオーディオデータ内の前記特定のホットワードのあり得る発話を検出するステップは、
その後の発話に対応するオーディオデータを受け取るステップと、
前記その後の発話は、前記ホットワード検出モデルに少なくとも基づく前記特定のホットワードを含む可能性があるかどうかを決定するステップと
を含む、請求項19に記載の方法。 - 前記その後の発話が、少なくとも前記ホットワード検出モデルに基づく前記特定のホットワードを含む可能性があるかどうかを決定したことに応答して、前記その後の発話の少なくとも一部に関して意味解釈を実行するステップを含む、請求項23に記載の方法。
- 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されたときに、以下の動作を前記1つまたは複数のコンピュータに実行させることが可能である命令を記憶する1つまたは複数の記憶装置とを備えたシステムであって、前記動作は、
登録プロセス中に、特定のホットワードを話すようユーザに対してプロンプトを提供し、前記ユーザによる前記特定のホットワードの単一の発話のみに対応するオーディオデータを受け取るステップと、
前記ユーザによる前記特定のホットワードの単一の発話のみに対応する前記オーディオデータを受け取ったことに応答して、ホットワード検出モデルを取得するステップであって、前記ホットワード検出モデルを取得するステップは、
他のユーザによる前記特定のホットワードの単一の発話のみに対応する候補オーディオデータのセットを取得するステップと、
候補オーディオデータの前記セットの各候補オーディオデータについて、前記オーディオデータと前記候補オーディオデータとの間の類似性を表す類似度スコアを決定するステップと、
前記類似度スコアと、所定の数の候補オーディオデータを選択することとに少なくとも基づき、候補オーディオデータの前記セットから、より高い類似性を反映する前記類似度スコアを有する前記所定の数の候補オーディオデータのサブセットを選択するステップと、
候補オーディオデータの前記サブセットに基づき前記ホットワード検出モデルを生成するステップと
を含む、ステップと、
前記ホットワード検出モデルを使用して、その後受け取ったオーディオデータ内の前記特定のホットワードのあり得る発話を検出するステップと
を含む、システム。 - 登録プロセス中に、特定のホットワードを話すようユーザに対してプロンプトを提供し、前記ユーザによる前記特定のホットワードの単一の発話のみに対応するオーディオデータを受け取るステップは、
1つもしくは複数の言葉または前記特定のホットワードに続く1つもしくは複数の言葉の意味解釈をトリガーする1つもしくは複数の言葉を話すよう前記ユーザに対してプロンプトを提供するステップを含む、請求項25に記載のシステム。 - 前記動作は、
前記ホットワード検出モデルを取得した後に前記登録プロセスを終了するステップを含む、請求項25に記載のシステム。 - 前記ホットワード検出モデルは、前記単一の発話に少なくとも基づき、前記特定のホットワードの別の発話に基づかない、請求項25に記載のシステム。
- 前記ホットワード検出モデルを使用して、その後受け取ったオーディオデータ内の前記特定のホットワードのあり得る発話を検出するステップは、
その後の発話に対応するオーディオデータを受け取るステップと、
前記その後の発話は、前記ホットワード検出モデルに少なくとも基づく前記特定のホットワードを含む可能性があるかどうかを決定するステップと
を含む、請求項25に記載のシステム。 - 前記その後の発話が、前記ホットワード検出モデルに少なくとも基づく前記特定のホットワードを含む可能性があるかどうかを決定したことに応答して、前記その後の発話の少なくとも一部に関して意味解釈を実行するステップを含む、請求項29に記載のシステム。
- 1つまたは複数のコンピュータによって実行可能な命令を含むソフトウェアを記憶する非一時的コンピュータ可読媒体であって、そのような実行時に、前記命令が、前記1つまたは複数のコンピュータに以下の動作を実行させ、前記動作は、
登録プロセス中に、特定のホットワードを話すようユーザに対してプロンプトを提供し、前記ユーザによる前記特定のホットワードの単一の発話のみに対応するオーディオデータを受け取るステップと、
前記ユーザによる前記特定のホットワードの単一の発話のみに対応する前記オーディオデータを受け取ったことに応答して、ホットワード検出モデルを取得するステップであって、前記ホットワード検出モデルを取得するステップは、
他のユーザによる前記特定のホットワードの単一の発話のみに対応する候補オーディオデータのセットを取得するステップと、
候補オーディオデータの前記セットの各候補オーディオデータについて、前記オーディオデータと前記候補オーディオデータとの間の類似性を表す類似度スコアを決定するステップと、
前記類似度スコアと、所定の数の候補オーディオデータを選択することとに少なくとも基づき、候補オーディオデータの前記セットから、より高い類似性を反映する前記類似度スコアを有する前記所定の数の候補オーディオデータのサブセットを選択するステップと、
候補オーディオデータの前記サブセットに基づき前記ホットワード検出モデルを生成するステップと
を含む、ステップと、
前記ホットワード検出モデルを使用して、その後受け取ったオーディオデータ内の前記特定のホットワードのあり得る発話を検出するステップと
を含む、媒体。 - 登録プロセス中に、特定のホットワードを話すようユーザに対してプロンプトを提供し、前記ユーザによる前記特定のホットワードの単一の発話のみに対応するオーディオデータを受け取るステップは、
1つもしくは複数の言葉または前記特定のホットワードに続く1つもしくは複数の言葉の意味解釈をトリガーする1つもしくは複数の言葉を話すよう前記ユーザに対してプロンプトを提供するステップを含む、請求項31に記載の媒体。 - 前記動作は、
前記ホットワード検出モデルを取得した後に前記登録プロセスを終了するステップを含む、請求項31に記載の媒体。 - 前記ホットワード検出モデルは、前記単一の発話に少なくとも基づき、前記特定のホットワードの別の発話に基づかない、請求項31に記載の媒体。
- 前記ホットワード検出モデルを使用して、その後受け取ったオーディオデータ内の前記特定のホットワードのあり得る発話を検出するステップは、
その後の発話に対応するオーディオデータを受け取るステップと、
前記その後の発話は、前記ホットワード検出モデルに少なくとも基づく前記特定のホットワードを含む可能性があるかどうかを決定するステップと
を含む請求項31に記載の媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/805,753 | 2015-07-22 | ||
US14/805,753 US10438593B2 (en) | 2015-07-22 | 2015-07-22 | Individualized hotword detection models |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018061958A Division JP6630765B2 (ja) | 2015-07-22 | 2018-03-28 | 個別化されたホットワード検出モデル |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017027049A JP2017027049A (ja) | 2017-02-02 |
JP6316884B2 true JP6316884B2 (ja) | 2018-04-25 |
Family
ID=56204080
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016143155A Active JP6316884B2 (ja) | 2015-07-22 | 2016-07-21 | 個別化されたホットワード検出モデル |
JP2018061958A Active JP6630765B2 (ja) | 2015-07-22 | 2018-03-28 | 個別化されたホットワード検出モデル |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018061958A Active JP6630765B2 (ja) | 2015-07-22 | 2018-03-28 | 個別化されたホットワード検出モデル |
Country Status (5)
Country | Link |
---|---|
US (3) | US10438593B2 (ja) |
EP (2) | EP3125234B1 (ja) |
JP (2) | JP6316884B2 (ja) |
KR (2) | KR101859708B1 (ja) |
CN (1) | CN106373564B (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10437837B2 (en) * | 2015-10-09 | 2019-10-08 | Fujitsu Limited | Generating descriptive topic labels |
WO2017151443A1 (en) * | 2016-02-29 | 2017-09-08 | Myteamcalls Llc | Systems and methods for customized live-streaming commentary |
US9990926B1 (en) * | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
WO2018195185A1 (en) * | 2017-04-20 | 2018-10-25 | Google Llc | Multi-user authentication on a device |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及系统 |
US10504511B2 (en) * | 2017-07-24 | 2019-12-10 | Midea Group Co., Ltd. | Customizable wake-up voice commands |
JP2019066702A (ja) | 2017-10-02 | 2019-04-25 | 東芝映像ソリューション株式会社 | 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法 |
JP2019086903A (ja) | 2017-11-02 | 2019-06-06 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
CN111357048B (zh) * | 2017-12-31 | 2024-10-08 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
US10244286B1 (en) * | 2018-01-30 | 2019-03-26 | Fmr Llc | Recommending digital content objects in a network environment |
JP2019210197A (ja) | 2018-06-07 | 2019-12-12 | 株式会社Ihi | セラミック基複合材料 |
JP2021529382A (ja) | 2018-06-19 | 2021-10-28 | エリプシス・ヘルス・インコーポレイテッド | 精神的健康評価のためのシステム及び方法 |
US20190385711A1 (en) | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
WO2020005202A1 (en) * | 2018-06-25 | 2020-01-02 | Google Llc | Hotword-aware speech synthesis |
KR102622357B1 (ko) * | 2018-07-13 | 2024-01-08 | 구글 엘엘씨 | 종단 간 스트리밍 키워드 탐지 |
KR102563817B1 (ko) * | 2018-07-13 | 2023-08-07 | 삼성전자주식회사 | 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
KR20200023088A (ko) * | 2018-08-24 | 2020-03-04 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
EP3667512A1 (en) * | 2018-12-11 | 2020-06-17 | Siemens Aktiengesellschaft | A cloud platform and method for efficient processing of pooled data |
US10964324B2 (en) * | 2019-04-26 | 2021-03-30 | Rovi Guides, Inc. | Systems and methods for enabling topic-based verbal interaction with a virtual assistant |
US11132992B2 (en) | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
US11158305B2 (en) * | 2019-05-05 | 2021-10-26 | Microsoft Technology Licensing, Llc | Online verification of custom wake word |
US11222622B2 (en) | 2019-05-05 | 2022-01-11 | Microsoft Technology Licensing, Llc | Wake word selection assistance architectures and methods |
WO2020231181A1 (en) * | 2019-05-16 | 2020-11-19 | Samsung Electronics Co., Ltd. | Method and device for providing voice recognition service |
GB2588689B (en) * | 2019-11-04 | 2024-04-24 | Nokia Technologies Oy | Personalized models |
US11238847B2 (en) | 2019-12-04 | 2022-02-01 | Google Llc | Speaker awareness using speaker dependent speech model(s) |
US11341954B2 (en) * | 2019-12-17 | 2022-05-24 | Google Llc | Training keyword spotters |
CN111105788B (zh) * | 2019-12-20 | 2023-03-24 | 北京三快在线科技有限公司 | 敏感词分数检测方法、装置、电子设备及存储介质 |
JP7274441B2 (ja) * | 2020-04-02 | 2023-05-16 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
US11315575B1 (en) * | 2020-10-13 | 2022-04-26 | Google Llc | Automatic generation and/or use of text-dependent speaker verification features |
US11798530B2 (en) * | 2020-10-30 | 2023-10-24 | Google Llc | Simultaneous acoustic event detection across multiple assistant devices |
US11620993B2 (en) * | 2021-06-09 | 2023-04-04 | Merlyn Mind, Inc. | Multimodal intent entity resolver |
Family Cites Families (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5465318A (en) * | 1991-03-28 | 1995-11-07 | Kurzweil Applied Intelligence, Inc. | Method for generating a speech recognition model for a non-vocabulary utterance |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
US6073096A (en) | 1998-02-04 | 2000-06-06 | International Business Machines Corporation | Speaker adaptation system and method based on class-specific pre-clustering training speakers |
JP2000089780A (ja) | 1998-09-08 | 2000-03-31 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
US6978238B2 (en) | 1999-07-12 | 2005-12-20 | Charles Schwab & Co., Inc. | Method and system for identifying a user by voice |
US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
US20040236573A1 (en) * | 2001-06-19 | 2004-11-25 | Sapeluk Andrew Thomas | Speaker recognition systems |
EP1293964A3 (en) | 2001-09-13 | 2004-05-12 | Matsushita Electric Industrial Co., Ltd. | Adaptation of a speech recognition method to individual users and environments with transfer of data between a terminal and a server |
JP2005107550A (ja) | 2001-09-13 | 2005-04-21 | Matsushita Electric Ind Co Ltd | 端末装置、サーバ装置および音声認識方法 |
US7203652B1 (en) * | 2002-02-21 | 2007-04-10 | Nuance Communications | Method and system for improving robustness in a speech system |
DE60327020D1 (de) | 2002-05-27 | 2009-05-20 | Pioneer Corp | Vorrichtung, Verfahren und computerlesbares Aufzeichnungsmedium zur Erkennung von Schlüsselwörtern in spontaner Sprache |
US7212613B2 (en) | 2003-09-18 | 2007-05-01 | International Business Machines Corporation | System and method for telephonic voice authentication |
US7552055B2 (en) * | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US7386448B1 (en) | 2004-06-24 | 2008-06-10 | T-Netix, Inc. | Biometric voice authentication |
US20070055517A1 (en) | 2005-08-30 | 2007-03-08 | Brian Spector | Multi-factor biometric authentication |
JP2007111169A (ja) * | 2005-10-19 | 2007-05-10 | Nelson Precision Casting Co Ltd | ゴルフクラブヘッドのワックスパターンの製造方法 |
JP4854732B2 (ja) | 2006-03-24 | 2012-01-18 | パイオニア株式会社 | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
AU2008222906A1 (en) * | 2007-03-05 | 2008-09-12 | Paxfire, Inc. | Internet lookup engine |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US9092781B2 (en) | 2007-06-27 | 2015-07-28 | Verizon Patent And Licensing Inc. | Methods and systems for secure voice-authenticated electronic payment |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
CN101593519B (zh) | 2008-05-29 | 2012-09-19 | 夏普株式会社 | 检测语音关键词的方法和设备及检索方法和系统 |
US8489399B2 (en) * | 2008-06-23 | 2013-07-16 | John Nicholas and Kristin Gross Trust | System and method for verifying origin of input through spoken language analysis |
US8676904B2 (en) * | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8332223B2 (en) * | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
CN101447185B (zh) | 2008-12-08 | 2012-08-08 | 深圳市北科瑞声科技有限公司 | 一种基于内容的音频快速分类方法 |
JP5610304B2 (ja) | 2011-06-24 | 2014-10-22 | 日本電信電話株式会社 | モデルパラメータ配列装置とその方法とプログラム |
US8924219B1 (en) * | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US8818810B2 (en) | 2011-12-29 | 2014-08-26 | Robert Bosch Gmbh | Speaker verification in a health monitoring system |
GB2514943A (en) * | 2012-01-24 | 2014-12-10 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US9323912B2 (en) | 2012-02-28 | 2016-04-26 | Verizon Patent And Licensing Inc. | Method and system for multi-factor biometric authentication |
US9646610B2 (en) | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US20150279351A1 (en) * | 2012-12-19 | 2015-10-01 | Google Inc. | Keyword detection based on acoustic alignment |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9123330B1 (en) * | 2013-05-01 | 2015-09-01 | Google Inc. | Large-scale speaker identification |
US9620123B2 (en) * | 2013-05-02 | 2017-04-11 | Nice Ltd. | Seamless authentication and enrollment |
JP2014232258A (ja) * | 2013-05-30 | 2014-12-11 | 株式会社東芝 | 連携業務支援装置、方法およびプログラム |
US9336781B2 (en) * | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US10019985B2 (en) * | 2013-11-04 | 2018-07-10 | Google Llc | Asynchronous optimization for sequence training of neural networks |
CN103559881B (zh) | 2013-11-08 | 2016-08-31 | 科大讯飞股份有限公司 | 语种无关的关键词识别方法及系统 |
US8768712B1 (en) * | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US9589564B2 (en) * | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
US9548979B1 (en) * | 2014-09-19 | 2017-01-17 | United Services Automobile Association (Usaa) | Systems and methods for authentication program enrollment |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
-
2015
- 2015-07-22 US US14/805,753 patent/US10438593B2/en active Active
-
2016
- 2016-06-29 US US15/197,268 patent/US10535354B2/en active Active
- 2016-07-12 EP EP16186281.8A patent/EP3125234B1/en active Active
- 2016-07-12 EP EP16179113.2A patent/EP3121809B1/en active Active
- 2016-07-21 JP JP2016143155A patent/JP6316884B2/ja active Active
- 2016-07-21 KR KR1020160092851A patent/KR101859708B1/ko active IP Right Grant
- 2016-07-22 CN CN201610586197.0A patent/CN106373564B/zh active Active
- 2016-08-04 KR KR1020160099402A patent/KR102205371B1/ko active IP Right Grant
-
2017
- 2017-03-17 US US15/462,160 patent/US20170194006A1/en not_active Abandoned
-
2018
- 2018-03-28 JP JP2018061958A patent/JP6630765B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20170025125A1 (en) | 2017-01-26 |
KR20170012112A (ko) | 2017-02-02 |
CN106373564A (zh) | 2017-02-01 |
US10535354B2 (en) | 2020-01-14 |
US20170194006A1 (en) | 2017-07-06 |
EP3125234A1 (en) | 2017-02-01 |
CN106373564B (zh) | 2019-11-22 |
JP6630765B2 (ja) | 2020-01-15 |
EP3125234B1 (en) | 2019-05-15 |
KR20180010923A (ko) | 2018-01-31 |
KR102205371B1 (ko) | 2021-01-20 |
US10438593B2 (en) | 2019-10-08 |
US20170186433A1 (en) | 2017-06-29 |
JP2018109789A (ja) | 2018-07-12 |
EP3121809B1 (en) | 2018-06-06 |
JP2017027049A (ja) | 2017-02-02 |
KR101859708B1 (ko) | 2018-05-18 |
EP3121809A1 (en) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6316884B2 (ja) | 個別化されたホットワード検出モデル | |
US12094472B2 (en) | Server side hotwording | |
JP6474762B2 (ja) | 発話者の検証のための動的な閾値 | |
US10269346B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
US9293136B2 (en) | Multiple recognizer speech recognition | |
US9123339B1 (en) | Speech recognition using repeated utterances | |
CN107066494B (zh) | 语音查询的搜索结果预获取 | |
US20160307569A1 (en) | Personalized Speech Synthesis for Voice Actions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6316884 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |