JP7191987B2 - 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション - Google Patents
話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション Download PDFInfo
- Publication number
- JP7191987B2 JP7191987B2 JP2020568987A JP2020568987A JP7191987B2 JP 7191987 B2 JP7191987 B2 JP 7191987B2 JP 2020568987 A JP2020568987 A JP 2020568987A JP 2020568987 A JP2020568987 A JP 2020568987A JP 7191987 B2 JP7191987 B2 JP 7191987B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- speaker
- additional
- human
- embeddings
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 127
- 238000000034 method Methods 0.000 claims description 105
- 238000012549 training Methods 0.000 claims description 69
- 230000004044 response Effects 0.000 claims description 48
- 238000010801 machine learning Methods 0.000 claims description 34
- 230000001755 vocal effect Effects 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 26
- 238000001994 activation Methods 0.000 claims description 26
- 230000000694 effects Effects 0.000 claims description 21
- 230000009471 action Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 15
- 230000001364 causal effect Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000009877 rendering Methods 0.000 claims 1
- 230000003993 interaction Effects 0.000 description 18
- 239000013598 vector Substances 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 229920002803 thermoplastic polyurethane Polymers 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000012447 hatching Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 241000269400 Sirenidae Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Stereophonic System (AREA)
Description
107 自動化アシスタントクライアント
108 ローカルエンジン
110 ローカルおよび/またはワイドエリアネットワーク、ネットワーク
120 洗練化エンジン
125 話者埋め込みエンジン
126 話者埋め込み
130 訓練インスタンスエンジン
132 損失モジュール
134 更新モジュール
135 追加の構成要素
140 自動化アシスタント
152 話者埋め込みモデル
156 生成モデル
157A 隠れ層、層
157B 隠れ層、層
157C 隠れ層、層
160 オーディオデータデータベース
164A 追加のオーディオデータA
164B 追加のオーディオデータB
170 訓練インスタンスデータベース
170A~170N 訓練インスタンス
171A オーディオデータの混合インスタンス、混合オーディオデータA
171B 混合オーディオデータB
172A 埋め込み
173A グラウンドトゥルースオーディオデータ
174A 損失
175A 予測オーディオデータ
180 自動化アシスタント構成要素
181 クラウドベースのTTSモジュール、TTSモジュール
182 クラウドベースのSTTモジュール、STTモジュール
183 自然言語プロセッサ
184 対話状態トラッカ
185 対話マネージャ
190 リモート音声処理システム
570 オーディオデータ
573 洗練されたオーディオデータ
670 オーディオデータ
675 洗練されたオーディオデータ
770 オーディオデータ
775A 第1の洗練されたオーディオデータ
775B 第2の洗練されたオーディオデータ
777A 部分
777B 部分
970 要求
971 応答
1070 入力オーディオデータ、入力オーディオ
1070t 時間ステップ
1070t-15 時間ステップ
1073 洗練されたオーディオデータ
1073t 時間ステップ
1073t-15 時間ステップ
1110 コンピューティングデバイス
1112 バスサブシステム
1114 プロセッサ
1116 ネットワークインターフェースサブシステム
1120 ユーザインターフェース出力デバイス
1122 ユーザインターフェース入力デバイス
1124 記憶サブシステム
1125 メモリサブシステム、メモリ
1126 ファイル記憶サブシステム
1130 メインランダムアクセスメモリ(RAM)
1132 読み取り専用メモリ(ROM)
Claims (18)
人間の話者のための話者埋め込みを生成するステップであって、前記人間の話者のための前記話者埋め込みを生成するステップが、
訓練された話者埋め込みモデルを使用して、前記人間の話者に対応する話者オーディオデータの1つまたは複数のグラウンドトゥルースオーディオデータのセグメントを処理するステップと、
前記訓練された話者埋め込みモデルを使用して前記話者オーディオデータの前記1つまたは複数のグラウンドトゥルースオーディオデータのセグメントのそれぞれを処理したことに基づいて各々生成された1つまたは複数の出力に基づいて前記話者埋め込みを生成するステップとを含む、ステップと、
前記人間の話者の1つまたは複数の発話をキャプチャし、かつ前記人間の話者からではない1つまたは複数の追加の音をもキャプチャした、オーディオデータを受信するステップと、
前記オーディオデータの洗練されたバージョンを生成するステップであって、前記オーディオデータの前記洗練されたバージョンが、前記人間の話者の前記1つまたは複数の発話を前記人間の話者からではない前記1つまたは複数の追加の音から分離し、前記オーディオデータの前記洗練されたバージョンを生成するステップが、
訓練された生成モデルを使用して前記オーディオデータを順次処理するとともに、前記順次処理中に、前記訓練された生成モデルの層のアクティブ化を決定する際に前記話者埋め込みを使用するステップと、
前記順次処理に基づいて、および前記訓練された生成モデルからの直接出力として、前記オーディオデータの前記洗練されたバージョンを順次生成するステップとを含み、
前記訓練された生成モデルの前記層が、拡張因果畳み込み層のスタックを含み、前記訓練された生成モデルの前記層の前記アクティブ化を決定する際に前記話者埋め込みを使用するステップが、前記順次処理において前記拡張因果畳み込み層のアクティブ化を決定する際に前記話者埋め込みを使用するステップを含む、ステップと、
前記オーディオデータの前記洗練されたバージョンに対してさらなる処理を実行するステップであって、前記さらなる処理を実行するステップが、
前記人間の話者の前記1つまたは複数の発話に対するテキストを生成するために、前記オーディオデータの前記洗練されたバージョンに対して音声テキスト化処理を実行するステップ、および
前記オーディオデータの前記洗練されたバージョンにおける少なくともしきい値レベルのオーディオに対応する1つまたは複数の時間的部分に基づいて、前記オーディオデータの前記1つまたは複数の時間的部分に前記人間の話者に対する単一の所与の話者ラベルを割り当てるステップの一方または両方を含む、ステップとを含む、
方法。
請求項1に記載の方法。
前記部分が前記オーディオデータ内の音声活動検出の最初の発生からのものであることに基づいて前記部分を識別するステップをさらに含む、
請求項2に記載の方法。
前記追加の人間の話者のための追加の話者埋め込みを生成するステップであって、前記追加の人間の話者のための前記追加の話者埋め込みを生成するステップが、前記訓練された話者埋め込みモデルを使用して前記オーディオデータの前記追加の部分を処理することに基づく、ステップと、
前記オーディオデータの追加の洗練されたバージョンを生成するステップであって、前記オーディオデータの前記追加の洗練されたバージョンが、前記追加の人間の話者の1つまたは複数の追加の話者の発話を、前記人間の話者の前記1つまたは複数の発話から、および前記追加の人間の話者からではない前記1つまたは複数の追加の音のいずれかから分離し、前記オーディオデータの前記追加の洗練されたバージョンを生成するステップが、
前記訓練された生成モデルを使用して前記オーディオデータを順次処理するとともに、前記順次処理中に前記訓練された生成モデルの前記層のアクティブ化を決定する際に前記追加の話者埋め込みを使用するステップと、
前記順次処理に基づいて、および前記訓練された生成モデルからの直接出力として、前記オーディオデータの前記追加の洗練されたバージョンを順次生成するステップとを含む、ステップと、
前記オーディオデータの前記追加の洗練されたバージョンに対するさらなる処理を実行するステップとをさらに含む、
請求項3に記載の方法。
請求項1に記載の方法。
請求項5に記載の方法。
請求項6に記載の方法。
前記クライアントデバイスにおいてキャプチャされたセンサデータが、前記人間の話者が前記デジタルシステムに関するアクティブユーザとして最近検証されたことに基づいて、前記人間の話者からのものであると決定され、前記追加の埋め込みの代わりに前記話者埋め込みを選択するステップをさらに含む、
請求項7に記載の方法。
請求項8に記載の方法。
前記テキストに基づいて応答コンテンツを生成するステップと、
前記自動化アシスタントの前記自動化アシスタントインターフェースを介して前記応答コンテンツをレンダリングさせるステップとをさらに含む、
請求項1に記載の方法。
前記テキストを生成するために、前記オーディオデータの前記洗練されたバージョンに対して音声テキスト化処理を実行するステップを含み、
前記テキストを、前記クライアントデバイスのディスプレイを介してレンダリングさせるステップをさらに含む、
請求項1に記載の方法。
前記音声処理要求に応答して、
前記テキストと、
前記1つまたは複数の時間的部分への前記人間の話者に対する前記単一の所与の話者ラベルの前記割り当てのための話者セグメントの指標のうちの一方または両方を送信するステップをさらに含む、
請求項1に記載の方法。
クライアントデバイスにおいて自動化アシスタントクライアントを呼び出すステップであって、前記自動化アシスタントクライアントを呼び出すステップが、受信されたユーザインターフェース入力における1つまたは複数の呼び出しキューを検出したことに応答する、ステップと、
前記自動化アシスタントクライアントを呼び出したことに応答して、
前記クライアントデバイスの1つまたは複数のマイクロフォンを介して受信された最初の口頭入力の特定の処理を実行するステップと、
前記最初の口頭入力の前記特定の処理に基づいて応答アクションを生成するステップと、
前記応答アクションの実行を引き起こすステップと、
前記クライアントデバイスにおける前記自動化アシスタントクライアントについて継続リスニングモードがアクティブ化されていることを決定するステップと、
前記継続リスニングモードがアクティブ化されていることに応答して、
前記応答アクションの少なくとも一部の実行を引き起こした後、追加の口頭入力を自動的に監視するステップと、
前記自動的に監視している間にオーディオデータを受信するステップと、
前記オーディオデータが、前記最初の口頭入力を提供した同じ人間の話者からの任意の追加の口頭入力を含むかどうかを判断するステップであって、前記オーディオデータが同じ人間の話者からの前記追加の口頭入力を含むかどうかを判断するステップが、
前記最初の口頭入力を提供した前記人間の話者のための話者埋め込みを識別するステップと、
前記人間の話者からの前記オーディオデータのいずれかを分離する前記オーディオデータの洗練されたバージョンを生成するステップであって、前記オーディオデータの前記洗練されたバージョンを生成するステップが、
訓練された生成モデルを使用して前記オーディオデータを処理するとともに、前記処理中に、前記訓練された生成モデルの層のアクティブ化を決定する際に前記話者埋め込みを使用するステップと、
前記処理に基づいて、および前記訓練された生成モデルからの直接出力として、前記オーディオデータの前記洗練されたバージョンを生成するステップとを含み、
前記訓練された生成モデルの前記層が、拡張因果畳み込み層のスタックを含み、前記訓練された生成モデルの前記層の前記アクティブ化を決定する際に前記話者埋め込みを使用するステップが、前記処理において前記拡張因果畳み込み層のアクティブ化を決定する際に前記話者埋め込みを使用するステップを含む、ステップと
前記オーディオデータの前記洗練されたバージョンの任意の部分が少なくともしきい値レベルのオーディオに対応するかどうかに基づいて、前記オーディオデータが同じ人間の話者からの前記任意の追加の口頭入力を含むかどうかを判断するステップとを含む、ステップと、
前記オーディオデータが同じ人間の話者からのいかなる追加口頭入力も含まないと判断したことに応答して、
前記オーディオデータに対する前記特定の処理のうちの少なくともいくつかの実行、および
前記オーディオデータに合わせて調整された任意の追加の応答アクションの生成の一方または両方を抑制するステップとを含む、
方法。
前記クライアントデバイスの1つまたは複数のマイクロフォンを介してキャプチャされたオーディオデータのストリームを受信するステップと、
前記クライアントデバイスのローカルストレージから、前記クライアントデバイスの人間のユーザのための以前に生成された話者埋め込みを取得するステップと、
前記オーディオデータのストリームを受信しながら、前記オーディオデータの洗練されたバージョンを生成するステップであって、前記オーディオデータの前記洗練されたバージョンが、前記人間のユーザの1つまたは複数の発話を、前記人間の話者からではない任意の追加の音から分離し、前記オーディオデータの前記洗練されたバージョンを生成するステップが、
訓練された生成モデルを使用して前記オーディオデータを処理するとともに、前記処理中に、前記訓練された生成モデルの層のアクティブ化を決定する際に前記話者埋め込みを使用するステップと、
前記処理に基づいて、および前記訓練された生成モデルからの直接出力として、前記オーディオデータの前記洗練されたバージョンを生成するステップとを含み、
前記訓練された生成モデルの前記層が、拡張因果畳み込み層のスタックを含み、前記訓練された生成モデルの前記層の前記アクティブ化を決定する際に前記話者埋め込みを使用するステップが、前記処理において前記拡張因果畳み込み層のアクティブ化を決定する際に前記話者埋め込みを使用するステップを含む、ステップと、
前記オーディオデータの前記洗練されたバージョンに対するローカル音声テキスト化処理を実行するステップ、または
前記オーディオデータの前記洗練されたバージョンに対してリモート音声テキスト化処理を実行させるために、リモートシステムに前記オーディオデータの前記洗練されたバージョンを送信するステップとを含む、
方法。
第1の人間の話者のみからの口頭入力を含むオーディオデータのグラウンドトゥルースオーディオデータを識別するステップと、
前記第1の人間の話者のための話者埋め込みを生成するステップと、
前記第1の人間の話者からのいかなる口頭入力もなく、かつ少なくとも1人の追加の人間の話者からの口頭入力を含む、追加のオーディオデータを識別するステップと、
前記オーディオデータのグラウンドトゥルースオーディオデータと前記追加のオーディオデータとを組み合わせた混合オーディオデータを生成するステップと、
前記機械学習モデルを使用して前記混合オーディオデータを処理するとともに、前記処理中に、前記機械学習モデルの層のアクティブ化を決定する際に前記話者埋め込みを使用するステップであって、前記機械学習モデルの前記層が、拡張因果畳み込み層のスタックを含み、前記機械学習モデルの前記層の前記アクティブ化を決定する際に前記話者埋め込みを使用するステップが、前記処理において前記拡張因果畳み込み層のアクティブ化を決定する際に前記話者埋め込みを使用するステップを含む、ステップと、
前記処理に基づいて、および前記機械学習モデルからの直接出力として、前記オーディオデータの洗練されたバージョンを生成するステップと、
前記オーディオデータの前記洗練されたバージョンを、前記第1の人間の話者のみからの前記口頭入力を含む前記オーディオデータのグラウンドトゥルースオーディオデータと比較することに基づいて、損失を生成するステップと、
前記損失に基づいて、前記機械学習モデルの1つまたは複数の重みを更新するステップとを含む、
方法。
後続のオーディオデータの話者ダイアライゼーションを実行する際に前記機械学習モデルを使用するステップをさらに含む、
請求項15に記載の方法。
デバイス。
少なくとも1つのコンピュータ可読記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022194890A JP7508533B2 (ja) | 2018-09-25 | 2022-12-06 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/052724 WO2020068056A1 (en) | 2018-09-25 | 2018-09-25 | Speaker diarization using speaker embedding(s) and trained generative model |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022194890A Division JP7508533B2 (ja) | 2018-09-25 | 2022-12-06 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021533397A JP2021533397A (ja) | 2021-12-02 |
JP7191987B2 true JP7191987B2 (ja) | 2022-12-19 |
Family
ID=63858134
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020568987A Active JP7191987B2 (ja) | 2018-09-25 | 2018-09-25 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
JP2022194890A Active JP7508533B2 (ja) | 2018-09-25 | 2022-12-06 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022194890A Active JP7508533B2 (ja) | 2018-09-25 | 2022-12-06 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
Country Status (6)
Country | Link |
---|---|
US (3) | US10978059B2 (ja) |
EP (3) | EP3655947B1 (ja) |
JP (2) | JP7191987B2 (ja) |
KR (2) | KR102492783B1 (ja) |
CN (1) | CN112262431B (ja) |
WO (1) | WO2020068056A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633650B2 (en) * | 2013-08-28 | 2017-04-25 | Verint Systems Ltd. | System and method of automated model adaptation |
KR102544250B1 (ko) * | 2018-07-03 | 2023-06-16 | 삼성전자주식회사 | 소리를 출력하는 디바이스 및 그 방법 |
EP3655947B1 (en) * | 2018-09-25 | 2022-03-09 | Google LLC | Speaker diarization using speaker embedding(s) and trained generative model |
US11250838B2 (en) * | 2018-11-16 | 2022-02-15 | Deepmind Technologies Limited | Cross-modal sequence distillation |
JP7017643B2 (ja) * | 2018-12-03 | 2022-02-08 | グーグル エルエルシー | テキスト非依存話者認識 |
US11853812B2 (en) * | 2018-12-20 | 2023-12-26 | Here Global B.V. | Single component data processing system and method utilizing a trained neural network |
US11217254B2 (en) * | 2018-12-24 | 2022-01-04 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
KR102689034B1 (ko) * | 2019-07-01 | 2024-07-25 | 구글 엘엘씨 | 적응형 분리 모델 및 사용자 인터페이스 |
US11514911B2 (en) * | 2019-09-12 | 2022-11-29 | Oracle International Corporation | Reduced training for dialog systems using a database |
US11521592B2 (en) * | 2019-09-24 | 2022-12-06 | Baidu Usa Llc | Small-footprint flow-based models for raw audio |
GB2595222A (en) * | 2020-05-18 | 2021-11-24 | Waves Audio Ltd | Digital audio workstation with audio processing recommendations |
US11328733B2 (en) * | 2020-09-24 | 2022-05-10 | Synaptics Incorporated | Generalized negative log-likelihood loss for speaker verification |
KR102482827B1 (ko) * | 2020-11-30 | 2022-12-29 | 네이버 주식회사 | 화자 임베딩 기반 음성 활동 검출을 이용한 화자 분할 방법, 시스템, 및 컴퓨터 프로그램 |
US11557278B2 (en) * | 2020-12-10 | 2023-01-17 | Google Llc | Speaker dependent follow up actions and warm words |
US20220189501A1 (en) * | 2020-12-16 | 2022-06-16 | Truleo, Inc. | Audio analysis of body worn camera |
KR102560019B1 (ko) * | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
WO2022173989A1 (en) | 2021-02-11 | 2022-08-18 | Nuance Communications, Inc. | Multi-channel speech compression system and method |
EP4330965A1 (en) * | 2021-04-30 | 2024-03-06 | Dolby Laboratories Licensing Corporation | Speaker diarization supporting eposodical content |
US12087307B2 (en) | 2021-11-30 | 2024-09-10 | Samsung Electronics Co., Ltd. | Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals |
US20230169988A1 (en) * | 2021-11-30 | 2023-06-01 | Samsung Electronics Co., Ltd. | Method and apparatus for performing speaker diarization based on language identification |
WO2024035424A1 (en) * | 2022-08-08 | 2024-02-15 | Google Llc | Dynamically determining whether to perform candidate automated assistant action determined from spoken utterance |
KR102685265B1 (ko) | 2022-12-27 | 2024-07-15 | 부산대학교 산학협력단 | 대규모 대화 음성 데이터 분석을 위한 자동 화자 레이블링 방법 및 장치 |
CN116631406B (zh) * | 2023-07-21 | 2023-10-13 | 山东科技大学 | 基于声学特征生成的身份特征提取方法、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017076117A (ja) | 2015-10-16 | 2017-04-20 | グーグル インコーポレイテッド | ホットワード認識 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122672A1 (en) * | 2002-12-18 | 2004-06-24 | Jean-Francois Bonastre | Gaussian model-based dynamic time warping system and method for speech processing |
JP3846500B2 (ja) | 2004-10-22 | 2006-11-15 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US8155961B2 (en) * | 2008-12-09 | 2012-04-10 | Nokia Corporation | Adaptation of automatic speech recognition acoustic models |
US8756062B2 (en) * | 2010-12-10 | 2014-06-17 | General Motors Llc | Male acoustic model adaptation based on language-independent female speech data |
KR101330328B1 (ko) * | 2010-12-14 | 2013-11-15 | 한국전자통신연구원 | 음성 인식 방법 및 이를 위한 시스템 |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9368116B2 (en) * | 2012-09-07 | 2016-06-14 | Verint Systems Ltd. | Speaker separation in diarization |
US9460722B2 (en) | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
US20160293167A1 (en) * | 2013-10-10 | 2016-10-06 | Google Inc. | Speaker recognition using neural networks |
US9324320B1 (en) * | 2014-10-02 | 2016-04-26 | Microsoft Technology Licensing, Llc | Neural network-based speech processing |
US9978374B2 (en) * | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
US10733979B2 (en) * | 2015-10-09 | 2020-08-04 | Google Llc | Latency constraints for acoustic modeling |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US10373612B2 (en) | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US20180018973A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10276161B2 (en) | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
CN108320732A (zh) * | 2017-01-13 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 生成目标说话人语音识别计算模型的方法和装置 |
US10464530B2 (en) * | 2017-01-17 | 2019-11-05 | Nio Usa, Inc. | Voice biometric pre-purchase enrollment for autonomous vehicles |
US10460727B2 (en) * | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
KR101989106B1 (ko) * | 2017-03-31 | 2019-06-13 | 엘지전자 주식회사 | 홈 어플라이언스, 음성 인식 모듈 및 홈 어플라이언스 시스템 |
EP3655947B1 (en) * | 2018-09-25 | 2022-03-09 | Google LLC | Speaker diarization using speaker embedding(s) and trained generative model |
-
2018
- 2018-09-25 EP EP18786558.9A patent/EP3655947B1/en active Active
- 2018-09-25 KR KR1020207035754A patent/KR102492783B1/ko active IP Right Grant
- 2018-09-25 JP JP2020568987A patent/JP7191987B2/ja active Active
- 2018-09-25 CN CN201880094528.6A patent/CN112262431B/zh active Active
- 2018-09-25 US US16/607,977 patent/US10978059B2/en active Active
- 2018-09-25 EP EP24172258.6A patent/EP4383249A3/en active Pending
- 2018-09-25 KR KR1020237002422A patent/KR102535338B1/ko active IP Right Grant
- 2018-09-25 EP EP22152829.2A patent/EP4009321B1/en active Active
- 2018-09-25 WO PCT/US2018/052724 patent/WO2020068056A1/en unknown
-
2021
- 2021-03-29 US US17/215,129 patent/US11735176B2/en active Active
-
2022
- 2022-12-06 JP JP2022194890A patent/JP7508533B2/ja active Active
-
2023
- 2023-08-21 US US18/236,302 patent/US20230395069A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017076117A (ja) | 2015-10-16 | 2017-04-20 | グーグル インコーポレイテッド | ホットワード認識 |
Non-Patent Citations (2)
Title |
---|
Subhadeep Dey,Takafumi Koshinaka,Petr Motlicek ,Srikanth Madikeri,DNN BASED SPEAKER EMBEDDING USING CONTENT INFORMATION FOR TEXT-DEPENDENT SPEAKER VERIFICATION ,2018 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),IEEE,2018年09月13日,5344-5348 |
木下 慶介、荒木 章子、小川 厚徳、中谷 智広、Marc Delcroix、Katerina Zmolikova,SpeakerBeam:聞きたい人の声に耳を傾けるコンピュータ -深層学習に基づく音声の選択的聴取,NTT技術ジャーナル 第30巻 第9号,一般社団法人電気通信協会,2018年09月01日,pp.12-15 |
Also Published As
Publication number | Publication date |
---|---|
EP4009321B1 (en) | 2024-05-01 |
EP3655947B1 (en) | 2022-03-09 |
KR102535338B1 (ko) | 2023-05-26 |
EP3655947A1 (en) | 2020-05-27 |
KR20230018534A (ko) | 2023-02-07 |
KR20210008520A (ko) | 2021-01-22 |
KR102492783B1 (ko) | 2023-01-27 |
EP4009321A1 (en) | 2022-06-08 |
US20230395069A1 (en) | 2023-12-07 |
US11735176B2 (en) | 2023-08-22 |
EP4383249A3 (en) | 2024-07-10 |
CN112262431A (zh) | 2021-01-22 |
US20200342857A1 (en) | 2020-10-29 |
US10978059B2 (en) | 2021-04-13 |
WO2020068056A1 (en) | 2020-04-02 |
JP2021533397A (ja) | 2021-12-02 |
JP7508533B2 (ja) | 2024-07-01 |
US20210217411A1 (en) | 2021-07-15 |
EP4383249A2 (en) | 2024-06-12 |
CN112262431B (zh) | 2024-08-02 |
JP2023029973A (ja) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7191987B2 (ja) | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション | |
US11545157B2 (en) | Speaker diartzation using an end-to-end model | |
US20230206911A1 (en) | Processing natural language using machine learning to determine slot values based on slot descriptors | |
US11922951B2 (en) | Targeted voice separation by speaker conditioned on spectrogram masking | |
CN113614825A (zh) | 用于自动语音识别的字词网格扩增 | |
EP4086904A1 (en) | Speaker awareness using speaker dependent speech model(s) | |
US20220284049A1 (en) | Natural language understanding clarifications | |
US20230197071A1 (en) | Accelerometer-based endpointing measure(s) and /or gaze-based endpointing measure(s) for speech processing | |
US11756533B2 (en) | Hot-word free pre-emption of automated assistant response presentation | |
JP2024147552A (ja) | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション | |
US12125477B2 (en) | Hot-word free pre-emption of automated assistant response presentation | |
US20240331681A1 (en) | Automatic adaptation of the synthesized speech output of a translation application | |
WO2024162986A1 (en) | Semantic parsing using embedding space representations of example natural language queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220628 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7191987 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |