JP7709552B2 - 反復的な話者埋め込みによるエンドツーエンドの話者ダイアライゼーション - Google Patents
反復的な話者埋め込みによるエンドツーエンドの話者ダイアライゼーションInfo
- Publication number
- JP7709552B2 JP7709552B2 JP2023570013A JP2023570013A JP7709552B2 JP 7709552 B2 JP7709552 B2 JP 7709552B2 JP 2023570013 A JP2023570013 A JP 2023570013A JP 2023570013 A JP2023570013 A JP 2023570013A JP 7709552 B2 JP7709552 B2 JP 7709552B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- temporal
- embedding
- embeddings
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
P(et|ht,ui)=softmax(gu(μi)gh(ht)) (1)
式1において、etは、イベントタイプを表し、htは、時間tにおけるそれぞれの時間的埋め込みを表し、uiは、反復iにおける以前に選択された各話者の平均埋め込みを表し、ghは、完全接続ニューラルネットワークを表す。推論中、それぞれの話者埋め込み240に対する信頼度cは、次のように表され得る。
yi∈{0,1}T (4)
式中、i=1, 2, ...Nである。それぞれの音声アクティビティインジケータ(yi,t)262は、対応する時間ステップ(時間ステップtによってインデックス付けされる)において、それぞれの話者(反復iによってインデックス付けされる)10の音声がアクティブ(yi,t=1)であるか、非アクティブ(yi,t=0)であるかを示す。それぞれの音声アクティビティインジケータ262は、時間ステップt中、それぞれの話者が非アクティブであるとき、「0」の値を提供し、それぞれの話者がアクティブであるとき、「1」の値を提供する、2値の話者ごとの音声アクティビティマスクに対応し得る。各話者iについて各時間ステップtにおいて予測された音声アクティビティインジケータ(yi,t)262は、対応する時間ステップに関連付けられた時間的埋め込みht、それぞれの話者について選択されたそれぞれの話者埋め込みsi、および複数の反復中に選択されたすべての話者埋め込みの平均
110 ユーザデバイス
112 データ処理ハードウェア
114 メモリハードウェア
120 発話
122 入力オーディオ信号
130 完全接続ニューラルネットワーク
140 リモートシステム
142 拡張可能な/弾性のあるリソース
144 コンピューティングリソース
146 ストレージリソース
150 自動音声認識(ASR)モジュール
152 ASR結果
152 文字起こし
200 DIVEシステム
210 時間エンコーダ
220 時間的埋め込み
230 反復話者セレクタ
240 話者埋め込み
260 音声アクティビティ検出器
262 音声アクティビティインジケータ
280 ダイアライゼーション結果
301 トレーニングプロセス
302 トレーニングデータ
304 推論
350 話者ラベル
600 コンピュータ実装方法
700 コンピューティングデバイス
710 データ処理ハードウェア
720 メモリハードウェア
730 記憶デバイス
740 高速インターフェース
750 高速拡張ポート
760 低速コントローラ
780 ディスプレイ
790 低速拡張ポート
Claims (30)
- コンピュータ実装方法(600)であって、データ処理ハードウェア(710)上で実行されると、前記データ処理ハードウェア(710)に、
複数の話者(10)によって話された発話(120)に対応する入力オーディオ信号(122)を受信することと、
前記入力オーディオ信号(122)をT個の時間的埋め込み(220)のシーケンスに符号化することであり、各時間的埋め込み(220)が、対応する時間ステップに関連付けられ、前記対応する時間ステップにおいて前記入力オーディオ信号(122)から抽出された音声コンテンツを表す、符号化することと、
前記複数の話者(10)のそれぞれの話者に各々対応する複数の反復の各々の間に、
T個の時間的埋め込み(220)の前記シーケンスにおける各時間的埋め込み(220)について、前記対応する時間的埋め込み(220)が、以前の反復中に話者埋め込み(240)が以前に選択されなかった一人の新しい話者による音声アクティビティの存在を含む確率を決定することと、
前記それぞれの話者についてのそれぞれの話者埋め込み(240)を、前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられたT個の時間的埋め込み(220)の前記シーケンスにおける前記時間的埋め込み(220)として選択することと
によって、前記それぞれの話者についてのそれぞれの話者埋め込み(240)を選択することと、
各時間ステップにおいて、前記複数の反復中に選択された前記それぞれの話者埋め込み(240)および前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)に基づいて、前記複数の話者(10)のそれぞれの話者についてのそれぞれの音声アクティビティインジケータ(262)を予測することであり、前記それぞれの音声アクティビティインジケータ(262)は、前記対応する時間ステップにおいて前記それぞれの話者の音声がアクティブであるか非アクティブであるかを示す、予測することと
を含む動作を実行させる、コンピュータ実装方法(600)。 - 前記受信された入力オーディオ信号(122)における前記発話(120)の少なくとも一部が重複している、請求項1に記載のコンピュータ実装方法(600)。
- 前記入力オーディオ信号(122)が受信されたとき、前記複数の話者(10)の数が不明である、請求項1または2に記載のコンピュータ実装方法(600)。
- 前記動作が、前記入力オーディオ信号(122)を符号化する間に、前記入力オーディオ信号(122)から符号化されたT個の時間的埋め込み(220)の前記シーケンスをダウンサンプリングされた埋め込み空間に投影することをさらに含む、請求項1から3のいずれか一項に記載のコンピュータ実装方法(600)。
- 時間的埋め込み(220)の前記シーケンスにおける各時間的埋め込み(220)についての前記複数の反復の各々の間に、前記対応する時間的埋め込み(220)が前記一人の新しい話者による音声アクティビティの前記存在を含む前記確率を決定することが、前記対応する時間的埋め込み(220)についての可能なイベントタイプの確率分布を決定することを含み、前記可能なイベントタイプが、
前記一人の新しい話者による音声アクティビティの前記存在、
以前の反復中に別のそれぞれの話者埋め込み(240)が以前に選択された、一人の前の話者の音声アクティビティの存在、
重複した音声の存在、および
沈黙の存在
を含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法(600)。 - 前記対応する時間的埋め込み(220)についての可能なイベントタイプの前記確率分布を決定することが、
完全接続ネットワークを有するマルチクラス線形分類器への入力として、前記対応する時間的埋め込み(220)と、以前の反復中に以前に選択されたそれぞれの話者埋め込み(240)の平均を含む以前に選択された話者埋め込み(240)とを受信することと、
完全接続ネットワークを有する前記マルチクラス線形分類器を使用して、前記対応する時間的埋め込み(220)を、前記可能なイベントタイプの各々にマッピングすることと
を含む、請求項5に記載のコンピュータ実装方法(600)。 - 前記マルチクラス線形分類器が、トレーニングオーディオ信号(122)のコーパス上でトレーニングされ、各トレーニングオーディオ信号(122)が、トレーニング時間的埋め込み(220)のシーケンスに符号化され、各トレーニング時間的埋め込み(220)が、それぞれの話者ラベル(350)を含む、請求項6に記載のコンピュータ実装方法(600)。
- 最初の反復に続く各反復中に、前記対応する時間的埋め込み(220)が前記一人の新しい話者による音声アクティビティの前記存在を含む前記確率を決定することが、前記対応する反復に先立つ各反復中に以前に選択された他のそれぞれの話者埋め込み(240)に基づく、請求項1から7のいずれか一項に記載のコンピュータ実装方法(600)。
- 前記動作が、前記複数の反復の各々の間に、
前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率が、信頼度しきい値を満たすかどうかを決定することをさらに含み、
前記それぞれの話者埋め込み(240)を選択することが、前記信頼度しきい値を満たす前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率に条件付けられる、
請求項1から8のいずれか一項に記載のコンピュータ実装方法(600)。 - 前記動作が、前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率が前記信頼度しきい値を満たさないとき、前記複数の反復の各々の間に、前記対応する反復中に前記それぞれの話者埋め込み(240)の選択をバイパスすることをさらに含む、請求項9に記載のコンピュータ実装方法(600)。
- 前記動作が、前記対応する反復中に前記それぞれの話者埋め込み(240)の選択をバイパスした後、前記対応する反復に先立つ前記反復中に以前に選択された話者埋め込み(240)の数に基づいて、前記複数の話者(10)の数Nを決定することをさらに含む、請求項10に記載のコンピュータ実装方法(600)。
- 各時間ステップにおける前記複数の話者(10)のそれぞれの話者についての前記それぞれの音声アクティビティインジケータ(262)を予測することが、前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)、前記それぞれの話者について選択された前記それぞれの話者埋め込み(240)、および前記複数の反復中に選択されたすべての前記話者埋め込み(240)の平均に基づく、請求項1から11のいずれか一項に記載のコンピュータ実装方法(600)。
- 各時間ステップにおける前記複数の話者(10)のそれぞれの話者についての前記それぞれの音声アクティビティインジケータ(262)を予測することが、並列の第1および第2の完全接続ニューラルネットワークを有する音声アクティビティ検出器(260)を使用することを含み、
前記音声アクティビティ検出器(260)の前記第1の完全接続ニューラルネットワーク(130)が、前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)を投影するように構成されており、
前記音声アクティビティ検出器(260)の前記第2の完全接続ニューラルネットワーク(130)が、前記それぞれの話者のために選択された前記それぞれの話者埋め込み(240)と、前記複数の反復中に選択されたすべての前記話者埋め込み(240)の平均との連結を投影するように構成されている、
請求項1から12のいずれか一項に記載のコンピュータ実装方法(600)。 - トレーニングプロセス(301)において、トレーニングオーディオ信号(122)のコーパス上で前記音声アクティビティインジケータ(262)がトレーニングされ、各トレーニングオーディオ信号(122)が、トレーニング時間的埋め込み(220)のシーケンスに符号化され、各トレーニング時間的埋め込み(220)が、対応する話者ラベル(350)を含む、請求項1から13のいずれか一項に記載のコンピュータ実装方法(600)。
- 前記トレーニングプロセス(301)が、話者ターン境界の周りの半径内に入る前記トレーニング時間的埋め込み(220)のいずれかに関連付けられた損失を除去する、カラーアウェアトレーニングプロセス(301)を含む、請求項14に記載のコンピュータ実装方法(600)。
- システム(100)であって、
データ処理ハードウェア(710)と、
前記データ処理ハードウェア(710)と通信しているメモリハードウェア(720)とを備え、前記データ処理ハードウェア(710)によって実行されると、前記データ処理ハードウェア(710)に動作を行わせる命令を記憶し、前記動作が、
複数の話者(10)によって話された発話(120)に対応する入力オーディオ信号(122)を受信することと、
前記入力オーディオ信号(122)をT個の時間的埋め込み(220)のシーケンスに符号化することであり、各時間的埋め込み(220)が、対応する時間ステップに関連付けられ、前記対応する時間ステップにおいて前記入力オーディオ信号(122)から抽出された音声コンテンツを表す、符号化することと、
前記複数の話者(10)のそれぞれの話者に各々対応する複数の反復の各々の間に、
T個の時間的埋め込み(220)の前記シーケンスにおける各時間的埋め込み(220)について、前記対応する時間的埋め込み(220)が、以前の反復中に話者埋め込み(240)が以前に選択されなかった一人の新しい話者による音声アクティビティの存在を含む確率を決定することと、
前記それぞれの話者についてのそれぞれの話者埋め込み(240)を、前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられたT個の時間的埋め込み(220)の前記シーケンスにおける前記時間的埋め込み(220)として選択することと
によって、前記それぞれの話者についてのそれぞれの話者埋め込み(240)を選択することと、
各時間ステップにおいて、前記複数の反復中に選択された前記それぞれの話者埋め込み(240)および前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)に基づいて、前記複数の話者(10)のそれぞれの話者についてのそれぞれの音声アクティビティインジケータ(262)を予測することであり、前記それぞれの音声アクティビティインジケータ(262)は、前記対応する時間ステップにおいて前記それぞれの話者の音声がアクティブであるか非アクティブであるかを示す、予測することと
を含む、システム(100)。 - 前記受信された入力オーディオ信号(122)における前記発話(120)の少なくとも一部が重複している、請求項16に記載のシステム(100)。
- 前記入力オーディオ信号(122)が受信されたとき、前記複数の話者(10)の数が不明である、請求項16または17に記載のシステム(100)。
- 前記動作が、前記入力オーディオ信号(122)を符号化する間に、前記入力オーディオ信号(122)から符号化されたT個の時間的埋め込み(220)の前記シーケンスをダウンサンプリングされた埋め込み空間に投影することをさらに含む、請求項16から18のいずれか一項に記載のシステム(100)。
- 時間的埋め込み(220)の前記シーケンスにおける各時間的埋め込み(220)についての前記複数の反復の各々の間に、前記対応する時間的埋め込み(220)が前記一人の新しい話者による音声アクティビティの前記存在を含む前記確率を決定することが、前記対応する時間的埋め込み(220)についての可能なイベントタイプの確率分布を決定することを含み、前記可能なイベントタイプが、
前記一人の新しい話者による音声アクティビティの前記存在、
以前の反復中に別のそれぞれの話者埋め込み(240)が以前に選択された、一人の前の話者の音声アクティビティの存在、
重複した音声の存在、および
沈黙の存在
を含む、請求項16から19のいずれか一項に記載のシステム(100)。 - 前記対応する時間的埋め込み(220)についての可能なイベントタイプの前記確率分布を決定することが、
完全接続ネットワーク(130)を有するマルチクラス線形分類器への入力として、前記対応する時間的埋め込み(220)と、以前の反復中に以前に選択されたそれぞれの話者埋め込み(240)の平均を含む以前に選択された話者埋め込み(240)とを受信することと、
完全接続ネットワーク(130)を有する前記マルチクラス線形分類器を使用して、前記対応する時間的埋め込み(220)を、前記可能なイベントタイプの各々にマッピングすることと
を含む、請求項20に記載のシステム(100)。 - 前記マルチクラス線形分類器が、トレーニングオーディオ信号(122)のコーパス上でトレーニングされ、各トレーニングオーディオ信号(122)が、トレーニング時間的埋め込み(220)のシーケンスに符号化され、各トレーニング時間的埋め込み(220)が、それぞれの話者ラベル(350)を含む、請求項21に記載のシステム(100)。
- 最初の反復に続く各反復中に、前記対応する時間的埋め込み(220)が前記一人の新しい話者による音声アクティビティの前記存在を含む前記確率を決定することが、前記対応する反復に先立つ各反復中に以前に選択された他のそれぞれの話者埋め込み(240)に基づく、請求項16から22のいずれか一項に記載のシステム(100)。
- 前記動作が、前記複数の反復の各々の間に、
前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率が、信頼度しきい値を満たすかどうかを決定することをさらに含み、
前記それぞれの話者埋め込み(240)を選択することが、前記信頼度しきい値を満たす前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率に条件付けられる、
請求項16から23のいずれか一項に記載のシステム(100)。 - 前記動作が、前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率が前記信頼度しきい値を満たさないとき、前記複数の反復の各々の間に、前記対応する反復中に前記それぞれの話者埋め込み(240)の選択をバイパスすることをさらに含む、請求項24に記載のシステム(100)。
- 前記動作が、前記対応する反復中に前記それぞれの話者埋め込み(240)の選択をバイパスした後、前記対応する反復に先立つ前記反復中に以前に選択された話者埋め込み(240)の数に基づいて、前記複数の話者(10)の数Nを決定することをさらに含む、請求項25に記載のシステム(100)。
- 各時間ステップにおける前記複数の話者(10)のそれぞれの話者についての前記それぞれの音声アクティビティインジケータ(262)を予測することが、前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)、前記それぞれの話者について選択された前記それぞれの話者埋め込み(240)、および前記複数の反復中に選択されたすべての前記話者埋め込み(240)の平均に基づく、請求項16から26のいずれか一項に記載のシステム(100)。
- 各時間ステップにおける前記複数の話者(10)のそれぞれの話者についての前記それぞれの音声アクティビティインジケータ(262)を予測することが、並列の第1および第2の完全接続ニューラルネットワークを有する音声アクティビティ検出器(260)を使用することを含み、
前記音声アクティビティ検出器(260)の前記第1の完全接続ニューラルネットワーク(130)が、前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)を投影するように構成されており、
前記音声アクティビティ検出器(260)の前記第2の完全接続ニューラルネットワーク(130)が、前記それぞれの話者のために選択された前記それぞれの話者埋め込み(240)と、前記複数の反復中に選択されたすべての前記話者埋め込み(240)の平均との連結を投影するように構成されている、
請求項16から27のいずれか一項に記載のシステム(100)。 - トレーニングプロセス(301)において、トレーニングオーディオ信号(122)のコーパス上で前記音声アクティビティインジケータ(262)がトレーニングされ、各トレーニングオーディオ信号(122)が、トレーニング時間的埋め込み(220)のシーケンスに符号化され、各トレーニング時間的埋め込み(220)が、対応する話者ラベル(350)を含む、請求項16から28のいずれか一項に記載のシステム(100)。
- 前記トレーニングプロセス(301)が、話者ターン境界の周りの半径内に入る前記トレーニング時間的埋め込み(220)のいずれかに関連付けられた損失を除去する、カラーアウェアトレーニングプロセス(301)を含む、請求項29に記載のシステム(100)。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202163187336P | 2021-05-11 | 2021-05-11 | |
| US63/187,336 | 2021-05-11 | ||
| PCT/US2021/070748 WO2022240449A1 (en) | 2021-05-11 | 2021-06-22 | End-to-end speech diarization via iterative speaker embedding |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024520933A JP2024520933A (ja) | 2024-05-27 |
| JP7709552B2 true JP7709552B2 (ja) | 2025-07-16 |
Family
ID=76943181
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023570013A Active JP7709552B2 (ja) | 2021-05-11 | 2021-06-22 | 反復的な話者埋め込みによるエンドツーエンドの話者ダイアライゼーション |
Country Status (6)
| Country | Link |
|---|---|
| US (2) | US11887623B2 (ja) |
| EP (1) | EP4323988B1 (ja) |
| JP (1) | JP7709552B2 (ja) |
| KR (1) | KR20230175258A (ja) |
| CN (1) | CN117337467A (ja) |
| WO (1) | WO2022240449A1 (ja) |
Families Citing this family (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11810572B2 (en) * | 2020-03-18 | 2023-11-07 | Sas Institute Inc. | Multi-threaded speaker identification |
| US12087307B2 (en) * | 2021-11-30 | 2024-09-10 | Samsung Electronics Co., Ltd. | Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals |
| CN113920988B (zh) * | 2021-12-03 | 2022-03-22 | 深圳比特微电子科技有限公司 | 语音唤醒方法、装置及可读存储介质 |
| US11978457B2 (en) * | 2022-02-15 | 2024-05-07 | Gong.Io Ltd | Method for uniquely identifying participants in a recorded streaming teleconference |
| US12165646B2 (en) * | 2022-04-29 | 2024-12-10 | Zoom Video Communications, Inc. | Delta models for providing privatized speech-to-text during virtual meetings |
| US12198677B2 (en) * | 2022-05-27 | 2025-01-14 | Tencent America LLC | Techniques for end-to-end speaker diarization with generalized neural speaker clustering |
| US12164859B2 (en) | 2022-06-01 | 2024-12-10 | Gong.Io Ltd | Method for summarization and ranking of text of diarized conversations |
| CN116204643B (zh) * | 2023-01-06 | 2025-12-12 | 科大国创云网科技有限公司 | 一种基于多任务学习知识增强的级联标签分类方法 |
| CN117012229A (zh) * | 2023-07-31 | 2023-11-07 | 华中师范大学 | 一种多说话人重叠语音检测方法及系统 |
| US20250078842A1 (en) * | 2023-08-30 | 2025-03-06 | Nvidia Corporation | Multi-speaker speech recognition facilitated by language models |
| CN117392986B (zh) * | 2023-12-11 | 2024-05-14 | 杭州网易云音乐科技有限公司 | 声纹处理方法、装置、设备、存储介质和程序产品 |
| US20250342840A1 (en) * | 2024-05-01 | 2025-11-06 | Oracle International Corporation | Audio Processing Engine Using Segmentation And Pruning |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022541380A (ja) | 2019-09-05 | 2022-09-26 | ザ・ジョンズ・ホプキンス・ユニバーシティ | ニューラルネットワークを使用した音声入力の複数話者ダイアライゼーション |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10650813B2 (en) * | 2017-05-25 | 2020-05-12 | International Business Machines Corporation | Analysis of content written on a board |
| US11276407B2 (en) * | 2018-04-17 | 2022-03-15 | Gong.Io Ltd. | Metadata-based diarization of teleconferences |
| US11152013B2 (en) * | 2018-08-02 | 2021-10-19 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for a triplet network with attention for speaker diartzation |
| US11170761B2 (en) * | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
| US11031017B2 (en) * | 2019-01-08 | 2021-06-08 | Google Llc | Fully supervised speaker diarization |
| US11790921B2 (en) * | 2020-08-04 | 2023-10-17 | OTO Systems Inc. | Speaker separation based on real-time latent speaker state characterization |
-
2021
- 2021-06-22 JP JP2023570013A patent/JP7709552B2/ja active Active
- 2021-06-22 KR KR1020237039981A patent/KR20230175258A/ko active Pending
- 2021-06-22 US US17/304,514 patent/US11887623B2/en active Active
- 2021-06-22 CN CN202180098156.6A patent/CN117337467A/zh active Pending
- 2021-06-22 EP EP21742664.2A patent/EP4323988B1/en active Active
- 2021-06-22 WO PCT/US2021/070748 patent/WO2022240449A1/en not_active Ceased
-
2023
- 2023-12-19 US US18/544,647 patent/US20240144957A1/en active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022541380A (ja) | 2019-09-05 | 2022-09-26 | ザ・ジョンズ・ホプキンス・ユニバーシティ | ニューラルネットワークを使用した音声入力の複数話者ダイアライゼーション |
Non-Patent Citations (1)
| Title |
|---|
| Neil Zeghidour et al.,DIVE: End-to-end Speech Diarization via Iterative Speaker Embedding,[online],2021年05月28日,[検索日 2025年01月23日], 取得先 <https://arxiv.org/pdf/2105.13802> |
Also Published As
| Publication number | Publication date |
|---|---|
| US11887623B2 (en) | 2024-01-30 |
| US20240144957A1 (en) | 2024-05-02 |
| CN117337467A (zh) | 2024-01-02 |
| EP4323988A1 (en) | 2024-02-21 |
| WO2022240449A1 (en) | 2022-11-17 |
| KR20230175258A (ko) | 2023-12-29 |
| EP4323988B1 (en) | 2025-08-13 |
| US20220375492A1 (en) | 2022-11-24 |
| JP2024520933A (ja) | 2024-05-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7709552B2 (ja) | 反復的な話者埋め込みによるエンドツーエンドの話者ダイアライゼーション | |
| CN113272894B (zh) | 完全监督的说话者日志化 | |
| US12482470B2 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
| CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
| US20210118424A1 (en) | Predicting personality traits based on text-speech hybrid data | |
| US20250086317A1 (en) | Personal information redaction and voice deidentification | |
| US20250373759A1 (en) | Systems and methods for reconstructing video data using contextually-aware multi-modal generation during signal loss | |
| CN114333772B (zh) | 语音识别方法、装置、设备、可读存储介质及产品 | |
| CN115497511A (zh) | 语音活动检测模型的训练及检测方法、装置、设备和介质 | |
| CN113111855B (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
| US12334048B2 (en) | Systems and methods for reconstructing voice packets using natural language generation during signal loss | |
| WO2024076365A1 (en) | Accelerating speaker diarization with multi-stage clustering | |
| CN116882418A (zh) | 为对话数据生成情景任务的方法、装置、计算设备和介质 | |
| US20250335711A1 (en) | Longform Speaker Diarization By Prompting Multimodal LLM With Chunk-Wise In-Context Self-Enrollment |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231215 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250128 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250212 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250325 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250610 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250704 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7709552 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |