JP2020527248A - 話者分離モデルの訓練方法、両話者の分離方法及び関連設備 - Google Patents
話者分離モデルの訓練方法、両話者の分離方法及び関連設備 Download PDFInfo
- Publication number
- JP2020527248A JP2020527248A JP2019572830A JP2019572830A JP2020527248A JP 2020527248 A JP2020527248 A JP 2020527248A JP 2019572830 A JP2019572830 A JP 2019572830A JP 2019572830 A JP2019572830 A JP 2019572830A JP 2020527248 A JP2020527248 A JP 2020527248A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- vector
- voice
- speaker
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 170
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 title claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 156
- 230000008569 process Effects 0.000 claims abstract description 39
- 238000007781 pre-processing Methods 0.000 claims abstract description 32
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 230000005236 sound signal Effects 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 36
- 238000010606 normalization Methods 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 abstract description 9
- 230000007774 longterm Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 81
- 238000000605 extraction Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 238000002955 isolation Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】本願発明の話者分離モデル訓練方法は、複数のオーディオデータを取得して前処理を行い、前処理後のオーディオデータのオーディオ特徴を抽出するステップと、オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、第1話者の第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を計算するステップと、第1話者の第1ベクトル特徴と第2話者の第3ベクトル特徴との間の第2類似度を計算するステップと、第1類似度と第2類似度の損失関数値を計算し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、話者分離モデルのパラメータをアップデートするステップと、を備える。また、本願発明は両話者分離方法、端末及び記憶媒体を提供する。話者分離モデルが入力したオーディオデータの特徴を抽出する能力を顕著に増強し、両話者の分離精度を向上させ、特に長時間対話の分離タスクでより良い分離効果が得られる。
【選択図】図1
Description
複数の人の、複数のオーディオデータを取得するステップと、
オーディオデータごとに前処理を行うステップと、
前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、前記第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出するステップと、
第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル特徴と前記第3ベクトル特徴との間の第2類似度を算出するステップと、
前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、を備えることを特徴とする話者分離モデルの訓練方法を提供する。
1)分離待機の音声信号を前処理するステップと、
2)前記前処理後の音声信号の開始位置から、左右に隣接する第1スライド窓および第2スライド窓を確立し、前記第1スライド窓および第2スライド窓の分割点に基づき、第1音声セグメントおよび第2音声セグメントを得るステップと、
3)請求項1から5のいずれか1項に記載の訓練方法で話者分離モデル得られ、前記話者分離モデルに前記第1音声セグメントを転送し、特徴を抽出して第1音声ベクトルを得、前記話者分離モデルに前記第2音声セグメントを転送し、特徴を抽出して第2音声ベクトルを得るステップと、
4)前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
5)前記第1スライド窓と前記第2スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第2スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ2)〜5)を繰り返すステップと、
6)各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
7)前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
8)前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングするステップと、を備えることを特徴とする両話者分離方法を提供する。
プロセッサと記憶装置とを備え、プロセッサが記憶装置に記憶されたコンピュータ可読命令を実行させる際、前記話者分離モデル訓練方法および/または前記両話者分離方法を実現する端末を提供する。
図1は本願発明の実施例1係る話者分離モデルの訓練方法を示すフローチャートである。
1)オーディオデータに雑音低減処理を行う。
2)雑音低減処理後のオーディオデータに対して音声区間検出(Voice Activity Detection、VAD)を行い、無効な音声を削除し、標準オーディオデータサンプルが得られる。
3)前記標準オーディオデータサンプルが属する話者を示すために、標準オーディオデータサンプルにタグ付けする。
1)前記オーディオ特徴を前記第1畳み込み層に入力して第1畳み込み処理を行い、第1畳み込み特徴を得る。
2)前記第1畳み込み特徴を前記第1正規化線形ユニットに入力して第1正規化線形処理を行い、第1正規化線形特徴を得る。
3)前記第1正規化線形特徴を前記第2畳み込み層に入力して第2畳み込み処理を行い、第2畳み込み特徴を得る。
4)前記オーディオ特徴と前記第2畳み込み特徴とを合算して前記第2正規化線形ユニットに入力し、第2正規化線形特徴を得る。
5)前記第2正規化線形特徴を、前記平均化層、全結合層、単位長正規化層に順次入力して処理し、1次元ベクトル特徴を得る。
図2は本願発明の実施例2に係る両話者分離方法を示すフローチャートである。
1)プリエンファシス処理
本実施例では、分離待機の音声信号に対してデジタルフィルタを用いてプリエンファシス処理を施し、高周波数部の音声信号を上げることができる。
2)フレーム分割処理
分離待機の音声信号を、予め設定されたフレーム分割パラメータに基づき、フレーム分割を行い、前記予め設定されたフレーム分割パラメータは、例えばフレーム長が10〜30msであり、好ましくは25msおきにフレーム分割を行なって、複数の複数の音声フレームが得られる。
図4は本願発明に係る話者分離モデルの訓練装置を示す好適な実施例の機能モジュール図である。
1)オーディオデータに雑音低減処理を行う。
2)雑音低減処理後のオーディオデータに対して音声区間検出(Voice Activity Detection、VAD)を行い、無効な音声を削除し、標準オーディオデータサンプルが得られる。
3)前記標準オーディオデータサンプルが属する話者を示すために、標準オーディオデータサンプルにタグ付けする。
1)前記オーディオ特徴を前記第1畳み込み層に入力して第1畳み込み処理を行い、第1畳み込み特徴を得る。
2)前記第1畳み込み特徴を前記第1正規化線形ユニットに入力して第1正規化線形処理を行い、第1正規化線形特徴を得る。
3)前記第1正規化線形特徴を前記第2畳み込み層に入力して第2畳み込み処理を行い、第2畳み込み特徴を得る。
4)前記オーディオ特徴と前記第2畳み込み特徴とを合算して前記第2正規化線形ユニットに入力し、第2正規化線形特徴を得る。
5)前記第2正規化線形特徴を、前記平均化層、全結合層、単位長正規化層に順次入力して処理し、1次元ベクトル特徴を得る。
図5は本願発明係る両話者分離装置を示す好適な実施例の機能モジュール図である。
1)プリエンファシス処理
本実施例では、分離待機の音声信号に対してデジタルフィルタを用いてプリエンファシス処理を施し、高周波数部の音声信号を上げることができる。
2)フレーム分割処理
分離待機の音声信号を、予め設定されたフレーム分割パラメータに基づき、フレーム分割を行い、前記予め設定されたフレーム分割パラメータは例えば、フレーム長が10〜30msであり、好ましくは25msおきにフレーム分割を行なって、複数の複数の音声フレームが得られる。
図6は本願発明の実施例5に係る端末の概念図である。
Claims (20)
- 話者分離モデル訓練方法であって、
複数の人の、複数のオーディオデータを取得するステップと、
オーディオデータごとに前処理を行うステップと、
前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、前記第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出するステップと、
第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル 特徴と前記第3ベクトル特徴との間の第2類似度を算出するステップと、
前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、
を備えることを特徴とする話者分離モデル訓練方法。 - 前記オーディオデータに前処理を行うステップは、
前記オーディオデータに雑音低減処理を行うステップと、
雑音低減処理後のオーディオデータに対して音声区間検出を行い、無効な音声を削除し、標準オーディオデータサンプルを得るステップと、
前記標準オーディオデータサンプルにタグ付けて、前記標準オーディオデータサンプルが属する話者を示すようにするステップと、
を備えることを特徴とする請求項1記載の話者分離モデル訓練方法。 - 前記予め設定されたニューラルネットワークモデルは、予め設定された層数を採用したニューラルネットワーク構造を積層されて構成され、各層のニューラルネットワーク構造は、第1畳み込み層、第1正規化線形ユニット、第2畳み込み層、第2正規化線形ユニット、平均化層、全結合層、単位長正規化層を備え、そのうち前記畳み込み層の畳み込みカーネルは3*3であり、ステップサイズは1*1であり、チャンネル数は64であり、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力し訓練してベクトル特徴を得るステップは、
前記オーディオ特徴を前記第1畳み込み層に入力して第1畳み込み処理を行い、第1畳み込み特徴を得るステップと、
前記第1畳み込み特徴を前記第1正規化線形ユニットに入力して第1正規化線形処理を行い、第1正規化線形特徴を得るステップと、
前記第1正規化線形特徴を前記第2畳み込み層に入力して第2畳み込み処理を行い、第2畳み込み特徴を得るステップと、
前記オーディオ特徴と前記第2畳み込み特徴とを合算して前記第2正規化線形ユニットに入力し、第2正規化線形特徴を得るステップと、
前記第2正規化線形特徴を、前記平均化層、全結合層、単位長正規化層に順次入力して処理し、1次元ベクトル特徴を得るサブステップと、を備えることを特徴とする請求項1または2記載の話者分離モデル訓練方法。 - 両話者分離方法であって、
1)分離待機の音声信号を前処理するステップと、
2)前記前処理後の音声信号の開始位置から、左右に隣接する第1スライド窓および第2スライド窓を確立し、前記第1スライド窓および第2スライド窓の分割点に基づき、第1音声セグメントおよび第 2音声セグメントを得るステップと、
3)請求項1から5のいずれか1項に記載の訓練方法で話者分離モデルが得られ、前記話者分離モデルに前記第1音声セグメントを転送し、特徴を抽出して第1音声ベクトルを得、前記話者分離モデルに前記第2音声セグメントを転送し、特徴を抽出して第2音声ベクトルを得るステップと、
4)前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
5)前記第1スライド窓と前記第2スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第2スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ2)〜5)を繰り返すステップと、
6)各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
7)前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
8)前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングするステップと、
を備えることを特徴とする両話者分離方法。 - 前記距離値に基づき局所最大値を決定するステップは、
分割点を横軸に、分割点に対応する距離値を縦軸に、滑らかな曲線を描くステップと、
前記曲線における点の接線を求解するステップと、
接線の傾斜がゼロである点に対応する距離値を局所最大値として決定すると、
ステップを備えることを特徴とする請求項6記載の両話者分離方法。 - プロセッサと記憶装置とを備える端末であって、前記プロセッサが、前記記憶装置に記憶されたコンピュータ可読命令を実行させる際、
複数の人の、複数のオーディオデータを取得するステップと、
オーディオデータごとに前処理を行うステップと、
前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、前記第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出するステップと、
第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル特徴と前記第3ベクトル特徴との間の第2類似度を算出するステップと、
前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、
を実現することを特徴とする端末。 - 前記オーディオデータに前処理を行うステップは、
前記オーディオデータに雑音低減処理を行うステップと、
雑音低減処理後のオーディオデータに対して音声区間検出を行い、無効な音声を削除し、標準オーディオデータサンプルを得るステップと、
前記標準オーディオデータサンプルにタグ付けて、前記標準オーディオデータサンプルが属する話者を示すようにするステップと、
を備えることを特徴とする請求項9記載の端末。 - 前記予め設定されたニューラルネットワークモデルは、予め設定された層数を採用したニューラルネットワーク構造を積層されて構成され、各層のニューラルネットワーク構造は、第1畳み込み層、第1正規化線形ユニット、第10畳み込み層、第2正規化線形ユニット、平均化層、全結合層、単位長正規化層を備え、そのうち前記畳み込み層の畳み込みカーネルは3*3であり、ステップサイズは1*1であり、チャンネル数は64であり、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力し訓練してベクトル特徴を得るステップは、
前記オーディオ特徴を前記第1畳み込み層に入力して第1畳み込み処理を行い、第1畳み込み特徴を得るステップと、
前記第1畳み込み特徴を前記第1正規化線形ユニットに入力して第1正規化線形処理を行い、第1正規化線形特徴を得るステップと、
前記第1正規化線形特徴を前記第2畳み込み層に入力して第2畳み込み処理を行い、第2畳み込み特徴を得るステップと、
前記オーディオ特徴と前記第2畳み込み特徴とを合算して前記第2正規化線形ユニットに入力し、第2正規化線形特徴を得るサブステップと、
前記第2正規化線形特徴を、前記平均化層、アファイン層、単位長正規化層に順次入力して処理し、1次元ベクトル特徴を得るステップと、を備えることを特徴とする請求項9または10記載の端末。 - プロセッサと記憶装置とを備える端末であって、前記プロセッサが前記記憶装置に記憶されたコンピュータ可読命令を実行させる際、
1)分離待機の音声信号を前処理するステップと、
2)前記前処理後の音声信号の開始位置から、左右に隣接する第1スライド窓および第2スライド窓を確立し、前記第1スライド窓および第2スライド窓の分割点に基づき、第1音声セグメントおよび第2音声セグメントを得るステップと、
3)請求項9から10のいずれか1項に記載の端末における訓練で話者分離モデルが得られ、前記話者分離モデルに前記第1音声セグメントを転送し、特徴を抽出して第1音声ベクトルを得、前記話者分離モデルに前記第2音声セグメントを転送し、特徴を抽出して第2音声ベクトルを得るステップと、
4)前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
5)前記第1スライド窓と前記第2スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第2スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ2)〜5)を繰り返すステップと、
6)各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
7)前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
8)前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングするステップと、を実現することを特徴とする端末。 - 不揮発性可読記憶媒体であって、前記不揮発性可読記憶媒体にコンピュータ可読命令が格納されており、プロセッサによって前記コンピュータ可読命令が実行される際、
複数の人の、複数のオーディオデータを取得するステップと、
オーディオデータごとに前処理を行うステップと、
前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、前記第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出するステップと、
第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル特徴と前記第3ベクトル特徴との間の第2類似度を算出するステップと、
前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、
を実現することを特徴とする不揮発性可読記憶媒体。 - 前記オーディオデータに前処理を実行するステップは、
前記オーディオデータに雑音低減処理を行うステップと、
雑音低減処理後のオーディオデータに対して音声区間検出を行い、無効な音声を削除し、標準オーディオデータサンプルを得るステップと、
前記標準オーディオデータサンプルにタグ付けて、前記標準オーディオデータサンプルが属する話者を示すようにするステップと、
を備えることを特徴とする請求項15記載の記憶媒体。 - 前記予め設定されたニューラルネットワークモデルは、予め設定された層数を採用したニューラルネットワーク構造を積層されて構成され、各層のニューラルネットワーク構造は、第1畳み込み層、第1正規化線形ユニット、第10畳み込み層、第2正規化線形ユニット、平均化層、全結合層、単位長正規化層を備え、そのうち前記畳み込み層の畳み込みカーネルは3*3であり、ステップサイズは1*1であり、チャンネル数は64であり、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力し訓練してベクトル特徴を得るステップは、
前記オーディオ特徴を前記第1畳み込み層に入力して第1畳み込み処理を行い、第1畳み込み特徴を得るステップと、
前記第1畳み込み特徴を前記第1正規化線形ユニットに入力して第1正規化線形処理を行い、第1正規化線形特徴を得るステップと、
前記第1正規化線形特徴を前記第2畳み込み層に入力して第2畳み込み処理を行い、第2畳み込み特徴を得るステップと、
前記オーディオ特徴と前記第2畳み込み特徴とを合算して前記第2正規化線形ユニットに入力し、第2正規化線形特徴を得るステップと、
前記第2正規化線形特徴を、前記平均化層、アファイン層、単位長正規化層に順次入力して処理し、1次元ベクトル特徴を得るステップと、を備えることを特徴とする請求項15または16記載の記憶媒体。 - 不揮発性可読記憶媒体であって、前記不揮発性可読記憶媒体にコンピュータ可読命令が格納されており、プロセッサによって前記コンピュータ可読命令が実行される際、
1)分離待機の音声信号を前処理するステップと、
2)前記前処理後の音声信号の開始位置から、左右に隣接する第1スライド窓および第2スライド窓を確立し、前記第1スライド窓および第2スライド窓の分割点に基づき、第1音声セグメントおよび第2音声セグメントを得るステップと、
3)請求項13に記載の記憶媒体に格納されたコンピュータ可読命令がプロセッサによって実行される際に話者分離モデルが得られ、前記話者分離モデルに前記第1音声セグメントを転送し、特徴を抽出して第1音声ベクトルを得、前記話者分離モデルに前記第2音声セグメントを転送し、特徴を抽出して第2音声ベクトルを得るステップと、
4)前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
5)前記第1スライド窓と前記第2スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第2スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ2)〜5)を繰り返すステップと、
6)各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
7)前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
8)前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングするステップと、を実現することを特徴とする不揮発性可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810519521.6 | 2018-05-28 | ||
CN201810519521.6A CN108766440B (zh) | 2018-05-28 | 2018-05-28 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
PCT/CN2018/100174 WO2019227672A1 (zh) | 2018-05-28 | 2018-08-13 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020527248A true JP2020527248A (ja) | 2020-09-03 |
Family
ID=64006219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019572830A Pending JP2020527248A (ja) | 2018-05-28 | 2018-08-13 | 話者分離モデルの訓練方法、両話者の分離方法及び関連設備 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11158324B2 (ja) |
JP (1) | JP2020527248A (ja) |
CN (1) | CN108766440B (ja) |
SG (1) | SG11202003722SA (ja) |
WO (1) | WO2019227672A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023281717A1 (ja) * | 2021-07-08 | 2023-01-12 | 日本電信電話株式会社 | 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム |
WO2023047475A1 (ja) * | 2021-09-21 | 2023-03-30 | 日本電信電話株式会社 | 推定装置、推定方法、および、推定プログラム |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109545186B (zh) * | 2018-12-16 | 2022-05-27 | 魔门塔(苏州)科技有限公司 | 一种语音识别训练系统及方法 |
CN109686382A (zh) * | 2018-12-29 | 2019-04-26 | 平安科技(深圳)有限公司 | 一种说话人聚类方法和装置 |
CN110197665B (zh) * | 2019-06-25 | 2021-07-09 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
CN110444223B (zh) * | 2019-06-26 | 2023-05-23 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
CN110289002B (zh) * | 2019-06-28 | 2021-04-27 | 四川长虹电器股份有限公司 | 一种端到端的说话人聚类方法及系统 |
CN110390946A (zh) * | 2019-07-26 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音信号处理方法、装置、电子设备和存储介质 |
CN110718228B (zh) * | 2019-10-22 | 2022-04-12 | 中信银行股份有限公司 | 语音分离方法、装置、电子设备及计算机可读存储介质 |
CN111312256B (zh) * | 2019-10-31 | 2024-05-10 | 平安科技(深圳)有限公司 | 语音身份识别的方法、装置及计算机设备 |
CN110853618B (zh) * | 2019-11-19 | 2022-08-19 | 腾讯科技(深圳)有限公司 | 一种语种识别的方法、模型训练的方法、装置及设备 |
CN110992940B (zh) | 2019-11-25 | 2021-06-15 | 百度在线网络技术(北京)有限公司 | 语音交互的方法、装置、设备和计算机可读存储介质 |
CN110992967A (zh) * | 2019-12-27 | 2020-04-10 | 苏州思必驰信息科技有限公司 | 一种语音信号处理方法、装置、助听器及存储介质 |
CN111145761B (zh) * | 2019-12-27 | 2022-05-24 | 携程计算机技术(上海)有限公司 | 模型训练的方法、声纹确认的方法、系统、设备及介质 |
CN111191787B (zh) * | 2019-12-30 | 2022-07-15 | 思必驰科技股份有限公司 | 提取说话人嵌入特征的神经网络的训练方法和装置 |
CN111370032B (zh) * | 2020-02-20 | 2023-02-14 | 厦门快商通科技股份有限公司 | 语音分离方法、系统、移动终端及存储介质 |
JP7359028B2 (ja) * | 2020-02-21 | 2023-10-11 | 日本電信電話株式会社 | 学習装置、学習方法、および、学習プログラム |
CN111370019B (zh) * | 2020-03-02 | 2023-08-29 | 字节跳动有限公司 | 声源分离方法及装置、神经网络的模型训练方法及装置 |
CN111009258A (zh) * | 2020-03-11 | 2020-04-14 | 浙江百应科技有限公司 | 一种单声道说话人分离模型、训练方法和分离方法 |
US11392639B2 (en) * | 2020-03-31 | 2022-07-19 | Uniphore Software Systems, Inc. | Method and apparatus for automatic speaker diarization |
CN111477240B (zh) * | 2020-04-07 | 2023-04-07 | 浙江同花顺智能科技有限公司 | 音频处理方法、装置、设备和存储介质 |
CN111524521B (zh) * | 2020-04-22 | 2023-08-08 | 北京小米松果电子有限公司 | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 |
CN111524527B (zh) * | 2020-04-30 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 话者分离方法、装置、电子设备和存储介质 |
CN111613249A (zh) * | 2020-05-22 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种语音分析方法和设备 |
CN111640438B (zh) * | 2020-05-26 | 2023-09-05 | 同盾控股有限公司 | 音频数据处理方法、装置、存储介质及电子设备 |
CN111680631B (zh) * | 2020-06-09 | 2023-12-22 | 广州视源电子科技股份有限公司 | 模型训练方法及装置 |
CN111785291A (zh) * | 2020-07-02 | 2020-10-16 | 北京捷通华声科技股份有限公司 | 语音分离方法和语音分离装置 |
CN111933153B (zh) * | 2020-07-07 | 2024-03-08 | 北京捷通华声科技股份有限公司 | 一种语音分割点的确定方法和装置 |
CN111985934A (zh) * | 2020-07-30 | 2020-11-24 | 浙江百世技术有限公司 | 智能客服对话模型构建方法及应用 |
CN111899755A (zh) * | 2020-08-11 | 2020-11-06 | 华院数据技术(上海)有限公司 | 一种说话人语音分离方法及相关设备 |
CN112071329B (zh) * | 2020-09-16 | 2022-09-16 | 腾讯科技(深圳)有限公司 | 一种多人的语音分离方法、装置、电子设备和存储介质 |
CN112071330B (zh) * | 2020-09-16 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、设备以及计算机可读存储介质 |
CN112489682B (zh) * | 2020-11-25 | 2023-05-23 | 平安科技(深圳)有限公司 | 音频处理方法、装置、电子设备和存储介质 |
CN112700766B (zh) * | 2020-12-23 | 2024-03-19 | 北京猿力未来科技有限公司 | 语音识别模型的训练方法及装置、语音识别方法及装置 |
CN112289323B (zh) * | 2020-12-29 | 2021-05-28 | 深圳追一科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN112820292B (zh) * | 2020-12-29 | 2023-07-18 | 平安银行股份有限公司 | 生成会议纪要的方法、装置、电子装置及存储介质 |
JP2023511241A (ja) * | 2020-12-31 | 2023-03-17 | 商▲湯▼国▲際▼私人有限公司 | ニューラルネットワークのトレーニング方法と装置、および、関連対象検出方法と装置 |
KR20220115453A (ko) * | 2021-02-10 | 2022-08-17 | 삼성전자주식회사 | 음성 구간 인식의 향상을 지원하는 전자 장치 |
KR20220136750A (ko) | 2021-04-01 | 2022-10-11 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
KR20220169242A (ko) * | 2021-06-18 | 2022-12-27 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 개인화된 음성 처리 방법 |
US20220406324A1 (en) * | 2021-06-18 | 2022-12-22 | Samsung Electronics Co., Ltd. | Electronic device and personalized audio processing method of the electronic device |
CN113362831A (zh) * | 2021-07-12 | 2021-09-07 | 科大讯飞股份有限公司 | 一种说话人分离方法及其相关设备 |
CN113571085B (zh) * | 2021-07-24 | 2023-09-22 | 平安科技(深圳)有限公司 | 语音分离方法、系统、装置和存储介质 |
CN113657289B (zh) * | 2021-08-19 | 2023-08-08 | 北京百度网讯科技有限公司 | 阈值估计模型的训练方法、装置和电子设备 |
KR20230042998A (ko) * | 2021-09-23 | 2023-03-30 | 한국전자통신연구원 | 음성 구간 분리 장치 및 그 방법 |
CN114363531B (zh) * | 2022-01-14 | 2023-08-01 | 中国平安人寿保险股份有限公司 | 基于h5的文案解说视频生成方法、装置、设备以及介质 |
CN115171716B (zh) * | 2022-06-14 | 2024-04-19 | 武汉大学 | 一种基于空间特征聚类的连续语音分离方法、系统及电子设备 |
CN115659162B (zh) * | 2022-09-15 | 2023-10-03 | 云南财经大学 | 雷达辐射源信号脉内特征提取方法、系统及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272398A (ja) * | 1988-09-07 | 1990-03-12 | Hitachi Ltd | 音声信号用前処理装置 |
JP2008051907A (ja) * | 2006-08-22 | 2008-03-06 | Toshiba Corp | 発話区間識別装置及びその方法 |
JP2016197200A (ja) * | 2015-04-06 | 2016-11-24 | 日本電信電話株式会社 | 不正音声入力判定装置、音声信号処理装置、方法及びプログラム |
JP2017120595A (ja) * | 2015-12-29 | 2017-07-06 | 花王株式会社 | 化粧料の塗布状態の評価方法 |
WO2018013200A1 (en) * | 2016-07-14 | 2018-01-18 | Magic Leap, Inc. | Deep neural network for iris identification |
WO2018049313A1 (en) * | 2016-09-12 | 2018-03-15 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
WO2018069974A1 (ja) * | 2016-10-11 | 2018-04-19 | エスゼット ディージェイアイ テクノロジー カンパニー リミテッド | 撮像装置、撮像システム、移動体、方法及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100612840B1 (ko) | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 |
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
CN106683661B (zh) * | 2015-11-05 | 2021-02-05 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
US10497382B2 (en) * | 2016-12-16 | 2019-12-03 | Google Llc | Associating faces with voices for speaker diarization within videos |
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
CN107221320A (zh) * | 2017-05-19 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
CN107680611B (zh) * | 2017-09-13 | 2020-06-16 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
US10529349B2 (en) * | 2018-04-16 | 2020-01-07 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction |
US11010179B2 (en) * | 2018-04-20 | 2021-05-18 | Facebook, Inc. | Aggregating semantic information for improved understanding of users |
-
2018
- 2018-05-28 CN CN201810519521.6A patent/CN108766440B/zh active Active
- 2018-08-13 JP JP2019572830A patent/JP2020527248A/ja active Pending
- 2018-08-13 US US16/652,452 patent/US11158324B2/en active Active
- 2018-08-13 SG SG11202003722SA patent/SG11202003722SA/en unknown
- 2018-08-13 WO PCT/CN2018/100174 patent/WO2019227672A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272398A (ja) * | 1988-09-07 | 1990-03-12 | Hitachi Ltd | 音声信号用前処理装置 |
JP2008051907A (ja) * | 2006-08-22 | 2008-03-06 | Toshiba Corp | 発話区間識別装置及びその方法 |
JP2016197200A (ja) * | 2015-04-06 | 2016-11-24 | 日本電信電話株式会社 | 不正音声入力判定装置、音声信号処理装置、方法及びプログラム |
JP2017120595A (ja) * | 2015-12-29 | 2017-07-06 | 花王株式会社 | 化粧料の塗布状態の評価方法 |
WO2018013200A1 (en) * | 2016-07-14 | 2018-01-18 | Magic Leap, Inc. | Deep neural network for iris identification |
JP2019525325A (ja) * | 2016-07-14 | 2019-09-05 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 虹彩識別のためのディープニューラルネットワーク |
WO2018049313A1 (en) * | 2016-09-12 | 2018-03-15 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
JP2019532354A (ja) * | 2016-09-12 | 2019-11-07 | ピンドロップ セキュリティー、インコーポレイテッド | ディープニューラルネットワークを使用する端末間話者認識 |
WO2018069974A1 (ja) * | 2016-10-11 | 2018-04-19 | エスゼット ディージェイアイ テクノロジー カンパニー リミテッド | 撮像装置、撮像システム、移動体、方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
HERVE BREDIN: "TristouNet: Triplet loss for speaker turn embedding", INTWRNATIONAL CONFERENCE ON ACOUSTIC, SPEECH AND SIGNAL PROCESSING, vol. 2017, JPN6020046933, 19 June 2017 (2017-06-19), pages 5430 - 5434, ISSN: 0004534321 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023281717A1 (ja) * | 2021-07-08 | 2023-01-12 | 日本電信電話株式会社 | 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム |
WO2023047475A1 (ja) * | 2021-09-21 | 2023-03-30 | 日本電信電話株式会社 | 推定装置、推定方法、および、推定プログラム |
Also Published As
Publication number | Publication date |
---|---|
US11158324B2 (en) | 2021-10-26 |
CN108766440A (zh) | 2018-11-06 |
SG11202003722SA (en) | 2020-12-30 |
CN108766440B (zh) | 2020-01-14 |
US20200234717A1 (en) | 2020-07-23 |
WO2019227672A1 (zh) | 2019-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020527248A (ja) | 話者分離モデルの訓練方法、両話者の分離方法及び関連設備 | |
WO2021082941A1 (zh) | 视频人物识别方法、装置、存储介质与电子设备 | |
Czyzewski et al. | An audio-visual corpus for multimodal automatic speech recognition | |
Vijayasenan et al. | An information theoretic approach to speaker diarization of meeting data | |
US6424946B1 (en) | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering | |
US11315366B2 (en) | Conference recording method and data processing device employing the same | |
WO2016095218A1 (en) | Speaker identification using spatial information | |
Friedland et al. | The ICSI RT-09 speaker diarization system | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
KR20120038000A (ko) | 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템 | |
CN108615532B (zh) | 一种应用于声场景的分类方法及装置 | |
CN109947971B (zh) | 图像检索方法、装置、电子设备及存储介质 | |
US20230095526A1 (en) | Target speaker mode | |
CN113920560A (zh) | 多模态说话人身份识别方法、装置和设备 | |
Bredin et al. | Integer linear programming for speaker diarization and cross-modal identification in tv broadcast | |
WO2022179253A1 (zh) | 一种设备的语音操作方法、装置和电子设备 | |
CN113889081A (zh) | 语音识别方法、介质、装置和计算设备 | |
WO2021217750A1 (zh) | 消除语音交互中信道差异的方法及系统、电子设备及介质 | |
US20240160849A1 (en) | Speaker diarization supporting episodical content | |
Park et al. | GMM adaptation based online speaker segmentation for spoken document retrieval | |
Ghahabi et al. | EML Submission to Albayzin 2018 Speaker Diarization Challenge. | |
CN104281682A (zh) | 文件分类系统及方法 | |
CN113593609B (zh) | 乐曲识别方法、装置、电子设备及计算机可读存储介质 | |
CN112820274B (zh) | 一种语音信息识别校正方法和系统 | |
CN113689861B (zh) | 一种单声道通话录音的智能分轨方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191216 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201208 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210629 |