JP2020527248A - 話者分離モデルの訓練方法、両話者の分離方法及び関連設備 - Google Patents

話者分離モデルの訓練方法、両話者の分離方法及び関連設備 Download PDF

Info

Publication number
JP2020527248A
JP2020527248A JP2019572830A JP2019572830A JP2020527248A JP 2020527248 A JP2020527248 A JP 2020527248A JP 2019572830 A JP2019572830 A JP 2019572830A JP 2019572830 A JP2019572830 A JP 2019572830A JP 2020527248 A JP2020527248 A JP 2020527248A
Authority
JP
Japan
Prior art keywords
feature
vector
voice
speaker
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019572830A
Other languages
English (en)
Inventor
峰 趙
峰 趙
健宗 王
健宗 王
京 肖
京 肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2020527248A publication Critical patent/JP2020527248A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】本願発明は話者分離モデル訓練方法を提供することを目的とする。
【解決手段】本願発明の話者分離モデル訓練方法は、複数のオーディオデータを取得して前処理を行い、前処理後のオーディオデータのオーディオ特徴を抽出するステップと、オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、第1話者の第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を計算するステップと、第1話者の第1ベクトル特徴と第2話者の第3ベクトル特徴との間の第2類似度を計算するステップと、第1類似度と第2類似度の損失関数値を計算し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、話者分離モデルのパラメータをアップデートするステップと、を備える。また、本願発明は両話者分離方法、端末及び記憶媒体を提供する。話者分離モデルが入力したオーディオデータの特徴を抽出する能力を顕著に増強し、両話者の分離精度を向上させ、特に長時間対話の分離タスクでより良い分離効果が得られる。
【選択図】図1

Description

本願発明は生体認証技術分野に関し、特に話者分離モデルの訓練方法、両話者分離方法、端末及び記憶媒体に関する。本願は、2018年05月28日に中国特許局へ出願された中国出願番号201810519521.6、発明の名称:「話者分離モデルの訓練方法、両話者の分離方法及び関連設備」に基づく優先権を主張しており、その出願の全内容は本明細書中に参照として組み入れられている。
オーディオ処理技術の向上に伴い、例えば電話録音、ニュース放送、会議録音など厖大量のデータから、興味がある特定の人の音声を取得する方法が研究の焦点となっている。
話者分離技術とは、複数人の会話の中から音声を話者ごとに自動的に区別し、タグ付けする過程を意味し、つまり「いつ・誰が話すか」という課題を解決する。
両話者分離とは、同じ音声トラックに録音された二人の話者が交互に話す録音を2つの音声トラックに分離し、各音声トラックには一人の話者だけの会話録音が含まれることを意味する。
両話者分離技術は放送、テレビ、メディア、コールセンターなど多くの業界と分野で幅広い需要がある。
従来のベイズ情報量規準(Bayesian Information Criterion,BIC)を類似度を判定する話者分離技術として利用し、短時間対話の分離タスクで高い効果が得られるが、対話時間が長くなるに連れてBICの単ガウスモデルは異なる話者データの分布を記述するには不十分で、その話者分離の効果が低くなる。
以上の問題点に鑑みて、本願発明は、話者分離モデルの訓練方法、両話者分離方法、端末及び記憶媒体を提案することを目的とする。
事前に話者分離モデルを訓練することにより、入力したオーディオデータの特徴抽出能力を顕著に増強し、ネットワーク層次の深化に伴う性能低下のリスクを軽減することができる;訓練された話者分離モデルにより両話者の音声を分離することで、両話者の分離精度が向上し、特に長時間対話の分離タスクでより良い分離効果が得られる。
本願発明の第1態様は、
複数の人の、複数のオーディオデータを取得するステップと、
オーディオデータごとに前処理を行うステップと、
前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、前記第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出するステップと、
第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル特徴と前記第3ベクトル特徴との間の第2類似度を算出するステップと、
前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、を備えることを特徴とする話者分離モデルの訓練方法を提供する。
本願発明の第2態様は、
1)分離待機の音声信号を前処理するステップと、
2)前記前処理後の音声信号の開始位置から、左右に隣接する第1スライド窓および第2スライド窓を確立し、前記第1スライド窓および第2スライド窓の分割点に基づき、第1音声セグメントおよび第2音声セグメントを得るステップと、
3)請求項1から5のいずれか1項に記載の訓練方法で話者分離モデル得られ、前記話者分離モデルに前記第1音声セグメントを転送し、特徴を抽出して第1音声ベクトルを得、前記話者分離モデルに前記第2音声セグメントを転送し、特徴を抽出して第2音声ベクトルを得るステップと、
4)前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
5)前記第1スライド窓と前記第2スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第2スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ2)〜5)を繰り返すステップと、
6)各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
7)前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
8)前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングするステップと、を備えることを特徴とする両話者分離方法を提供する。
本願発明の第3態様は、
プロセッサと記憶装置とを備え、プロセッサが記憶装置に記憶されたコンピュータ可読命令を実行させる際、前記話者分離モデル訓練方法および/または前記両話者分離方法を実現する端末を提供する。
本願発明の第4態様は、プロセッサがコンピュータ可読命令を実行させる際、前記話者分離モデル訓練方法および/または前記両話者分離方法を実現する不揮発性可読記憶媒体を提供する。
本願発明で提案する両話者分離方法、端末及び記憶媒体は、事前に話者分離モデルを訓練することにより、入力したオーディオデータの特徴抽出能力を顕著に増強し、ネットワーク層次の深化に伴う性能低下のリスクを軽減することができる。訓練された話者分離モデルにより両話者の音声を分離することで、両話者の分離精度を向上させ、特に長時間対話の分離タスクでより良い分離効果が得られる。
図1は本願発明の実施例1に係る話者分離モデルの訓練方法を示すフローチャートである。 図2は本願発明の実施例2に係る両話者分離方法を示すフローチャートである。 本願発明の実施例に係る、分割点および対応する距離値に基づき局所最大値を決定する方法を示す概念図である。 図4は本願発明の実施例3に係る話者分離モデルの訓練装置を示す機能モジュール図である。 図5は本願発明の実施例4に係る両話者分離装置を示す機能モジュール図である。 図6は本願発明の実施例5に係る端末の概念図である。
以下、上述の図面に基づき、本願発明について詳細に説明する。
本発明の上記の目的、特徴及び利点をより明確に理解させるため、図面及び具体的な実施形態を参照しながら本発明を詳しく説明する。なお、矛盾しない限り、本発明の実施例及びその特徴を相互に組み合わせてもよい。
本発明を理解させるため、下記の明細書に具体的な細部が記載されているが、記述する実施例は本発明の一部実施例に過ぎず、全ての実施例ではない。
本発明の実施例に基づき、当業者が創造的労働をせずに取得したすべてのその他実施例は、すべて本発明の保護範囲に入る。
別段の定義がない限り、本願で使用されるすべての技術および科学用語は、本願発明の技術分野に属する技術者が通常理解する意味と同じである。
本願において、本明細書で使用される用語は、特定の実施例を説明するためのものだけであり、本願発明の範囲を制限する意図はない。
本願発明の実施例において提供する話者分離モデル訓練方法および/または両話者分離方法は、1つまたは複数の端末に適用される。
前記話者分離モデル訓練方法及び/又は両話者分離方法は、端末と、前記端末と、ネットワークを介して接続するサーバとで構成されるハードウェア環境にも適用可能である。
ネットワークは、広域ネットワーク、通信市内網あるいはLANが含まれるが、これに限定されない。
本願発明の実施例に係る話者分離モデル訓練方法及び/又は両話者分離方法は、同時にサーバで実行してもよく、同時に端末で実行してもよいし、また、サーバと端末が共同で実行してもよい。
例えば、本願発明の実施例に係る話者分離モデル訓練方法はサーバにより実行され、本願発明の実施例において提供する両話者分離方法は端末により実行される。
話者分離モデル訓練方法および/または両話者分離方法を機能する端末に関し、本願発明の方法に係る話者分離モデル訓練および/または両話者分離機能を直接、端末にて集積するか、若しくは、本願発明の方法を実現するためのクライアント端末を設置する。
さらに、本願発明に係る方法は、ソフトウェア開発キット(Software Development Kit,SDK)の形でサーバなどの機器で運用し、SDKの形で話者分離モデル訓練および/または両話者分離機能のインタフェースを提供し、端末または他の機器は提供されたインタフェースを通じて両話者分離モデル訓練および/または両話者分離を実現する。
実施例1
図1は本願発明の実施例1係る話者分離モデルの訓練方法を示すフローチャートである。
当該フローチャートの実行順序は、必要に応じて変更されてもよく、いくつかのステップは省略されてもよい。
S11において、複数人の複数のオーディオデータを取得する。
本実施例では、複数のオーディオデータの取得は、以下の2つの方法を含んでもよい:
(1)事前にオーディオ機器(例えば録音機など)を設置しておき、前記オーディオ機器により現場で複数人の音声を録音してオーディオデータが得られる。
(2)オーディオデータセットから複数のオーディオデータを取得する。
前記オーディオデータセットは、オープンソースのデータセットであり、例えばUBMデータセット、TVデータセットであり、オープンソースのオーディオデータセットは、話者分離モデルを訓練し、訓練した話者分離モデルの精度を試験するために専用される。
前記UBMデータセットとTVデータセットは、NIST04、NIST05及びNIST06から取得し、約500hのオーディオデータを含み、合計577人の話者が存在し、1人あたり約15文がある。
S12において、オーディオデータごとに前処理を行う。
本実施例では、複数のオーディオデータを取得した後、複数のオーディオデータに対して、前処理を行うべきであり、オーディオデータの前処理には、以下の1つまたは複数の組み合わせを含む。
1)オーディオデータに雑音低減処理を行う。
取得したオーディオデータには様々な雑音が含まれ、雑音が含まれているオーディオデータからできるだけ多くの純粋な原始音声を抽出するために、ローパスフィルタを用いて前記オーディオデータにおけるホワイトノイズやランダムノイズなどを除去する。
2)雑音低減処理後のオーディオデータに対して音声区間検出(Voice Activity Detection、VAD)を行い、無効な音声を削除し、標準オーディオデータサンプルが得られる。
本実施例では、デュアル閾値比較法を用いて音声区間検出を行い、オーディオデータにおける有効な音声と無効な音声を検出し、前記有効な音声は話者の音声であり、前記無効な音声は、前記有効な音声に対して静音を含むが、これに限定されない。
3)前記標準オーディオデータサンプルが属する話者を示すために、標準オーディオデータサンプルにタグ付けする。
前記タグ付けは、オーディオデータに身分属性タグを付けることを意味し、例えば、第1オーディオデータが属する話者Aに対し、身分属性タグ01を付け、第2オーディオデータが属する話者Bに対し、身分属性タグ02を付ける。
S13において前処理後のオーディオデータのオーディオ特徴を抽出する。
本実施例では、MFCC(メル周波数ケプストラム係数、Mel Frequency Cepstrum Coefficient)スペクトル特徴などを用い、前処理後のオーディオデータのオーディオ特徴を抽出してもよい。
メル周波数ケプストラム係数は従来技術であるので、本願発明ではここに詳しく説明しない。
S14において前記オーディオ特徴を、予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴が得られる。
本実施例では、前記予め設定されたニューラルネットワークモデルは、予め設定された層数のニューラルネットワーク(Deep architecture)という構造で積層されており、前記予め設定された層数は、予め設定されたネットワークの層数である。
例えば、あらかじめ9−12層のニューラルネットワーク構造を設け、ニューラルネットワーク訓練モデルを組み立てる。
具体的には、各層のニューラルネットワーク構造は、第1畳み込み層(Convolutional Layer)、第1正規化線形ユニット(Rectified Linear Units,ReLU)、第2畳み込み層、第2正規化線形ユニット、平均化層(Average sentence)、全結合層(Affine)、単位長正規化層(Length Normalization)を含み、そのうち畳み込み層の畳み込みカーネルは3*3、ステップサイズは1*1、チャンネル数は64である。
前記予め設定されたニューラルネットワークモデルは、入力されたオーディオ特徴を訓練する具体的な過程は以下の通りである。
1)前記オーディオ特徴を前記第1畳み込み層に入力して第1畳み込み処理を行い、第1畳み込み特徴を得る。
2)前記第1畳み込み特徴を前記第1正規化線形ユニットに入力して第1正規化線形処理を行い、第1正規化線形特徴を得る。
3)前記第1正規化線形特徴を前記第2畳み込み層に入力して第2畳み込み処理を行い、第2畳み込み特徴を得る。
4)前記オーディオ特徴と前記第2畳み込み特徴とを合算して前記第2正規化線形ユニットに入力し、第2正規化線形特徴を得る。
5)前記第2正規化線形特徴を、前記平均化層、全結合層、単位長正規化層に順次入力して処理し、1次元ベクトル特徴を得る。
前記平均化層の役割はtemporal pool(「temporal pool」は、時間軸に沿ってベクトル系列の平均値を求めることを意味する)とし、前の層の順方向長・短期記憶ネットワーク(Long Short−Term Memory、LSTM)と逆方向LSTMから出力のベクトル系列を平均化し、順方向の平均ベクトルと逆方向の平均ベクトルを得ることである。前記全結合層の役割は、順方向平均ベクトルと逆方向平均ベクトルを一つのベクトルに直列することである。前記単位長正規化層は、正規化関数を用いて直列後に形成されたベクトルを処理し、長さが1に正規化された1次元ベクトル特徴を得る。
本実施例では、前記正規化関数はユークリッド距離関数であっても良く、マンハッタン距離関数であっても良く、最小絶対誤差に基づく。
好ましくは、前記全結合層により処理されたベクトルを、前記ユークリッド距離関数により正規化処理した後、正規化された1次元ベクトル特徴を得る。
正規化処理により、前記全結合層による処理後のベクトルを圧縮し、前記全結合層による処理後のベクトルにロバスト性を持たせ、それによって前記話者分離モデルのロバスト性をさらに高める。
また、前記ユークリッド距離関数を用いて正規化することで、前記話者分離モデルの過剰適合(overfitting)を回避し、それによって前記話者分離モデルの汎化能力を高め、後続の前記話者分離モデルにおけるニューラルネットワーク・パラメータの最適化求解をより安定かつ迅速に求める。
S15において、第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、前記第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出する。
本実施例では、予め設定された第1類似度関数は、次の(1−1)に示すように余弦類似度関数であってもよい。
Figure 2020527248
S16において、第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル特徴と前記第3ベクトル特徴との間の第2類似度を算出する。
本実施例では、前記予め設定された第2類似度関数は、前記予め設定された第1類似度関数と同じであっても、異なってもよい。
好ましくは、前記予め設定された第2類似度関数は、以下の(1−2)に示すように、LPノルムである。
Figure 2020527248
S17において、前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートする。
本実施例において、前記予め設定された損失関数は、次の(1−3)の通りである。
Figure 2020527248
Figure 2020527248
従って、本願発明は、複数のオーディオデータを取得して訓練サンプルを作成し、オーディオデータにタグ付けする。オーディオデータのオーディオ特徴を抽出した後、予め設定されたニューラルネットワークモデルに入力して訓練してベクトル特徴が得られ、第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出する。第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル特徴と前記第3ベクトル特徴との間の第2類似度を算出する。前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートする。
本願発明の畳み込みニューラルネットワーク訓練に基づく話者分離モデルは強い特徴抽出能力を持ち、ネットワーク層次の深化に伴う性能低下のリスクを軽減し、一方、同一話者の異なるオーディオデータのベクトル特徴ができるだけ同じように確保し、異なる話者のオーディオデータのベクトル特徴ができるだけ異なるように確保し、さらに算出した損失関数がより早く収束する条件に達し、話者分離モデルの訓練時間を節約し、話者分離モデルの効率を高める。
実施例2
図2は本願発明の実施例2に係る両話者分離方法を示すフローチャートである。
当該フローチャートの実行順序は、必要に応じて変更されてもよく、いくつかのステップは省略されてもよい。
S21において、分離待機の音声信号を前処理する。
本実施例では、分離待機の音声信号を前処理する過程は、以下の通りである。
1)プリエンファシス処理
本実施例では、分離待機の音声信号に対してデジタルフィルタを用いてプリエンファシス処理を施し、高周波数部の音声信号を上げることができる。
具体的には、次の(2−1)通りである。
Figure 2020527248
人間の発声器官自体および音声信号の採集設備などの要素により、採集した音声信号にエイリアシング、高調波歪みなどの問題が発生しやすいため、分離待機の音声信号に対するプリエンファシス処理により、発声システムが抑圧された音声信号の高周波部を補償され、高周波の共振ピークを強調し、音声信号のより高い均一度と平滑度を確保し、後続の音声信号の分離効果を高めることができる。
2)フレーム分割処理
分離待機の音声信号を、予め設定されたフレーム分割パラメータに基づき、フレーム分割を行い、前記予め設定されたフレーム分割パラメータは、例えばフレーム長が10〜30msであり、好ましくは25msおきにフレーム分割を行なって、複数の複数の音声フレームが得られる。
こうして、全体の分離待機の音声信号について、フレーム分割処理を行った結果、各フレームの特徴パラメータからなる特徴パラメータ時系列が得られる。
S22において、前記前処理後の音声信号の開始位置から、左右に隣接する第1スライド窓および第2スライド窓を確立し、前記第1スライド窓および第2スライド窓の分割点に基づき、第1音声セグメントおよび第2音声セグメントを得る。
本実施例では、前記第1スライド窓および第2スライド窓の長さは0.7〜2秒で、前記第1スライド窓および第2スライド窓の分割点は、前記前処理後の音声信号の可能な話者分割点であり得る。
第1スライド窓は、第1音声セグメントを取得すべきであり、第2スライド窓は、第2音声セグメントを取得すべきであり、前記第1スライド窓と前記第2スライド窓の分割点は、前記第1音声セグメントと前記第2音声セグメントの分割点でもある。
S23において、話者分離モデルに前記第1音声セグメントを転送し、特徴を抽出して第1音声ベクトルが得られ、話者分離モデルに前記第2音声セグメントを転送し、特徴を抽出して第2音声ベクトルが得られる。
第1音声セグメントを訓練された話者分離モデルに転送し、訓練された話者分離モデルで第1音声セグメントのメル周波数ケプストラム特徴(Mel Frequency Cepstrum Coefficient,MFCC)を抽出し、第1音声ベクトルが得られる。
第2音声セグメントを訓練された話者分離モデルに転送し、訓練された話者分離モデルで第2音声セグメントのメル周波数ケプストラム特徴(Mel Frequency Cepstrum Coefficient,MFCC)を抽出し、第2音声ベクトルが得られる。
S24において、今回の分割点に対応する距離値を得るために、前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を計算する。
本実施例では、予め設定された距離関数を用い、各第1音声ベクトルと各第2音声ベクトルとの間の距離値を計算してもよい。
前記予め設定された距離関数は、例えばユークリッド距離関数のような、予め設定された距離関数である。
本願発明では、ユークリッド距離関数を用いて第1音声ベクトルと第2音声ベクトルの距離値を計算する過程について、具体的な説明はしない。
S25において、前記第1スライド窓と前記第2スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第2スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップS22−S25を繰り返す。
本実施例では、予め設定された時間幅は、5msであっても良い。
第1スライド窓と第2スライド窓が前記前処理後の音声信号上をスライドすることで、複数のスライド窓の分割点が得られ、これに対応して複数の第1音声セグメントと複数の第2音声セグメントが得られる。
つまり、前記予め設定された時間幅で前記第1スライド窓および第2のスライド窓を同時に移動させるたびに、一つの候補分割点が得られ、各候補分割点は、第1音声セグメントと第2音声セグメントの分割点であり、これに対応して距離値が算出できる。
分割点の個数は距離値の個数に等しい。
S26について、各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定する。
本実施例では、前記距離値に基づき局所最大値を決定する具体的な過程は以下の通りである。
1)すべての分割点に対応する距離値を分割点の時系列に従い順次並べる。
Figure 2020527248
複数の局所最大値を決定してもよい。
各局所最大値に対応する分割点は、検索する分割点である。
例えば、分離待機の音声信号は、第1スライド窓と第2スライド窓の移動によって、10個の分割点が得られ、例えば、T1、T2、T3、T4、T5、T6、T7、T8、T9、T10が得られ、各分割点はそれぞれ一つの距離値、例えば、S1、S2、S3、S4、S5、S6、S7、S8、S9、S10に対応する。
10個の距離値を分割点の時系列に従い順次並べ、例えば、S2>=S1、S2>=S3の場合、S2は局所最大値である。
次に、S4>=S3かつS4>=S5かどうかを判断し、そうであれば、S4は局所最大値であり、そうでなければ、順次類推し、残りの現在距離値とそれぞれ前の距離値または後の距離値との大小関係を判断し、局所最大値を決定する。
代替的な実施形態として、前記距離値に基づく局所最大値の決定は下記のような内容を含んでもよい。
分割点を横軸とし、分割点に対応する距離値を縦軸として、滑らかな曲線を描く。
前記曲線における点の接線を求解する。
接線の傾斜がゼロである点に対応する距離値を局所最大値として決定する。
局所最大値を直感的に表現するため、図3に示すように、分割点を横軸とし、分割点に対応する距離値を縦軸として滑らかな曲線を描いても良い。
図3における各点の接線を求解すると分かるように、S2、S4、S6、S9に対応する点の接線の傾斜がゼロであるので、S2、S4、S6、S9が局所最大値として決定される。
S27について、前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得る。
本実施例では、局所最大値を決定した後、前記局所最大値に対応する分割点を新たな分割点として前記分離待機の音声信号を再度分割することで、新たな複数の音声セグメントが得られる。
再分割の過程は、分離待機の音声信号から2つの異なる話者の身分転化の時点を探し、その後時点によって音声を複数の短い音声セグメントに分割し、分割された各短い音声セグメントには1人の話者の情報のみが含まれる。
例えば、S2、S4、S6、S9が局所最大値であれば、前記分離待機の音声信号は、対応する分割点T2、T4、T6、T9を新たな分割点として分割され、5つの新たな音声セグメントが得られ、それぞれの新たな音声セグメントには1人の話者の音声情報のみが含まれる。
S28において、前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングする。
クラスタリングの過程とは、分割されたすべての同一話者に属する小さなセグメントをいくつかのクラスタリング方法で、再結合することを指す。
本実施例では、前記クラスタリング方法は、K−meansクラスタリングまたは下から上への凝集型階層クラスタリング(HAC)であっても良く、前記クラスタリング方法は従来技術であるので、本願発明では詳細な説明を省略する。
従って、本願発明は分離待機の音声信号を前処理した後、前記前処理後の音声信号の開始位置から左右に隣接する第1スライド窓及び第2スライド窓を確立し、前記第1スライド窓及び第2スライド窓の分割点に基づき第1音声セグメント及び第2音声セグメントを得る。前記第1音声セグメントおよび前記第2の音声セグメントを話者分離モデルにそれぞれ転送し、特徴を抽出して第1音声ベクトルおよび第2音声ベクトルを得る。前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を算出する。その後、前記第2スライド窓が前処理音声信号の最後に到達するまで、予め設定された時間幅でスライド窓を移動し、スライド窓を移動するたびに2つの音声セグメントが得られる。毎回分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定する。前記局所最大値に対応する分割点に基づき前記分離待機の音声信号を分割し、新たな音声セグメントを得る。前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングする。
本願発明では、スライド窓の移動で複数の音声セグメントを獲得し、訓練された話者分離モデルを用いて音声セグメントの特徴を抽出して距離値を算出し、距離値間の比較で局所最大値を決定し、局所最大値に対応する分割点を新たな分割点として再度分離待機の音声信号を分割することで、両話者の音声セグメントを得ることができ、分離効果を向上させる。
以上、本願発明の具体的な実施例について詳細に説明したが、本願発明はこれらの好適な実施形態に限定されるものではなく、当業者にとっては、本願の創造構想を逸脱することなく、本願発明の範囲内で種々の変形又は修正が可能であり、そのような変形又は修正も、本願発明の特許請求の範囲内に含まれるものであることは、言うまでもない。
次に、図4から図6によって、上記話者分離モデル訓練方法と両話者分離方法を実現する端末の機能モジュールとハードウェア構成をそれぞれ紹介する。
実施例3
図4は本願発明に係る話者分離モデルの訓練装置を示す好適な実施例の機能モジュール図である。
ある実施例では、前記話者分離モデル訓練装置40は端末内で動作する。
前記話者分離モデル訓練装置40は、プログラムコードセグメントからなる複数の機能モジュールを含んでもよい。
前記話者分離モデル訓練装置40の各プログラムセグメントのプログラムコードは、話者分離モデルを訓練するために(図1およびその関連説明を参照)、記憶装置に格納され、少なくとも1つのプロセッサによって実行されても良い。
本実施例では、前記端末の話者分離モデル訓練装置40は、その実行機能に基づき、複数の機能モジュールに分割する。
前記機能モジュールは、取得モジュール401、前処理モジュール402、特徴抽出モジュール403、訓練モジュール404、計算モジュール405及びアップデートモジュール406を含む。
本願発明におけるいわゆるモジュールとは、少なくとも1つのプロセッサによって実行され、所定の機能を完了することができる、記憶装置に記憶された一連のコンピュータ可読命令セグメントのことを指す。
ある実施例において、モジュールの機能については、以下の実施例で詳述する。
取得モジュール401は、複数の話者の、複数のオーディオデータを取得する。
本実施例では、複数のオーディオデータの取得は、以下の2つの方法を含む。
(1)事前にオーディオ機器(例えば録音機など)を設置しておき、前記オーディオ機器により現場で複数人の音声を録音してオーディオデータを得る。
(2)オーディオデータセットから複数のオーディオデータを取得する。
前記オーディオデータセットは、オープンソースのデータセットであり、例えばUBMデータセット、TVデータセットであり、オープンソースのオーディオデータセットは話者分離モデルを訓練し、訓練した話者分離モデルの精度を試験するために専用される。
前記UBMデータセットとTVデータセットは、NIST04、NIST05及びNIST06から取得し、約500hのオーディオデータを含み、合計577人の話者が存在し、1人あたり約15文がある。
前処理モジュール402はオーディオデータごとに前処理を行う。
本実施例では、複数のオーディオデータを取得した後、複数のオーディオデータに対して、前処理を行うべきであり、前処理モジュール402がオーディオデータを前処理するのには、以下の1つまたは複数の組み合わせを含む。
1)オーディオデータに雑音低減処理を行う。
取得したオーディオデータには様々な雑音が含まれ、雑音が含まれているオーディオデータからできるだけ多くの純粋な原始音声を抽出するために、ローパスフィルタを用いて前記オーディオデータにおけるホワイトノイズやランダムノイズなどを除去する。
2)雑音低減処理後のオーディオデータに対して音声区間検出(Voice Activity Detection、VAD)を行い、無効な音声を削除し、標準オーディオデータサンプルが得られる。
本実施例では、デュアル閾値比較法を用いて音声区間検出を行い、オーディオデータにおける有効な音声と無効な音声を検出し、前記有効な音声とは話者の音声であり、前記無効な音声は、前記有効な音声に対して静音を含むが、これに限定されない。
3)前記標準オーディオデータサンプルが属する話者を示すために、標準オーディオデータサンプルにタグ付けする。
前記タグ付けは、オーディオデータに身分属性タグを付けることを意味し、例えば、第1オーディオデータが属する話者Aに対し、身分属性タグ01を付け、第2オーディオデータが属する話者Bに対し、身分属性タグ02を付ける。
特徴抽出モジュール403は、前処理後のオーディオデータのオーディオ特徴を抽出する。
本実施例では、MFCC(メル周波数ケプストラム係数、Mel Frequency Cepstrum Coefficient)スペクトル特徴などを用い、前処理後のオーディオデータのオーディオ特徴を抽出してもよい。
メル周波数ケプストラム係数は従来技術であるので、本願発明ではここに詳しく説明しない。
訓練モジュール404は、前記オーディオ特徴を、予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴が得られる。
本実施例では、前記予め設定されたニューラルネットワークモデルは、予め設定された層数のニューラルネットワーク(Deep architecture)という構造で積層されており、前記予め設定された層数は、予め設定されたネットワークの層数である。
例えば、あらかじめ9−12層のニューラルネットワーク構造を設け、ニューラルネットワーク訓練モデルを組み立てる。
具体的には、各層のニューラルネットワーク構造は、第1畳み込み層(Convolutional Layer)、第1正規化線形ユニット(Rectified Linear Units,ReLU)、第2畳み込み層、第2正規化線形ユニット、平均化層(Average sentence)、全結合層(Affine)、単位長正規化層(Length Normalization)を含み、そのうち畳み込み層の畳み込みカーネルは3*3、ステップサイズは1*1、チャンネル数は64である。
前記訓練モジュール404は、前記予め設定されたニューラルネットワークモデルを介して入力されたオーディオ特徴を訓練する具体的な過程は以下の通りである。
1)前記オーディオ特徴を前記第1畳み込み層に入力して第1畳み込み処理を行い、第1畳み込み特徴を得る。
2)前記第1畳み込み特徴を前記第1正規化線形ユニットに入力して第1正規化線形処理を行い、第1正規化線形特徴を得る。
3)前記第1正規化線形特徴を前記第2畳み込み層に入力して第2畳み込み処理を行い、第2畳み込み特徴を得る。
4)前記オーディオ特徴と前記第2畳み込み特徴とを合算して前記第2正規化線形ユニットに入力し、第2正規化線形特徴を得る。
5)前記第2正規化線形特徴を、前記平均化層、全結合層、単位長正規化層に順次入力して処理し、1次元ベクトル特徴を得る。
前記平均化層の役割はtemporal pool(「temporal pool」は、時間軸に沿ってベクトル系列の平均値を求めることを意味する)とし、前の層の順方向長・短期記憶ネットワーク(Long Short−Term Memory、LSTM)と逆方向LSTMから出力のベクトル系列を平均化し、順方向の平均ベクトルと逆方向の平均ベクトルを得ることである。前記全結合層の役割は、順方向平均ベクトルと逆方向平均ベクトルを一つのベクトルに直列することである。前記単位長正規化層は、正規化関数を用いて直列後に形成されたベクトルを処理し、長さが1に正規化された1次元ベクトル特徴を得る。
本実施例では、前記正規化関数はユークリッド距離関数であっても良く、マンハッタン距離関数であっても良く、最小絶対誤差に基づく。
好ましくは、前記全結合層により処理されたベクトルを、前記ユークリッド距離関数により正規化処理した後、正規化された1次元ベクトル特徴を得る。
正規化処理により、前記全結合層による処理後のベクトルを圧縮し、前記全結合層による処理後のベクトルにロバスト性を持たせ、それによって前記話者分離モデルのロバスト性をさらに高める。
また、ユークリッド距離関数を用いて正規化することで、前記話者分離モデルの過剰適合を回避し、それによって前記話者分離モデルの汎化能力を高め、後続の前記話者分離モデルにおけるニューラルネットワーク・パラメータの最適化求解をより安定かつ迅速に求めることにも繋がる。
計算モジュール405は、第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、前記第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出する。
本実施例では、予め設定された第1類似度関数は、次の(1−1)に示すように余弦類似度関数であってもよい。
Figure 2020527248
前記計算モジュール405は、さらに、第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル特徴と前記第3ベクトル特徴との間の第2類似度を算出するように構成される。
本実施例では、前記予め設定された第2類似度関数は、前記予め設定された第1類似度関数と同じであっても、異なってもよい。
好ましくは、前記予め設定された第2類似度関数は、以下の(1−2)に示すように、LPノルムである。
Figure 2020527248
アップデートモジュール406は、前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートする。
本実施例において、前記予め設定された損失関数は、次の(1−3)のようである。
Figure 2020527248
従って、本願発明は、複数のオーディオデータを取得して訓練サンプルを作成し、オーディオデータにタグ付けする。オーディオデータのオーディオ特徴を抽出した後、予め設定されたニューラルネットワークモデルに入力して訓練してベクトル特徴が得られ、第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出する。第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル特徴と前記第3ベクトル特徴との間の第2類似度を算出する。前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートする。
本願発明の畳み込みニューラルネットワーク訓練に基づく話者分離モデルは強い特徴抽出能力を持ち、ネットワーク層次の深化に伴う性能低下のリスクを軽減し、一方、同一話者の異なるオーディオデータのベクトル特徴ができるだけ同じように確保し、異なる話者のオーディオデータのベクトル特徴ができるだけ異なるように確保し、さらに算出した損失関数がより早く収束する条件に達し、話者分離モデルの訓練時間を節約し、話者分離モデルの効率を高める。
実施例4
図5は本願発明係る両話者分離装置を示す好適な実施例の機能モジュール図である。
ある実施例では、前記両話者分離装置50は端末内で動作する。
前記両話者分離装置50は、プログラムコードセグメントからなる複数の機能モジュールを含んでもよい。
前記両話者分離装置50の各プログラムセグメントのプログラムコードは、記憶装置に格納され、少なくとも1つのプロセッサによって実行され、(図2および関連説明を参照)両話者の音声信号を分離し、2つの音声セグメントが得られ、各音声セグメントが1人の話者の音声情報のみを含む。
本実施例では、前記端末の両話者分離装置50は、その実行機能に基づき、複数の機能モジュールに分割する。
前記機能モジュールは、処理モジュール501、第1分割モジュール502、ベクトル抽出モジュール503、計算モジュール504、比較モジュール505、第2分割モジュール506、およびクラスタリングモジュール507を含む。
本願発明におけるいわゆるモジュールとは、少なくとも1つのプロセッサによって実行され、所定の機能を完了することができる、記憶装置に記憶された一連のコンピュータ可読命令セグメントのことを指す。
ある実施例において、モジュールの機能については、以下の実施例で詳述する。
処理モジュール501は、分離待機の音声信号を前処理する。
本実施例では、前記処理モジュール501が分離待機の音声信号を前処理する過程は以下の通りである。
1)プリエンファシス処理
本実施例では、分離待機の音声信号に対してデジタルフィルタを用いてプリエンファシス処理を施し、高周波数部の音声信号を上げることができる。
具体的には、次の(2−1)の通りである。
Figure 2020527248
人間の発声器官自体および音声信号の採集設備などの要素により、採集した音声信号にエイリアシング、高調波歪みなどの問題が発生しやすいため、分離待機の音声信号に対するプリエンファシス処理により、発声システムが抑圧された音声信号の高周波部を補償され、高周波の共振ピークを強調し、音声信号のより高い均一度と平滑度を確保し、後続の音声信号の分離効果を高めることができる。
2)フレーム分割処理
分離待機の音声信号を、予め設定されたフレーム分割パラメータに基づき、フレーム分割を行い、前記予め設定されたフレーム分割パラメータは例えば、フレーム長が10〜30msであり、好ましくは25msおきにフレーム分割を行なって、複数の複数の音声フレームが得られる。
こうして、全体の分離待機の音声信号について、フレーム分割処理を行った結果、各フレームの特徴パラメータからなる特徴パラメータ時系列が得られる。
第1分割モジュール502は、前記前処理後の音声信号の開始位置から、左右に隣接する第1スライド窓および第2スライド窓を確立し、前記第1スライド窓および第2スライド窓の分割点に基づき、第1音声セグメントおよび第2音声セグメントを得る。
本実施例では、前記第1スライド窓および第2スライド窓の長さは0.7〜2秒で、前記第1スライド窓および第2スライド窓の分割点は、前記前処理後の音声信号の可能な話者分割点であり得る。
第1スライド窓は、第1音声セグメントを取得すべきであり、第2スライド窓は第2音声セグメントを取得すべきであり、前記第1スライド窓と前記第2スライド窓の分割点は、前記第1音声セグメントと前記第2音声セグメントの分割点でもある。
ベクトル抽出モジュール503は、話者分離モデルに前記第1音声セグメントを転送し、特徴を抽出して第1音声ベクトルが得られ、話者分離モデルに前記第2音声セグメントを転送し、特徴を抽出して第2音声ベクトルが得られる。
第1音声セグメントを訓練された話者分離モデルに転送し、訓練された話者分離モデルで第1音声セグメントのメル周波数ケプストラム特徴(Mel Frequency Cepstrum Coefficient,MFCC)を抽出し、第1音声ベクトルが得られる。
第2音声セグメントを訓練された話者分離モデルに転送し、訓練された話者分離モデルで第2音声セグメントのメル周波数ケプストラム特徴(Mel Frequency Cepstrum Coefficient,MFCC)を抽出し、第2音声ベクトルが得られる。
計算モジュール504は、今回の分割点に対応する距離値を得るために、前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を計算するように構成される。
本実施例では、予め設定された距離関数を用い、各第1音声ベクトルと各第2音声ベクトルとの間の距離値を計算してもよい。
前記予め設定された距離関数は、例えばユークリッド距離関数のような、予め設定された距離関数である。
本願発明では、ユークリッド距離関数を用いて第1音声ベクトルと第2音声ベクトルの距離値を計算する過程について、具体的な説明はしない。
前記第1スライド窓と前記第2スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第2スライド窓が前記前処理後の音声信号の最後に到達するまで、上述モジュール(502−504)を繰り返す。
本実施例では、予め設定された時間幅は、5msであっても良い。
第1スライド窓と第2スライド窓が前記前処理後の音声信号上をスライドすることで、複数のスライド窓の分割点が得られ、これに対応して複数の第1音声セグメントと複数の第2音声セグメントが得られる。
つまり、前記予め設定された時間幅で前記第1スライド窓および第2のスライド窓を同時に移動させるたびに、一つの候補分割点が得られ、各候補分割点は第1音声セグメントと第2音声セグメントの分割点であり、これに対応して距離値が算出できる。
分割点の個数は距離値の個数に等しい。
比較モジュール505は、各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定する。
本実施例では、前記比較モジュール505が前記距離値に基づき局所最大値を決定する具体的な過程は以下の通りである。
1)すべての分割点に対応する距離値を分割点の時系列に従い順次並べる。
Figure 2020527248
複数の局所最大値を決定してもよい。
各局所最大値に対応する分割点は、検索する分割点である。
例えば、分離待機の音声信号は、第1スライド窓と第2スライド窓の移動によって、10個の分割点、例えば、T1、T2、T3、T4、T5、T6、T7、T8、T9、T10が得られ、各分割点はそれぞれ一つの距離値、例えば、S1、S2、S3、S4、S5、S6、S7、S8、S9、S10に対応する。
10個の距離値を分割点の時系列に従い順次並べ、例えば、S2>=S1、S2>=S3の場合、S2は局所最大値である。
次に、S4>=S3かつS4>=S5かどうかを判断し、そうであれば、S4は局所最大値であり、そうでなければ、順次類推し、残りの現在距離値とそれぞれ前の距離値または後の距離値との大小関係を判断し、局所最大値を決定する。
代替的な実施形態として、前記比較モジュール505が前記距離値に基づく局所最大値の決定は下記のような内容を含んでもよい。
分割点を横軸とし、分割点に対応する距離値を縦軸とし、滑らかな曲線を描く。
前記曲線における点の接線を求解する。
接線の傾斜がゼロである点に対応する距離値を局所最大値として決定する。
局所最大値を直感的に表現するため、図3に示すように、分割点を横軸にとし、分割点に対応する距離値を縦軸として滑らかな曲線を描いても良い。
図3における各点の接線を求解すると分かるように、S2、S4、S6、S9に対応する点の接線の傾斜がゼロであるので、S2、S4、S6、S9が局所最大値として決定される。
第2分割モジュール506は、前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るように構成される。
本実施例では、局所最大値を決定した後、前記局所最大値に対応する分割点を新たな分割点として前記分離待機の音声信号を再度分割することで、新たな複数の音声セグメントが得られる。
再分割の過程は、分離待機の音声信号から2つの異なる話者の身分転化の時点を探し、その後時点によって音声を複数の短い音声セグメントに分割し、分割された各短い音声セグメントには1人の話者の情報のみが含まれる。
例えば、S2、S4、S6、S9が局所最大値であれば、前記分離待機の音声信号は、対応する分割点T2、T4、T6、T9を新たな分割点として分割され、5つの新たな音声セグメントが得られ、それぞれの新たな音声セグメントには1人の話者の音声情報のみが含まれる。
クラスタリングモジュール507は、前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングするように構成される。
クラスタリングの過程とは、分割されたすべての同一話者に属する小さなセグメントをいくつかのクラスタリング方法で、再結合することを指す。
本実施例では、前記クラスタリング方法は、K−meansクラスタリングまたは下から上への凝集型階層クラスタリング(HAC)であっても良く、前記クラスタリング方法は従来技術であるので、本願発明では詳細な説明を省略する。
従って、本願発明は分離待機の音声信号を前処理した後、前記前処理後の音声信号の開始位置から左右に隣接する第1スライド窓及び第2スライド窓を確立し、前記第1スライド窓及び第2スライド窓の分割点に基づき第1音声セグメント及び第2音声セグメントを得る。前記第1音声セグメントおよび前記第2の音声セグメントを話者分離モデルにそれぞれ転送し、特徴を抽出して第1音声ベクトルおよび第2音声ベクトルを得る。前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を算出する。その後、前記第2スライド窓が前処理音声信号の最後に到達するまで、予め設定された時間幅でスライド窓を移動し、スライド窓を移動するたびに2つの音声セグメントが得られる。毎回分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定する。前記局所最大値に対応する分割点に基づき前記分離待機の音声信号を分割し、新たな音声セグメントを得る。前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングする。
本願発明では、スライド窓の移動で複数の音声セグメントを獲得し、訓練された話者分離モデルを用いて音声セグメントの特徴を抽出して距離値を算出し、距離値間の比較で局所最大値を決定し、局所最大値に対応する分割点を新たな分割点として再度分離待機の音声信号を分割することで、両話者の音声セグメントを得ることができ、分離効果を向上させる。
上述したように、ソフトウェア機能モジュールの形態で実装された集積ユニットは、1つの不揮発性可読記憶媒体に格納されてもよい。
上述したように、ソフトウェア機能モジュールが1つの記憶媒体に格納され、1つの計算機装置(パソコン、二重スクリーン機器、あるいはネットワーク装置などであってもよい)またはプロセッサ(processor)で様々なコマンドを実行し、本願発明のすべての実施例の方法の一部または全部のステップを実現する。
実施例5
図6は本願発明の実施例5に係る端末の概念図である。
端末3は、記憶装置31と、少なくとも1つのプロセッサ32と、前記記憶装置31に格納され、少なくとも1つの前記プロセッサ32で動作可能なコンピュータ可読命令33と、少なくとも1つの通信バス34とを含む。
少なくとも1つの前記プロセッサ32が前記コンピュータ可読命令33を実行したとき、上述の話者分離モデル訓練方法および/または両話者分離方法の実施例におけるステップを実現する。
一例として、前記コンピュータ可読命令33は、1つまたは複数のモジュール/ユニットに分けられ、前記1つまたは複数のモジュール/ユニットが前記記憶装置31に格納され、少なくとも1つの前記プロセッサ32により実行され、本願発明に係る話者分離モデル訓練方法および/または両話者分離方法を実現する。
1つまたは複数のモジュール/ユニットは、前記端末3におけるコンピュータ可読命令33の実行処理を記述するための、特定の機能を実現することができる一連のコンピュータ可読命令セグメントであってもよい。
前記端末3は、デスクトップコンピュータ、ノートパソコン、パームトップコンピュータあるいはクラウドサーバなどの計算装置であっても良い。
当業者であれば理解できるように、前記概念図3は端末3の一例に過ぎて、端末3に対する何の限定を示唆することも意図しておらず、例えば、前記端末3は入出力機器、ネットワークアクセス機器、バス等を含んでいてもよく、図示よりも多くなったり少なくなりったりした構成要素を含んでも、一部の構成要素を組み合わせていても、他の異なった構成要素を搭載したりしてもよい。
少なくとも1つの前記プロセッサ32は、中央処理装置(Central Processing Unit、CPU)であっても、他の汎用処理装置、デジタル信号処理装置(Digital Signal Processor、DSP)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、既成のプログラマブルゲートアレイ(Field−Programmable Gate Array、FPGA)あるいは他のプログラマブルロジックデバイス、ディスクリート素子またはトランジスタ論理デバイス、ディスクリート・ハードウェア・コンポーネントなどであってもよい。
前記プロセッサ32は、マイクロプロセッサであっても良く、あるいは前記プロセッサ32は、いかなる通常のプロセッサなどであり、前記プロセッサ32は前記端末3の制御センターであり、端末3の各部を様々なインタフェースおよび回線で接続する。
前記記憶装置31は、コンピュータ可読命令33および/またはモジュール/ユニットを記憶するために使用され、前記プロセッサ32は、前記記憶装置31に記憶されたコンピュータ可読命令および/またはモジュール/ユニットを運行するか実行し、及び記憶装置31に記憶されたデータを呼び出すことにより、前記端末3の様々な機能を実現するように構成されてもよい。
記憶装置31は主に、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラム(例えば音声再生機能、映像再生機能)などを記憶するためのプログラム記憶領域と、端末3の運用に伴い作成したデータ(例えばオーディオデータ、電話帳など)を記憶するデータための記憶領域を含んでもよい。
さらに、記憶装置31は、ハードディスク、内部メモリ、プラグイン型ハードディスク、スマート・メモリカード(Smart Media Card、SMC)、SDメモリーカード(Secure Digital、SD)、フラッシュメモリカード(Flash Card)、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の揮発性固体記憶装置など、高速ランダムアクセス記憶装置、不揮発性記憶装置を含んでもよい。
前記端末3の集積したモジュール/ユニットは、ソフトウェア機能手段の形式で実現し且つ独立した製品として販売或いは使用される場合は、不揮発性可読記憶媒体に記録されていてもよい。
このような理解に基づき、本願発明において前記実施例を実現する方法のフローの全部または一部は、上述した様々な方法の実施例のステップを実現する為の不揮発性記憶媒体に格納されたコンピュータ可読命令がプロセッサによって実行された時に、関連するハードウェアを制御して実現されてもよい。
そのうち、前記コンピュータ可読命令は、ソースコード形式、オブジェクトコード形式、実行可能ファイル、または何らかの中間形式などのコンピュータ可読命令コードを含んでもよい。
前記不揮発性可読記憶媒体は、前記コンピュータ可読命令コードを搭載した任意のエンティティまたは装置、記録媒体、USBメモリ、ポータブルハードディスク、磁気ディスク、光ディスク、コンピュータ記憶装置、読み取り専用メモリ、ランダムアクセス記憶装置、電気搬送波信号、通信信号、およびソフトウェア配布媒体などを含んでもよい。
なお、前記不揮発性可読記憶媒体に含まれるコンテンツは、司法管轄区域内の法律および特許実践の要求に応じて適切に増減してもよく、例えば、或る司法管轄区域では、法律および特許実践に基づき、不揮発性可読媒体は電気搬送波信号や電気通信信号を含まない。
本願発明で提供するいくつかの実施例において開示する端末と方法は、他の方式で実施されてもよいことを理解されたい。
例えば、前記端末の実施例は単に例示的なものであり、例えばユニットの分割は、論理的な機能分割のみであり、実際の実装時に別の分割方法を採用してもよい。
また、本願発明の各実施例における各機能ユニットは、1つのユニットに集積されていてもよく、様々な物理的な実体に別々に存在してもよく、2つあるいは複数のユニットが同一のユニットに集積されていてもよい。
前記集積ユニットは、ハードウェアの形態で、またはハードウェア化のソフトウェア機能モジュールの形態で実施されてもよい。
当業者にとって、本願発明は、上述の例示的な実施例の詳細に限定されるものではなく、本願発明の精神または基本的な特徴を逸脱することなく、他の具体的な形で本願発明を実現することができることは明らかである。
したがって、いずれの点から見ても、実施例が例示的なものであり、これを根拠として本願発明を限定解釈することは許されない。
本願発明の権利範囲は上記の説明に限定されるものではなく、添付する特許請求の範囲によるものである。
上記の説明は、特許請求の範囲の等価要件の意味および範囲内に含まれるすべての変化をなるべく本出願に網羅するよう意図したことに過ぎない。
特許請求の範囲内のいかなる図面や符号も、特許請求の範囲を制限するものと見なされてはならない。
また、明らかなように、「含む」という言葉は他のユニットやステップを除外するものではなく、単数の場合でも複数が除外されない。
システムの請求項に記載される複数のユニットまたは装置は、ソフトウェアまたはハードウェアにより、同一のユニットまたは装置によって実現されてもよい。
「第1」、「第2」などの単語は名称を表すために使用され、特定の順序を表すものではない。
最後に、前述の実施例は、本願発明のソリューションを説明するため例示的なものであり、これを根拠として、本願発明を限定解釈することは許されない。
上述したような好ましい実施例により、本願発明を詳しく説明したが、同技術分野の一般的な技術者にとって理解しやすいように、本願発明で説明したソリューションを変更したり、技術的特徴を同質的に置き換えたりしても、本願発明のソリューションの精神と本願発明の権利範囲を離脱させることができない。

Claims (20)

  1. 話者分離モデル訓練方法であって、
    複数の人の、複数のオーディオデータを取得するステップと、
    オーディオデータごとに前処理を行うステップと、
    前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
    前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
    第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、前記第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出するステップと、
    第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル 特徴と前記第3ベクトル特徴との間の第2類似度を算出するステップと、
    前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、
    を備えることを特徴とする話者分離モデル訓練方法。
  2. 前記オーディオデータに前処理を行うステップは、
    前記オーディオデータに雑音低減処理を行うステップと、
    雑音低減処理後のオーディオデータに対して音声区間検出を行い、無効な音声を削除し、標準オーディオデータサンプルを得るステップと、
    前記標準オーディオデータサンプルにタグ付けて、前記標準オーディオデータサンプルが属する話者を示すようにするステップと、
    を備えることを特徴とする請求項1記載の話者分離モデル訓練方法。
  3. 前記予め設定されたニューラルネットワークモデルは、予め設定された層数を採用したニューラルネットワーク構造を積層されて構成され、各層のニューラルネットワーク構造は、第1畳み込み層、第1正規化線形ユニット、第2畳み込み層、第2正規化線形ユニット、平均化層、全結合層、単位長正規化層を備え、そのうち前記畳み込み層の畳み込みカーネルは3*3であり、ステップサイズは1*1であり、チャンネル数は64であり、
    前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力し訓練してベクトル特徴を得るステップは、
    前記オーディオ特徴を前記第1畳み込み層に入力して第1畳み込み処理を行い、第1畳み込み特徴を得るステップと、
    前記第1畳み込み特徴を前記第1正規化線形ユニットに入力して第1正規化線形処理を行い、第1正規化線形特徴を得るステップと、
    前記第1正規化線形特徴を前記第2畳み込み層に入力して第2畳み込み処理を行い、第2畳み込み特徴を得るステップと、
    前記オーディオ特徴と前記第2畳み込み特徴とを合算して前記第2正規化線形ユニットに入力し、第2正規化線形特徴を得るステップと、
    前記第2正規化線形特徴を、前記平均化層、全結合層、単位長正規化層に順次入力して処理し、1次元ベクトル特徴を得るサブステップと、を備えることを特徴とする請求項1または2記載の話者分離モデル訓練方法。
  4. Figure 2020527248
    は、算出した第1類似度であり、
    Figure 2020527248
    は、算出した第2類似度であることを特徴とする請求項1記載の話者分離モデル訓練方法。
  5. Figure 2020527248
    た損失関数値であることを特徴とする請求項1記載の話者分離モデル訓練方法。
  6. 両話者分離方法であって、
    1)分離待機の音声信号を前処理するステップと、
    2)前記前処理後の音声信号の開始位置から、左右に隣接する第1スライド窓および第2スライド窓を確立し、前記第1スライド窓および第2スライド窓の分割点に基づき、第1音声セグメントおよび第 2音声セグメントを得るステップと、
    3)請求項1から5のいずれか1項に記載の訓練方法で話者分離モデルが得られ、前記話者分離モデルに前記第1音声セグメントを転送し、特徴を抽出して第1音声ベクトルを得、前記話者分離モデルに前記第2音声セグメントを転送し、特徴を抽出して第2音声ベクトルを得るステップと、
    4)前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
    5)前記第1スライド窓と前記第2スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第2スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ2)〜5)を繰り返すステップと、
    6)各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
    7)前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
    8)前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングするステップと、
    を備えることを特徴とする両話者分離方法。
  7. 前記距離値に基づき局所最大値を決定するステップは、
    すべての分割点に対応する距離値を分割点の時系列に従い順次並べるステップと、
    Figure 2020527248
    に対応する距離値であり、
    Figure 2020527248
    を備えることを特徴とする請求項6記載の両話者分離方法。
  8. 前記距離値に基づき局所最大値を決定するステップは、
    分割点を横軸に、分割点に対応する距離値を縦軸に、滑らかな曲線を描くステップと、
    前記曲線における点の接線を求解するステップと、
    接線の傾斜がゼロである点に対応する距離値を局所最大値として決定すると、
    ステップを備えることを特徴とする請求項6記載の両話者分離方法。
  9. プロセッサと記憶装置とを備える端末であって、前記プロセッサが、前記記憶装置に記憶されたコンピュータ可読命令を実行させる際、
    複数の人の、複数のオーディオデータを取得するステップと、
    オーディオデータごとに前処理を行うステップと、
    前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
    前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
    第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、前記第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出するステップと、
    第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル特徴と前記第3ベクトル特徴との間の第2類似度を算出するステップと、
    前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、
    を実現することを特徴とする端末。
  10. 前記オーディオデータに前処理を行うステップは、
    前記オーディオデータに雑音低減処理を行うステップと、
    雑音低減処理後のオーディオデータに対して音声区間検出を行い、無効な音声を削除し、標準オーディオデータサンプルを得るステップと、
    前記標準オーディオデータサンプルにタグ付けて、前記標準オーディオデータサンプルが属する話者を示すようにするステップと、
    を備えることを特徴とする請求項9記載の端末。
  11. 前記予め設定されたニューラルネットワークモデルは、予め設定された層数を採用したニューラルネットワーク構造を積層されて構成され、各層のニューラルネットワーク構造は、第1畳み込み層、第1正規化線形ユニット、第10畳み込み層、第2正規化線形ユニット、平均化層、全結合層、単位長正規化層を備え、そのうち前記畳み込み層の畳み込みカーネルは3*3であり、ステップサイズは1*1であり、チャンネル数は64であり、
    前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力し訓練してベクトル特徴を得るステップは、
    前記オーディオ特徴を前記第1畳み込み層に入力して第1畳み込み処理を行い、第1畳み込み特徴を得るステップと、
    前記第1畳み込み特徴を前記第1正規化線形ユニットに入力して第1正規化線形処理を行い、第1正規化線形特徴を得るステップと、
    前記第1正規化線形特徴を前記第2畳み込み層に入力して第2畳み込み処理を行い、第2畳み込み特徴を得るステップと、
    前記オーディオ特徴と前記第2畳み込み特徴とを合算して前記第2正規化線形ユニットに入力し、第2正規化線形特徴を得るサブステップと、
    前記第2正規化線形特徴を、前記平均化層、アファイン層、単位長正規化層に順次入力して処理し、1次元ベクトル特徴を得るステップと、を備えることを特徴とする請求項9または10記載の端末。
  12. Figure 2020527248
    Figure 2020527248
    は、算出した第1類似度であり、
    Figure 2020527248
    は、算出した第2類似度であることを特徴とする請求項9記載の端末。
  13. プロセッサと記憶装置とを備える端末であって、前記プロセッサが前記記憶装置に記憶されたコンピュータ可読命令を実行させる際、
    1)分離待機の音声信号を前処理するステップと、
    2)前記前処理後の音声信号の開始位置から、左右に隣接する第1スライド窓および第2スライド窓を確立し、前記第1スライド窓および第2スライド窓の分割点に基づき、第1音声セグメントおよび第2音声セグメントを得るステップと、
    3)請求項9から10のいずれか1項に記載の端末における訓練で話者分離モデルが得られ、前記話者分離モデルに前記第1音声セグメントを転送し、特徴を抽出して第1音声ベクトルを得、前記話者分離モデルに前記第2音声セグメントを転送し、特徴を抽出して第2音声ベクトルを得るステップと、
    4)前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
    5)前記第1スライド窓と前記第2スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第2スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ2)〜5)を繰り返すステップと、
    6)各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
    7)前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
    8)前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングするステップと、を実現することを特徴とする端末。
  14. 前記距離値に基づき局所最大値を決定するステップは、
    すべての分割点に対応する距離値を分割点の時系列に従い順次並べるステップと、
    Figure 2020527248
    に対応する距離値であり、
    Figure 2020527248
    を備えることを特徴とする請求項13記載の端末。
  15. 不揮発性可読記憶媒体であって、前記不揮発性可読記憶媒体にコンピュータ可読命令が格納されており、プロセッサによって前記コンピュータ可読命令が実行される際、
    複数の人の、複数のオーディオデータを取得するステップと、
    オーディオデータごとに前処理を行うステップと、
    前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
    前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
    第1話者の第1ベクトル特徴と第2ベクトル特徴を取得し、予め設定された第1類似度関数に基づき、前記第1ベクトル特徴と第2ベクトル特徴との間の第1類似度を算出するステップと、
    第2話者の第3ベクトル特徴を取得し、予め設定された第2類似度関数に基づき、前記第1ベクトル特徴と前記第3ベクトル特徴との間の第2類似度を算出するステップと、
    前記第1類似度および前記第2類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、
    を実現することを特徴とする不揮発性可読記憶媒体。
  16. 前記オーディオデータに前処理を実行するステップは、
    前記オーディオデータに雑音低減処理を行うステップと、
    雑音低減処理後のオーディオデータに対して音声区間検出を行い、無効な音声を削除し、標準オーディオデータサンプルを得るステップと、
    前記標準オーディオデータサンプルにタグ付けて、前記標準オーディオデータサンプルが属する話者を示すようにするステップと、
    を備えることを特徴とする請求項15記載の記憶媒体。
  17. 前記予め設定されたニューラルネットワークモデルは、予め設定された層数を採用したニューラルネットワーク構造を積層されて構成され、各層のニューラルネットワーク構造は、第1畳み込み層、第1正規化線形ユニット、第10畳み込み層、第2正規化線形ユニット、平均化層、全結合層、単位長正規化層を備え、そのうち前記畳み込み層の畳み込みカーネルは3*3であり、ステップサイズは1*1であり、チャンネル数は64であり、
    前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力し訓練してベクトル特徴を得るステップは、
    前記オーディオ特徴を前記第1畳み込み層に入力して第1畳み込み処理を行い、第1畳み込み特徴を得るステップと、
    前記第1畳み込み特徴を前記第1正規化線形ユニットに入力して第1正規化線形処理を行い、第1正規化線形特徴を得るステップと、
    前記第1正規化線形特徴を前記第2畳み込み層に入力して第2畳み込み処理を行い、第2畳み込み特徴を得るステップと、
    前記オーディオ特徴と前記第2畳み込み特徴とを合算して前記第2正規化線形ユニットに入力し、第2正規化線形特徴を得るステップと、
    前記第2正規化線形特徴を、前記平均化層、アファイン層、単位長正規化層に順次入力して処理し、1次元ベクトル特徴を得るステップと、を備えることを特徴とする請求項15または16記載の記憶媒体。
  18. Figure 2020527248
    は、算出した第1類似度であり、
    Figure 2020527248
    は、算出した第2類似度であることを特徴とする請求項15記載の記憶媒体。
  19. 不揮発性可読記憶媒体であって、前記不揮発性可読記憶媒体にコンピュータ可読命令が格納されており、プロセッサによって前記コンピュータ可読命令が実行される際、
    1)分離待機の音声信号を前処理するステップと、
    2)前記前処理後の音声信号の開始位置から、左右に隣接する第1スライド窓および第2スライド窓を確立し、前記第1スライド窓および第2スライド窓の分割点に基づき、第1音声セグメントおよび第2音声セグメントを得るステップと、
    3)請求項13に記載の記憶媒体に格納されたコンピュータ可読命令がプロセッサによって実行される際に話者分離モデルが得られ、前記話者分離モデルに前記第1音声セグメントを転送し、特徴を抽出して第1音声ベクトルを得、前記話者分離モデルに前記第2音声セグメントを転送し、特徴を抽出して第2音声ベクトルを得るステップと、
    4)前記第1音声ベクトルおよび前記第2音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
    5)前記第1スライド窓と前記第2スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第2スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ2)〜5)を繰り返すステップと、
    6)各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
    7)前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
    8)前記新たな音声セグメントを2人の異なる話者の音声セグメントにクラスタリングするステップと、を実現することを特徴とする不揮発性可読記憶媒体。
  20. 前記距離値に基づき局所最大値を決定するステップは、
    すべての分割点に対応する距離値を分割点の時系列に従い順次並べるステップと、
    Figure 2020527248
    に対応する距離値であり、
    Figure 2020527248
    を備えることを特徴とする請求項19記載の記憶媒体。
JP2019572830A 2018-05-28 2018-08-13 話者分離モデルの訓練方法、両話者の分離方法及び関連設備 Pending JP2020527248A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810519521.6 2018-05-28
CN201810519521.6A CN108766440B (zh) 2018-05-28 2018-05-28 说话人分离模型训练方法、两说话人分离方法及相关设备
PCT/CN2018/100174 WO2019227672A1 (zh) 2018-05-28 2018-08-13 说话人分离模型训练方法、两说话人分离方法及相关设备

Publications (1)

Publication Number Publication Date
JP2020527248A true JP2020527248A (ja) 2020-09-03

Family

ID=64006219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019572830A Pending JP2020527248A (ja) 2018-05-28 2018-08-13 話者分離モデルの訓練方法、両話者の分離方法及び関連設備

Country Status (5)

Country Link
US (1) US11158324B2 (ja)
JP (1) JP2020527248A (ja)
CN (1) CN108766440B (ja)
SG (1) SG11202003722SA (ja)
WO (1) WO2019227672A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023281717A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
WO2023047475A1 (ja) * 2021-09-21 2023-03-30 日本電信電話株式会社 推定装置、推定方法、および、推定プログラム

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109545186B (zh) * 2018-12-16 2022-05-27 魔门塔(苏州)科技有限公司 一种语音识别训练系统及方法
CN109686382A (zh) * 2018-12-29 2019-04-26 平安科技(深圳)有限公司 一种说话人聚类方法和装置
CN110197665B (zh) * 2019-06-25 2021-07-09 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN110444223B (zh) * 2019-06-26 2023-05-23 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN110289002B (zh) * 2019-06-28 2021-04-27 四川长虹电器股份有限公司 一种端到端的说话人聚类方法及系统
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质
CN110718228B (zh) * 2019-10-22 2022-04-12 中信银行股份有限公司 语音分离方法、装置、电子设备及计算机可读存储介质
CN111312256B (zh) * 2019-10-31 2024-05-10 平安科技(深圳)有限公司 语音身份识别的方法、装置及计算机设备
CN110853618B (zh) * 2019-11-19 2022-08-19 腾讯科技(深圳)有限公司 一种语种识别的方法、模型训练的方法、装置及设备
CN110992940B (zh) 2019-11-25 2021-06-15 百度在线网络技术(北京)有限公司 语音交互的方法、装置、设备和计算机可读存储介质
CN110992967A (zh) * 2019-12-27 2020-04-10 苏州思必驰信息科技有限公司 一种语音信号处理方法、装置、助听器及存储介质
CN111145761B (zh) * 2019-12-27 2022-05-24 携程计算机技术(上海)有限公司 模型训练的方法、声纹确认的方法、系统、设备及介质
CN111191787B (zh) * 2019-12-30 2022-07-15 思必驰科技股份有限公司 提取说话人嵌入特征的神经网络的训练方法和装置
CN111370032B (zh) * 2020-02-20 2023-02-14 厦门快商通科技股份有限公司 语音分离方法、系统、移动终端及存储介质
JP7359028B2 (ja) * 2020-02-21 2023-10-11 日本電信電話株式会社 学習装置、学習方法、および、学習プログラム
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
CN111009258A (zh) * 2020-03-11 2020-04-14 浙江百应科技有限公司 一种单声道说话人分离模型、训练方法和分离方法
US11392639B2 (en) * 2020-03-31 2022-07-19 Uniphore Software Systems, Inc. Method and apparatus for automatic speaker diarization
CN111477240B (zh) * 2020-04-07 2023-04-07 浙江同花顺智能科技有限公司 音频处理方法、装置、设备和存储介质
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111524527B (zh) * 2020-04-30 2023-08-22 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN111613249A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 一种语音分析方法和设备
CN111640438B (zh) * 2020-05-26 2023-09-05 同盾控股有限公司 音频数据处理方法、装置、存储介质及电子设备
CN111680631B (zh) * 2020-06-09 2023-12-22 广州视源电子科技股份有限公司 模型训练方法及装置
CN111785291A (zh) * 2020-07-02 2020-10-16 北京捷通华声科技股份有限公司 语音分离方法和语音分离装置
CN111933153B (zh) * 2020-07-07 2024-03-08 北京捷通华声科技股份有限公司 一种语音分割点的确定方法和装置
CN111985934A (zh) * 2020-07-30 2020-11-24 浙江百世技术有限公司 智能客服对话模型构建方法及应用
CN111899755A (zh) * 2020-08-11 2020-11-06 华院数据技术(上海)有限公司 一种说话人语音分离方法及相关设备
CN112071329B (zh) * 2020-09-16 2022-09-16 腾讯科技(深圳)有限公司 一种多人的语音分离方法、装置、电子设备和存储介质
CN112071330B (zh) * 2020-09-16 2022-09-20 腾讯科技(深圳)有限公司 一种音频数据处理方法、设备以及计算机可读存储介质
CN112489682B (zh) * 2020-11-25 2023-05-23 平安科技(深圳)有限公司 音频处理方法、装置、电子设备和存储介质
CN112700766B (zh) * 2020-12-23 2024-03-19 北京猿力未来科技有限公司 语音识别模型的训练方法及装置、语音识别方法及装置
CN112289323B (zh) * 2020-12-29 2021-05-28 深圳追一科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN112820292B (zh) * 2020-12-29 2023-07-18 平安银行股份有限公司 生成会议纪要的方法、装置、电子装置及存储介质
JP2023511241A (ja) * 2020-12-31 2023-03-17 商▲湯▼国▲際▼私人有限公司 ニューラルネットワークのトレーニング方法と装置、および、関連対象検出方法と装置
KR20220115453A (ko) * 2021-02-10 2022-08-17 삼성전자주식회사 음성 구간 인식의 향상을 지원하는 전자 장치
KR20220136750A (ko) 2021-04-01 2022-10-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
KR20220169242A (ko) * 2021-06-18 2022-12-27 삼성전자주식회사 전자 장치 및 전자 장치의 개인화된 음성 처리 방법
US20220406324A1 (en) * 2021-06-18 2022-12-22 Samsung Electronics Co., Ltd. Electronic device and personalized audio processing method of the electronic device
CN113362831A (zh) * 2021-07-12 2021-09-07 科大讯飞股份有限公司 一种说话人分离方法及其相关设备
CN113571085B (zh) * 2021-07-24 2023-09-22 平安科技(深圳)有限公司 语音分离方法、系统、装置和存储介质
CN113657289B (zh) * 2021-08-19 2023-08-08 北京百度网讯科技有限公司 阈值估计模型的训练方法、装置和电子设备
KR20230042998A (ko) * 2021-09-23 2023-03-30 한국전자통신연구원 음성 구간 분리 장치 및 그 방법
CN114363531B (zh) * 2022-01-14 2023-08-01 中国平安人寿保险股份有限公司 基于h5的文案解说视频生成方法、装置、设备以及介质
CN115171716B (zh) * 2022-06-14 2024-04-19 武汉大学 一种基于空间特征聚类的连续语音分离方法、系统及电子设备
CN115659162B (zh) * 2022-09-15 2023-10-03 云南财经大学 雷达辐射源信号脉内特征提取方法、系统及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272398A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声信号用前処理装置
JP2008051907A (ja) * 2006-08-22 2008-03-06 Toshiba Corp 発話区間識別装置及びその方法
JP2016197200A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 不正音声入力判定装置、音声信号処理装置、方法及びプログラム
JP2017120595A (ja) * 2015-12-29 2017-07-06 花王株式会社 化粧料の塗布状態の評価方法
WO2018013200A1 (en) * 2016-07-14 2018-01-18 Magic Leap, Inc. Deep neural network for iris identification
WO2018049313A1 (en) * 2016-09-12 2018-03-15 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018069974A1 (ja) * 2016-10-11 2018-04-19 エスゼット ディージェイアイ テクノロジー カンパニー リミテッド 撮像装置、撮像システム、移動体、方法及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612840B1 (ko) 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
CN106683661B (zh) * 2015-11-05 2021-02-05 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
US10497382B2 (en) * 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置
CN107221320A (zh) * 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
US11010179B2 (en) * 2018-04-20 2021-05-18 Facebook, Inc. Aggregating semantic information for improved understanding of users

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272398A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声信号用前処理装置
JP2008051907A (ja) * 2006-08-22 2008-03-06 Toshiba Corp 発話区間識別装置及びその方法
JP2016197200A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 不正音声入力判定装置、音声信号処理装置、方法及びプログラム
JP2017120595A (ja) * 2015-12-29 2017-07-06 花王株式会社 化粧料の塗布状態の評価方法
WO2018013200A1 (en) * 2016-07-14 2018-01-18 Magic Leap, Inc. Deep neural network for iris identification
JP2019525325A (ja) * 2016-07-14 2019-09-05 マジック リープ, インコーポレイテッドMagic Leap,Inc. 虹彩識別のためのディープニューラルネットワーク
WO2018049313A1 (en) * 2016-09-12 2018-03-15 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
JP2019532354A (ja) * 2016-09-12 2019-11-07 ピンドロップ セキュリティー、インコーポレイテッド ディープニューラルネットワークを使用する端末間話者認識
WO2018069974A1 (ja) * 2016-10-11 2018-04-19 エスゼット ディージェイアイ テクノロジー カンパニー リミテッド 撮像装置、撮像システム、移動体、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HERVE BREDIN: "TristouNet: Triplet loss for speaker turn embedding", INTWRNATIONAL CONFERENCE ON ACOUSTIC, SPEECH AND SIGNAL PROCESSING, vol. 2017, JPN6020046933, 19 June 2017 (2017-06-19), pages 5430 - 5434, ISSN: 0004534321 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023281717A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
WO2023047475A1 (ja) * 2021-09-21 2023-03-30 日本電信電話株式会社 推定装置、推定方法、および、推定プログラム

Also Published As

Publication number Publication date
US11158324B2 (en) 2021-10-26
CN108766440A (zh) 2018-11-06
SG11202003722SA (en) 2020-12-30
CN108766440B (zh) 2020-01-14
US20200234717A1 (en) 2020-07-23
WO2019227672A1 (zh) 2019-12-05

Similar Documents

Publication Publication Date Title
JP2020527248A (ja) 話者分離モデルの訓練方法、両話者の分離方法及び関連設備
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
Czyzewski et al. An audio-visual corpus for multimodal automatic speech recognition
Vijayasenan et al. An information theoretic approach to speaker diarization of meeting data
US6424946B1 (en) Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US11315366B2 (en) Conference recording method and data processing device employing the same
WO2016095218A1 (en) Speaker identification using spatial information
Friedland et al. The ICSI RT-09 speaker diarization system
US9947323B2 (en) Synthetic oversampling to enhance speaker identification or verification
KR20120038000A (ko) 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템
CN108615532B (zh) 一种应用于声场景的分类方法及装置
CN109947971B (zh) 图像检索方法、装置、电子设备及存储介质
US20230095526A1 (en) Target speaker mode
CN113920560A (zh) 多模态说话人身份识别方法、装置和设备
Bredin et al. Integer linear programming for speaker diarization and cross-modal identification in tv broadcast
WO2022179253A1 (zh) 一种设备的语音操作方法、装置和电子设备
CN113889081A (zh) 语音识别方法、介质、装置和计算设备
WO2021217750A1 (zh) 消除语音交互中信道差异的方法及系统、电子设备及介质
US20240160849A1 (en) Speaker diarization supporting episodical content
Park et al. GMM adaptation based online speaker segmentation for spoken document retrieval
Ghahabi et al. EML Submission to Albayzin 2018 Speaker Diarization Challenge.
CN104281682A (zh) 文件分类系统及方法
CN113593609B (zh) 乐曲识别方法、装置、电子设备及计算机可读存储介质
CN112820274B (zh) 一种语音信息识别校正方法和系统
CN113689861B (zh) 一种单声道通话录音的智能分轨方法、装置和系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191216

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210629