JP2020527248A

JP2020527248A - 話者分離モデルの訓練方法、両話者の分離方法及び関連設備

Info

Publication number: JP2020527248A
Application number: JP2019572830A
Authority: JP
Inventors: 峰趙; 健宗王; 京肖
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-28
Filing date: 2018-08-13
Publication date: 2020-09-03
Also published as: US11158324B2; CN108766440A; SG11202003722SA; CN108766440B; US20200234717A1; WO2019227672A1

Abstract

【課題】本願発明は話者分離モデル訓練方法を提供することを目的とする。
【解決手段】本願発明の話者分離モデル訓練方法は、複数のオーディオデータを取得して前処理を行い、前処理後のオーディオデータのオーディオ特徴を抽出するステップと、オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、第１話者の第１ベクトル特徴と第２ベクトル特徴との間の第１類似度を計算するステップと、第１話者の第１ベクトル特徴と第２話者の第３ベクトル特徴との間の第２類似度を計算するステップと、第１類似度と第２類似度の損失関数値を計算し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、話者分離モデルのパラメータをアップデートするステップと、を備える。また、本願発明は両話者分離方法、端末及び記憶媒体を提供する。話者分離モデルが入力したオーディオデータの特徴を抽出する能力を顕著に増強し、両話者の分離精度を向上させ、特に長時間対話の分離タスクでより良い分離効果が得られる。
【選択図】図１

Description

本願発明は生体認証技術分野に関し、特に話者分離モデルの訓練方法、両話者分離方法、端末及び記憶媒体に関する。本願は、２０１８年０５月２８日に中国特許局へ出願された中国出願番号２０１８１０５１９５２１．６、発明の名称：「話者分離モデルの訓練方法、両話者の分離方法及び関連設備」に基づく優先権を主張しており、その出願の全内容は本明細書中に参照として組み入れられている。

オーディオ処理技術の向上に伴い、例えば電話録音、ニュース放送、会議録音など厖大量のデータから、興味がある特定の人の音声を取得する方法が研究の焦点となっている。

話者分離技術とは、複数人の会話の中から音声を話者ごとに自動的に区別し、タグ付けする過程を意味し、つまり「いつ・誰が話すか」という課題を解決する。

両話者分離とは、同じ音声トラックに録音された二人の話者が交互に話す録音を２つの音声トラックに分離し、各音声トラックには一人の話者だけの会話録音が含まれることを意味する。

両話者分離技術は放送、テレビ、メディア、コールセンターなど多くの業界と分野で幅広い需要がある。

従来のベイズ情報量規準（ＢａｙｅｓｉａｎＩｎｆｏｒｍａｔｉｏｎＣｒｉｔｅｒｉｏｎ，ＢＩＣ）を類似度を判定する話者分離技術として利用し、短時間対話の分離タスクで高い効果が得られるが、対話時間が長くなるに連れてＢＩＣの単ガウスモデルは異なる話者データの分布を記述するには不十分で、その話者分離の効果が低くなる。

以上の問題点に鑑みて、本願発明は、話者分離モデルの訓練方法、両話者分離方法、端末及び記憶媒体を提案することを目的とする。

事前に話者分離モデルを訓練することにより、入力したオーディオデータの特徴抽出能力を顕著に増強し、ネットワーク層次の深化に伴う性能低下のリスクを軽減することができる；訓練された話者分離モデルにより両話者の音声を分離することで、両話者の分離精度が向上し、特に長時間対話の分離タスクでより良い分離効果が得られる。

本願発明の第１態様は、
複数の人の、複数のオーディオデータを取得するステップと、
オーディオデータごとに前処理を行うステップと、
前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
第１話者の第１ベクトル特徴と第２ベクトル特徴を取得し、予め設定された第１類似度関数に基づき、前記第１ベクトル特徴と第２ベクトル特徴との間の第１類似度を算出するステップと、
第２話者の第３ベクトル特徴を取得し、予め設定された第２類似度関数に基づき、前記第１ベクトル特徴と前記第３ベクトル特徴との間の第２類似度を算出するステップと、
前記第１類似度および前記第２類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、を備えることを特徴とする話者分離モデルの訓練方法を提供する。

本願発明の第２態様は、
１）分離待機の音声信号を前処理するステップと、
２）前記前処理後の音声信号の開始位置から、左右に隣接する第１スライド窓および第２スライド窓を確立し、前記第１スライド窓および第２スライド窓の分割点に基づき、第１音声セグメントおよび第２音声セグメントを得るステップと、
３）請求項１から５のいずれか１項に記載の訓練方法で話者分離モデル得られ、前記話者分離モデルに前記第１音声セグメントを転送し、特徴を抽出して第１音声ベクトルを得、前記話者分離モデルに前記第２音声セグメントを転送し、特徴を抽出して第２音声ベクトルを得るステップと、
４）前記第１音声ベクトルおよび前記第２音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
５）前記第１スライド窓と前記第２スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第２スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ２）〜５）を繰り返すステップと、
６）各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
７）前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
８）前記新たな音声セグメントを２人の異なる話者の音声セグメントにクラスタリングするステップと、を備えることを特徴とする両話者分離方法を提供する。

本願発明の第３態様は、
プロセッサと記憶装置とを備え、プロセッサが記憶装置に記憶されたコンピュータ可読命令を実行させる際、前記話者分離モデル訓練方法および／または前記両話者分離方法を実現する端末を提供する。

本願発明の第４態様は、プロセッサがコンピュータ可読命令を実行させる際、前記話者分離モデル訓練方法および／または前記両話者分離方法を実現する不揮発性可読記憶媒体を提供する。

本願発明で提案する両話者分離方法、端末及び記憶媒体は、事前に話者分離モデルを訓練することにより、入力したオーディオデータの特徴抽出能力を顕著に増強し、ネットワーク層次の深化に伴う性能低下のリスクを軽減することができる。訓練された話者分離モデルにより両話者の音声を分離することで、両話者の分離精度を向上させ、特に長時間対話の分離タスクでより良い分離効果が得られる。

図１は本願発明の実施例１に係る話者分離モデルの訓練方法を示すフローチャートである。図２は本願発明の実施例２に係る両話者分離方法を示すフローチャートである。本願発明の実施例に係る、分割点および対応する距離値に基づき局所最大値を決定する方法を示す概念図である。図４は本願発明の実施例３に係る話者分離モデルの訓練装置を示す機能モジュール図である。図５は本願発明の実施例４に係る両話者分離装置を示す機能モジュール図である。図６は本願発明の実施例５に係る端末の概念図である。

以下、上述の図面に基づき、本願発明について詳細に説明する。

本発明の上記の目的、特徴及び利点をより明確に理解させるため、図面及び具体的な実施形態を参照しながら本発明を詳しく説明する。なお、矛盾しない限り、本発明の実施例及びその特徴を相互に組み合わせてもよい。

本発明を理解させるため、下記の明細書に具体的な細部が記載されているが、記述する実施例は本発明の一部実施例に過ぎず、全ての実施例ではない。

本発明の実施例に基づき、当業者が創造的労働をせずに取得したすべてのその他実施例は、すべて本発明の保護範囲に入る。

別段の定義がない限り、本願で使用されるすべての技術および科学用語は、本願発明の技術分野に属する技術者が通常理解する意味と同じである。

本願において、本明細書で使用される用語は、特定の実施例を説明するためのものだけであり、本願発明の範囲を制限する意図はない。

本願発明の実施例において提供する話者分離モデル訓練方法および／または両話者分離方法は、１つまたは複数の端末に適用される。

前記話者分離モデル訓練方法及び／又は両話者分離方法は、端末と、前記端末と、ネットワークを介して接続するサーバとで構成されるハードウェア環境にも適用可能である。

ネットワークは、広域ネットワーク、通信市内網あるいはＬＡＮが含まれるが、これに限定されない。

本願発明の実施例に係る話者分離モデル訓練方法及び／又は両話者分離方法は、同時にサーバで実行してもよく、同時に端末で実行してもよいし、また、サーバと端末が共同で実行してもよい。

例えば、本願発明の実施例に係る話者分離モデル訓練方法はサーバにより実行され、本願発明の実施例において提供する両話者分離方法は端末により実行される。

話者分離モデル訓練方法および／または両話者分離方法を機能する端末に関し、本願発明の方法に係る話者分離モデル訓練および／または両話者分離機能を直接、端末にて集積するか、若しくは、本願発明の方法を実現するためのクライアント端末を設置する。

さらに、本願発明に係る方法は、ソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ，ＳＤＫ）の形でサーバなどの機器で運用し、ＳＤＫの形で話者分離モデル訓練および／または両話者分離機能のインタフェースを提供し、端末または他の機器は提供されたインタフェースを通じて両話者分離モデル訓練および／または両話者分離を実現する。

実施例１
図１は本願発明の実施例１係る話者分離モデルの訓練方法を示すフローチャートである。

当該フローチャートの実行順序は、必要に応じて変更されてもよく、いくつかのステップは省略されてもよい。

Ｓ１１において、複数人の複数のオーディオデータを取得する。

本実施例では、複数のオーディオデータの取得は、以下の２つの方法を含んでもよい：

（１）事前にオーディオ機器（例えば録音機など）を設置しておき、前記オーディオ機器により現場で複数人の音声を録音してオーディオデータが得られる。

（２）オーディオデータセットから複数のオーディオデータを取得する。

前記オーディオデータセットは、オープンソースのデータセットであり、例えばＵＢＭデータセット、ＴＶデータセットであり、オープンソースのオーディオデータセットは、話者分離モデルを訓練し、訓練した話者分離モデルの精度を試験するために専用される。

前記ＵＢＭデータセットとＴＶデータセットは、ＮＩＳＴ０４、ＮＩＳＴ０５及びＮＩＳＴ０６から取得し、約５００ｈのオーディオデータを含み、合計５７７人の話者が存在し、１人あたり約１５文がある。

Ｓ１２において、オーディオデータごとに前処理を行う。

本実施例では、複数のオーディオデータを取得した後、複数のオーディオデータに対して、前処理を行うべきであり、オーディオデータの前処理には、以下の１つまたは複数の組み合わせを含む。
１）オーディオデータに雑音低減処理を行う。

取得したオーディオデータには様々な雑音が含まれ、雑音が含まれているオーディオデータからできるだけ多くの純粋な原始音声を抽出するために、ローパスフィルタを用いて前記オーディオデータにおけるホワイトノイズやランダムノイズなどを除去する。
２）雑音低減処理後のオーディオデータに対して音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤ）を行い、無効な音声を削除し、標準オーディオデータサンプルが得られる。

本実施例では、デュアル閾値比較法を用いて音声区間検出を行い、オーディオデータにおける有効な音声と無効な音声を検出し、前記有効な音声は話者の音声であり、前記無効な音声は、前記有効な音声に対して静音を含むが、これに限定されない。
３）前記標準オーディオデータサンプルが属する話者を示すために、標準オーディオデータサンプルにタグ付けする。

前記タグ付けは、オーディオデータに身分属性タグを付けることを意味し、例えば、第１オーディオデータが属する話者Ａに対し、身分属性タグ０１を付け、第２オーディオデータが属する話者Ｂに対し、身分属性タグ０２を付ける。

Ｓ１３において前処理後のオーディオデータのオーディオ特徴を抽出する。

本実施例では、ＭＦＣＣ（メル周波数ケプストラム係数、ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）スペクトル特徴などを用い、前処理後のオーディオデータのオーディオ特徴を抽出してもよい。

メル周波数ケプストラム係数は従来技術であるので、本願発明ではここに詳しく説明しない。

Ｓ１４において前記オーディオ特徴を、予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴が得られる。

本実施例では、前記予め設定されたニューラルネットワークモデルは、予め設定された層数のニューラルネットワーク（Ｄｅｅｐａｒｃｈｉｔｅｃｔｕｒｅ）という構造で積層されており、前記予め設定された層数は、予め設定されたネットワークの層数である。

例えば、あらかじめ９−１２層のニューラルネットワーク構造を設け、ニューラルネットワーク訓練モデルを組み立てる。

具体的には、各層のニューラルネットワーク構造は、第１畳み込み層（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）、第１正規化線形ユニット（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔｓ，ＲｅＬＵ）、第２畳み込み層、第２正規化線形ユニット、平均化層（Ａｖｅｒａｇｅｓｅｎｔｅｎｃｅ）、全結合層（Ａｆｆｉｎｅ）、単位長正規化層（ＬｅｎｇｔｈＮｏｒｍａｌｉｚａｔｉｏｎ）を含み、そのうち畳み込み層の畳み込みカーネルは３＊３、ステップサイズは１＊１、チャンネル数は６４である。

前記予め設定されたニューラルネットワークモデルは、入力されたオーディオ特徴を訓練する具体的な過程は以下の通りである。
１）前記オーディオ特徴を前記第１畳み込み層に入力して第１畳み込み処理を行い、第１畳み込み特徴を得る。
２）前記第１畳み込み特徴を前記第１正規化線形ユニットに入力して第１正規化線形処理を行い、第１正規化線形特徴を得る。
３）前記第１正規化線形特徴を前記第２畳み込み層に入力して第２畳み込み処理を行い、第２畳み込み特徴を得る。
４）前記オーディオ特徴と前記第２畳み込み特徴とを合算して前記第２正規化線形ユニットに入力し、第２正規化線形特徴を得る。
５）前記第２正規化線形特徴を、前記平均化層、全結合層、単位長正規化層に順次入力して処理し、１次元ベクトル特徴を得る。

前記平均化層の役割はｔｅｍｐｏｒａｌｐｏｏｌ（「ｔｅｍｐｏｒａｌｐｏｏｌ」は、時間軸に沿ってベクトル系列の平均値を求めることを意味する）とし、前の層の順方向長・短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）と逆方向ＬＳＴＭから出力のベクトル系列を平均化し、順方向の平均ベクトルと逆方向の平均ベクトルを得ることである。前記全結合層の役割は、順方向平均ベクトルと逆方向平均ベクトルを一つのベクトルに直列することである。前記単位長正規化層は、正規化関数を用いて直列後に形成されたベクトルを処理し、長さが１に正規化された１次元ベクトル特徴を得る。

本実施例では、前記正規化関数はユークリッド距離関数であっても良く、マンハッタン距離関数であっても良く、最小絶対誤差に基づく。

好ましくは、前記全結合層により処理されたベクトルを、前記ユークリッド距離関数により正規化処理した後、正規化された１次元ベクトル特徴を得る。

正規化処理により、前記全結合層による処理後のベクトルを圧縮し、前記全結合層による処理後のベクトルにロバスト性を持たせ、それによって前記話者分離モデルのロバスト性をさらに高める。

また、前記ユークリッド距離関数を用いて正規化することで、前記話者分離モデルの過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）を回避し、それによって前記話者分離モデルの汎化能力を高め、後続の前記話者分離モデルにおけるニューラルネットワーク・パラメータの最適化求解をより安定かつ迅速に求める。

Ｓ１５において、第１話者の第１ベクトル特徴と第２ベクトル特徴を取得し、予め設定された第１類似度関数に基づき、前記第１ベクトル特徴と第２ベクトル特徴との間の第１類似度を算出する。

本実施例では、予め設定された第１類似度関数は、次の（１−１）に示すように余弦類似度関数であってもよい。

Ｓ１６において、第２話者の第３ベクトル特徴を取得し、予め設定された第２類似度関数に基づき、前記第１ベクトル特徴と前記第３ベクトル特徴との間の第２類似度を算出する。

本実施例では、前記予め設定された第２類似度関数は、前記予め設定された第１類似度関数と同じであっても、異なってもよい。

好ましくは、前記予め設定された第２類似度関数は、以下の（１−２）に示すように、ＬＰノルムである。

Ｓ１７において、前記第１類似度および前記第２類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートする。

本実施例において、前記予め設定された損失関数は、次の（１−３）の通りである。

従って、本願発明は、複数のオーディオデータを取得して訓練サンプルを作成し、オーディオデータにタグ付けする。オーディオデータのオーディオ特徴を抽出した後、予め設定されたニューラルネットワークモデルに入力して訓練してベクトル特徴が得られ、第１話者の第１ベクトル特徴と第２ベクトル特徴を取得し、予め設定された第１類似度関数に基づき、第１ベクトル特徴と第２ベクトル特徴との間の第１類似度を算出する。第２話者の第３ベクトル特徴を取得し、予め設定された第２類似度関数に基づき、前記第１ベクトル特徴と前記第３ベクトル特徴との間の第２類似度を算出する。前記第１類似度および前記第２類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートする。

本願発明の畳み込みニューラルネットワーク訓練に基づく話者分離モデルは強い特徴抽出能力を持ち、ネットワーク層次の深化に伴う性能低下のリスクを軽減し、一方、同一話者の異なるオーディオデータのベクトル特徴ができるだけ同じように確保し、異なる話者のオーディオデータのベクトル特徴ができるだけ異なるように確保し、さらに算出した損失関数がより早く収束する条件に達し、話者分離モデルの訓練時間を節約し、話者分離モデルの効率を高める。

実施例２
図２は本願発明の実施例２に係る両話者分離方法を示すフローチャートである。

Ｓ２１において、分離待機の音声信号を前処理する。

本実施例では、分離待機の音声信号を前処理する過程は、以下の通りである。
１）プリエンファシス処理
本実施例では、分離待機の音声信号に対してデジタルフィルタを用いてプリエンファシス処理を施し、高周波数部の音声信号を上げることができる。

具体的には、次の（２−１）通りである。

人間の発声器官自体および音声信号の採集設備などの要素により、採集した音声信号にエイリアシング、高調波歪みなどの問題が発生しやすいため、分離待機の音声信号に対するプリエンファシス処理により、発声システムが抑圧された音声信号の高周波部を補償され、高周波の共振ピークを強調し、音声信号のより高い均一度と平滑度を確保し、後続の音声信号の分離効果を高めることができる。
２）フレーム分割処理
分離待機の音声信号を、予め設定されたフレーム分割パラメータに基づき、フレーム分割を行い、前記予め設定されたフレーム分割パラメータは、例えばフレーム長が１０〜３０ｍｓであり、好ましくは２５ｍｓおきにフレーム分割を行なって、複数の複数の音声フレームが得られる。

こうして、全体の分離待機の音声信号について、フレーム分割処理を行った結果、各フレームの特徴パラメータからなる特徴パラメータ時系列が得られる。

Ｓ２２において、前記前処理後の音声信号の開始位置から、左右に隣接する第１スライド窓および第２スライド窓を確立し、前記第１スライド窓および第２スライド窓の分割点に基づき、第１音声セグメントおよび第２音声セグメントを得る。

本実施例では、前記第１スライド窓および第２スライド窓の長さは０．７〜２秒で、前記第１スライド窓および第２スライド窓の分割点は、前記前処理後の音声信号の可能な話者分割点であり得る。

第１スライド窓は、第１音声セグメントを取得すべきであり、第２スライド窓は、第２音声セグメントを取得すべきであり、前記第１スライド窓と前記第２スライド窓の分割点は、前記第１音声セグメントと前記第２音声セグメントの分割点でもある。

Ｓ２３において、話者分離モデルに前記第１音声セグメントを転送し、特徴を抽出して第１音声ベクトルが得られ、話者分離モデルに前記第２音声セグメントを転送し、特徴を抽出して第２音声ベクトルが得られる。

第１音声セグメントを訓練された話者分離モデルに転送し、訓練された話者分離モデルで第１音声セグメントのメル周波数ケプストラム特徴（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ，ＭＦＣＣ）を抽出し、第１音声ベクトルが得られる。

第２音声セグメントを訓練された話者分離モデルに転送し、訓練された話者分離モデルで第２音声セグメントのメル周波数ケプストラム特徴（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ，ＭＦＣＣ）を抽出し、第２音声ベクトルが得られる。

Ｓ２４において、今回の分割点に対応する距離値を得るために、前記第１音声ベクトルおよび前記第２音声ベクトル間の距離値を計算する。

本実施例では、予め設定された距離関数を用い、各第１音声ベクトルと各第２音声ベクトルとの間の距離値を計算してもよい。

前記予め設定された距離関数は、例えばユークリッド距離関数のような、予め設定された距離関数である。

本願発明では、ユークリッド距離関数を用いて第１音声ベクトルと第２音声ベクトルの距離値を計算する過程について、具体的な説明はしない。

Ｓ２５において、前記第１スライド窓と前記第２スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第２スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップＳ２２−Ｓ２５を繰り返す。

本実施例では、予め設定された時間幅は、５ｍｓであっても良い。

第１スライド窓と第２スライド窓が前記前処理後の音声信号上をスライドすることで、複数のスライド窓の分割点が得られ、これに対応して複数の第１音声セグメントと複数の第２音声セグメントが得られる。

つまり、前記予め設定された時間幅で前記第１スライド窓および第２のスライド窓を同時に移動させるたびに、一つの候補分割点が得られ、各候補分割点は、第１音声セグメントと第２音声セグメントの分割点であり、これに対応して距離値が算出できる。

分割点の個数は距離値の個数に等しい。

Ｓ２６について、各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定する。

本実施例では、前記距離値に基づき局所最大値を決定する具体的な過程は以下の通りである。
１）すべての分割点に対応する距離値を分割点の時系列に従い順次並べる。

複数の局所最大値を決定してもよい。

各局所最大値に対応する分割点は、検索する分割点である。

例えば、分離待機の音声信号は、第１スライド窓と第２スライド窓の移動によって、１０個の分割点が得られ、例えば、Ｔ１、Ｔ２、Ｔ３、Ｔ４、Ｔ５、Ｔ６、Ｔ７、Ｔ８、Ｔ９、Ｔ１０が得られ、各分割点はそれぞれ一つの距離値、例えば、Ｓ１、Ｓ２、Ｓ３、Ｓ４、Ｓ５、Ｓ６、Ｓ７、Ｓ８、Ｓ９、Ｓ１０に対応する。

１０個の距離値を分割点の時系列に従い順次並べ、例えば、Ｓ２＞＝Ｓ１、Ｓ２＞＝Ｓ３の場合、Ｓ２は局所最大値である。

次に、Ｓ４＞＝Ｓ３かつＳ４＞＝Ｓ５かどうかを判断し、そうであれば、Ｓ４は局所最大値であり、そうでなければ、順次類推し、残りの現在距離値とそれぞれ前の距離値または後の距離値との大小関係を判断し、局所最大値を決定する。

代替的な実施形態として、前記距離値に基づく局所最大値の決定は下記のような内容を含んでもよい。

分割点を横軸とし、分割点に対応する距離値を縦軸として、滑らかな曲線を描く。

前記曲線における点の接線を求解する。

接線の傾斜がゼロである点に対応する距離値を局所最大値として決定する。

局所最大値を直感的に表現するため、図３に示すように、分割点を横軸とし、分割点に対応する距離値を縦軸として滑らかな曲線を描いても良い。

図３における各点の接線を求解すると分かるように、Ｓ２、Ｓ４、Ｓ６、Ｓ９に対応する点の接線の傾斜がゼロであるので、Ｓ２、Ｓ４、Ｓ６、Ｓ９が局所最大値として決定される。

Ｓ２７について、前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得る。

本実施例では、局所最大値を決定した後、前記局所最大値に対応する分割点を新たな分割点として前記分離待機の音声信号を再度分割することで、新たな複数の音声セグメントが得られる。

再分割の過程は、分離待機の音声信号から２つの異なる話者の身分転化の時点を探し、その後時点によって音声を複数の短い音声セグメントに分割し、分割された各短い音声セグメントには１人の話者の情報のみが含まれる。

例えば、Ｓ２、Ｓ４、Ｓ６、Ｓ９が局所最大値であれば、前記分離待機の音声信号は、対応する分割点Ｔ２、Ｔ４、Ｔ６、Ｔ９を新たな分割点として分割され、５つの新たな音声セグメントが得られ、それぞれの新たな音声セグメントには１人の話者の音声情報のみが含まれる。

Ｓ２８において、前記新たな音声セグメントを２人の異なる話者の音声セグメントにクラスタリングする。

クラスタリングの過程とは、分割されたすべての同一話者に属する小さなセグメントをいくつかのクラスタリング方法で、再結合することを指す。

本実施例では、前記クラスタリング方法は、Ｋ−ｍｅａｎｓクラスタリングまたは下から上への凝集型階層クラスタリング（ＨＡＣ）であっても良く、前記クラスタリング方法は従来技術であるので、本願発明では詳細な説明を省略する。

従って、本願発明は分離待機の音声信号を前処理した後、前記前処理後の音声信号の開始位置から左右に隣接する第１スライド窓及び第２スライド窓を確立し、前記第１スライド窓及び第２スライド窓の分割点に基づき第１音声セグメント及び第２音声セグメントを得る。前記第１音声セグメントおよび前記第２の音声セグメントを話者分離モデルにそれぞれ転送し、特徴を抽出して第１音声ベクトルおよび第２音声ベクトルを得る。前記第１音声ベクトルおよび前記第２音声ベクトル間の距離値を算出する。その後、前記第２スライド窓が前処理音声信号の最後に到達するまで、予め設定された時間幅でスライド窓を移動し、スライド窓を移動するたびに２つの音声セグメントが得られる。毎回分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定する。前記局所最大値に対応する分割点に基づき前記分離待機の音声信号を分割し、新たな音声セグメントを得る。前記新たな音声セグメントを２人の異なる話者の音声セグメントにクラスタリングする。

本願発明では、スライド窓の移動で複数の音声セグメントを獲得し、訓練された話者分離モデルを用いて音声セグメントの特徴を抽出して距離値を算出し、距離値間の比較で局所最大値を決定し、局所最大値に対応する分割点を新たな分割点として再度分離待機の音声信号を分割することで、両話者の音声セグメントを得ることができ、分離効果を向上させる。

以上、本願発明の具体的な実施例について詳細に説明したが、本願発明はこれらの好適な実施形態に限定されるものではなく、当業者にとっては、本願の創造構想を逸脱することなく、本願発明の範囲内で種々の変形又は修正が可能であり、そのような変形又は修正も、本願発明の特許請求の範囲内に含まれるものであることは、言うまでもない。

次に、図４から図６によって、上記話者分離モデル訓練方法と両話者分離方法を実現する端末の機能モジュールとハードウェア構成をそれぞれ紹介する。

実施例３
図４は本願発明に係る話者分離モデルの訓練装置を示す好適な実施例の機能モジュール図である。

ある実施例では、前記話者分離モデル訓練装置４０は端末内で動作する。

前記話者分離モデル訓練装置４０は、プログラムコードセグメントからなる複数の機能モジュールを含んでもよい。

前記話者分離モデル訓練装置４０の各プログラムセグメントのプログラムコードは、話者分離モデルを訓練するために（図１およびその関連説明を参照）、記憶装置に格納され、少なくとも１つのプロセッサによって実行されても良い。

本実施例では、前記端末の話者分離モデル訓練装置４０は、その実行機能に基づき、複数の機能モジュールに分割する。

前記機能モジュールは、取得モジュール４０１、前処理モジュール４０２、特徴抽出モジュール４０３、訓練モジュール４０４、計算モジュール４０５及びアップデートモジュール４０６を含む。

本願発明におけるいわゆるモジュールとは、少なくとも１つのプロセッサによって実行され、所定の機能を完了することができる、記憶装置に記憶された一連のコンピュータ可読命令セグメントのことを指す。

ある実施例において、モジュールの機能については、以下の実施例で詳述する。

取得モジュール４０１は、複数の話者の、複数のオーディオデータを取得する。

本実施例では、複数のオーディオデータの取得は、以下の２つの方法を含む。

（１）事前にオーディオ機器（例えば録音機など）を設置しておき、前記オーディオ機器により現場で複数人の音声を録音してオーディオデータを得る。

前記オーディオデータセットは、オープンソースのデータセットであり、例えばＵＢＭデータセット、ＴＶデータセットであり、オープンソースのオーディオデータセットは話者分離モデルを訓練し、訓練した話者分離モデルの精度を試験するために専用される。

前処理モジュール４０２はオーディオデータごとに前処理を行う。

本実施例では、複数のオーディオデータを取得した後、複数のオーディオデータに対して、前処理を行うべきであり、前処理モジュール４０２がオーディオデータを前処理するのには、以下の１つまたは複数の組み合わせを含む。
１）オーディオデータに雑音低減処理を行う。

本実施例では、デュアル閾値比較法を用いて音声区間検出を行い、オーディオデータにおける有効な音声と無効な音声を検出し、前記有効な音声とは話者の音声であり、前記無効な音声は、前記有効な音声に対して静音を含むが、これに限定されない。
３）前記標準オーディオデータサンプルが属する話者を示すために、標準オーディオデータサンプルにタグ付けする。

特徴抽出モジュール４０３は、前処理後のオーディオデータのオーディオ特徴を抽出する。

訓練モジュール４０４は、前記オーディオ特徴を、予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴が得られる。

前記訓練モジュール４０４は、前記予め設定されたニューラルネットワークモデルを介して入力されたオーディオ特徴を訓練する具体的な過程は以下の通りである。
１）前記オーディオ特徴を前記第１畳み込み層に入力して第１畳み込み処理を行い、第１畳み込み特徴を得る。
２）前記第１畳み込み特徴を前記第１正規化線形ユニットに入力して第１正規化線形処理を行い、第１正規化線形特徴を得る。
３）前記第１正規化線形特徴を前記第２畳み込み層に入力して第２畳み込み処理を行い、第２畳み込み特徴を得る。
４）前記オーディオ特徴と前記第２畳み込み特徴とを合算して前記第２正規化線形ユニットに入力し、第２正規化線形特徴を得る。
５）前記第２正規化線形特徴を、前記平均化層、全結合層、単位長正規化層に順次入力して処理し、１次元ベクトル特徴を得る。

また、ユークリッド距離関数を用いて正規化することで、前記話者分離モデルの過剰適合を回避し、それによって前記話者分離モデルの汎化能力を高め、後続の前記話者分離モデルにおけるニューラルネットワーク・パラメータの最適化求解をより安定かつ迅速に求めることにも繋がる。

計算モジュール４０５は、第１話者の第１ベクトル特徴と第２ベクトル特徴を取得し、予め設定された第１類似度関数に基づき、前記第１ベクトル特徴と第２ベクトル特徴との間の第１類似度を算出する。

前記計算モジュール４０５は、さらに、第２話者の第３ベクトル特徴を取得し、予め設定された第２類似度関数に基づき、前記第１ベクトル特徴と前記第３ベクトル特徴との間の第２類似度を算出するように構成される。

アップデートモジュール４０６は、前記第１類似度および前記第２類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートする。

本実施例において、前記予め設定された損失関数は、次の（１−３）のようである。

実施例４
図５は本願発明係る両話者分離装置を示す好適な実施例の機能モジュール図である。

ある実施例では、前記両話者分離装置５０は端末内で動作する。

前記両話者分離装置５０は、プログラムコードセグメントからなる複数の機能モジュールを含んでもよい。

前記両話者分離装置５０の各プログラムセグメントのプログラムコードは、記憶装置に格納され、少なくとも１つのプロセッサによって実行され、（図２および関連説明を参照）両話者の音声信号を分離し、２つの音声セグメントが得られ、各音声セグメントが１人の話者の音声情報のみを含む。

本実施例では、前記端末の両話者分離装置５０は、その実行機能に基づき、複数の機能モジュールに分割する。

前記機能モジュールは、処理モジュール５０１、第１分割モジュール５０２、ベクトル抽出モジュール５０３、計算モジュール５０４、比較モジュール５０５、第２分割モジュール５０６、およびクラスタリングモジュール５０７を含む。

処理モジュール５０１は、分離待機の音声信号を前処理する。

本実施例では、前記処理モジュール５０１が分離待機の音声信号を前処理する過程は以下の通りである。
１）プリエンファシス処理
本実施例では、分離待機の音声信号に対してデジタルフィルタを用いてプリエンファシス処理を施し、高周波数部の音声信号を上げることができる。

具体的には、次の（２−１）の通りである。

人間の発声器官自体および音声信号の採集設備などの要素により、採集した音声信号にエイリアシング、高調波歪みなどの問題が発生しやすいため、分離待機の音声信号に対するプリエンファシス処理により、発声システムが抑圧された音声信号の高周波部を補償され、高周波の共振ピークを強調し、音声信号のより高い均一度と平滑度を確保し、後続の音声信号の分離効果を高めることができる。
２）フレーム分割処理
分離待機の音声信号を、予め設定されたフレーム分割パラメータに基づき、フレーム分割を行い、前記予め設定されたフレーム分割パラメータは例えば、フレーム長が１０〜３０ｍｓであり、好ましくは２５ｍｓおきにフレーム分割を行なって、複数の複数の音声フレームが得られる。

第１分割モジュール５０２は、前記前処理後の音声信号の開始位置から、左右に隣接する第１スライド窓および第２スライド窓を確立し、前記第１スライド窓および第２スライド窓の分割点に基づき、第１音声セグメントおよび第２音声セグメントを得る。

第１スライド窓は、第１音声セグメントを取得すべきであり、第２スライド窓は第２音声セグメントを取得すべきであり、前記第１スライド窓と前記第２スライド窓の分割点は、前記第１音声セグメントと前記第２音声セグメントの分割点でもある。

ベクトル抽出モジュール５０３は、話者分離モデルに前記第１音声セグメントを転送し、特徴を抽出して第１音声ベクトルが得られ、話者分離モデルに前記第２音声セグメントを転送し、特徴を抽出して第２音声ベクトルが得られる。

計算モジュール５０４は、今回の分割点に対応する距離値を得るために、前記第１音声ベクトルおよび前記第２音声ベクトル間の距離値を計算するように構成される。

前記第１スライド窓と前記第２スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第２スライド窓が前記前処理後の音声信号の最後に到達するまで、上述モジュール（５０２−５０４）を繰り返す。

つまり、前記予め設定された時間幅で前記第１スライド窓および第２のスライド窓を同時に移動させるたびに、一つの候補分割点が得られ、各候補分割点は第１音声セグメントと第２音声セグメントの分割点であり、これに対応して距離値が算出できる。

分割点の個数は距離値の個数に等しい。

比較モジュール５０５は、各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定する。

本実施例では、前記比較モジュール５０５が前記距離値に基づき局所最大値を決定する具体的な過程は以下の通りである。
１）すべての分割点に対応する距離値を分割点の時系列に従い順次並べる。

複数の局所最大値を決定してもよい。

例えば、分離待機の音声信号は、第１スライド窓と第２スライド窓の移動によって、１０個の分割点、例えば、Ｔ１、Ｔ２、Ｔ３、Ｔ４、Ｔ５、Ｔ６、Ｔ７、Ｔ８、Ｔ９、Ｔ１０が得られ、各分割点はそれぞれ一つの距離値、例えば、Ｓ１、Ｓ２、Ｓ３、Ｓ４、Ｓ５、Ｓ６、Ｓ７、Ｓ８、Ｓ９、Ｓ１０に対応する。

代替的な実施形態として、前記比較モジュール５０５が前記距離値に基づく局所最大値の決定は下記のような内容を含んでもよい。

分割点を横軸とし、分割点に対応する距離値を縦軸とし、滑らかな曲線を描く。

前記曲線における点の接線を求解する。

局所最大値を直感的に表現するため、図３に示すように、分割点を横軸にとし、分割点に対応する距離値を縦軸として滑らかな曲線を描いても良い。

第２分割モジュール５０６は、前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るように構成される。

クラスタリングモジュール５０７は、前記新たな音声セグメントを２人の異なる話者の音声セグメントにクラスタリングするように構成される。

上述したように、ソフトウェア機能モジュールの形態で実装された集積ユニットは、１つの不揮発性可読記憶媒体に格納されてもよい。

上述したように、ソフトウェア機能モジュールが１つの記憶媒体に格納され、１つの計算機装置（パソコン、二重スクリーン機器、あるいはネットワーク装置などであってもよい）またはプロセッサ（ｐｒｏｃｅｓｓｏｒ）で様々なコマンドを実行し、本願発明のすべての実施例の方法の一部または全部のステップを実現する。

実施例５
図６は本願発明の実施例５に係る端末の概念図である。

端末３は、記憶装置３１と、少なくとも１つのプロセッサ３２と、前記記憶装置３１に格納され、少なくとも１つの前記プロセッサ３２で動作可能なコンピュータ可読命令３３と、少なくとも１つの通信バス３４とを含む。

少なくとも１つの前記プロセッサ３２が前記コンピュータ可読命令３３を実行したとき、上述の話者分離モデル訓練方法および／または両話者分離方法の実施例におけるステップを実現する。

一例として、前記コンピュータ可読命令３３は、１つまたは複数のモジュール／ユニットに分けられ、前記１つまたは複数のモジュール／ユニットが前記記憶装置３１に格納され、少なくとも１つの前記プロセッサ３２により実行され、本願発明に係る話者分離モデル訓練方法および／または両話者分離方法を実現する。

１つまたは複数のモジュール／ユニットは、前記端末３におけるコンピュータ可読命令３３の実行処理を記述するための、特定の機能を実現することができる一連のコンピュータ可読命令セグメントであってもよい。

前記端末３は、デスクトップコンピュータ、ノートパソコン、パームトップコンピュータあるいはクラウドサーバなどの計算装置であっても良い。

当業者であれば理解できるように、前記概念図３は端末３の一例に過ぎて、端末３に対する何の限定を示唆することも意図しておらず、例えば、前記端末３は入出力機器、ネットワークアクセス機器、バス等を含んでいてもよく、図示よりも多くなったり少なくなりったりした構成要素を含んでも、一部の構成要素を組み合わせていても、他の異なった構成要素を搭載したりしてもよい。

少なくとも１つの前記プロセッサ３２は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）であっても、他の汎用処理装置、デジタル信号処理装置（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、既成のプログラマブルゲートアレイ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）あるいは他のプログラマブルロジックデバイス、ディスクリート素子またはトランジスタ論理デバイス、ディスクリート・ハードウェア・コンポーネントなどであってもよい。

前記プロセッサ３２は、マイクロプロセッサであっても良く、あるいは前記プロセッサ３２は、いかなる通常のプロセッサなどであり、前記プロセッサ３２は前記端末３の制御センターであり、端末３の各部を様々なインタフェースおよび回線で接続する。

前記記憶装置３１は、コンピュータ可読命令３３および／またはモジュール／ユニットを記憶するために使用され、前記プロセッサ３２は、前記記憶装置３１に記憶されたコンピュータ可読命令および／またはモジュール／ユニットを運行するか実行し、及び記憶装置３１に記憶されたデータを呼び出すことにより、前記端末３の様々な機能を実現するように構成されてもよい。

記憶装置３１は主に、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラム（例えば音声再生機能、映像再生機能）などを記憶するためのプログラム記憶領域と、端末３の運用に伴い作成したデータ（例えばオーディオデータ、電話帳など）を記憶するデータための記憶領域を含んでもよい。

さらに、記憶装置３１は、ハードディスク、内部メモリ、プラグイン型ハードディスク、スマート・メモリカード（ＳｍａｒｔＭｅｄｉａＣａｒｄ、ＳＭＣ）、ＳＤメモリーカード（ＳｅｃｕｒｅＤｉｇｉｔａｌ、ＳＤ）、フラッシュメモリカード（ＦｌａｓｈＣａｒｄ）、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の揮発性固体記憶装置など、高速ランダムアクセス記憶装置、不揮発性記憶装置を含んでもよい。

前記端末３の集積したモジュール／ユニットは、ソフトウェア機能手段の形式で実現し且つ独立した製品として販売或いは使用される場合は、不揮発性可読記憶媒体に記録されていてもよい。

このような理解に基づき、本願発明において前記実施例を実現する方法のフローの全部または一部は、上述した様々な方法の実施例のステップを実現する為の不揮発性記憶媒体に格納されたコンピュータ可読命令がプロセッサによって実行された時に、関連するハードウェアを制御して実現されてもよい。

そのうち、前記コンピュータ可読命令は、ソースコード形式、オブジェクトコード形式、実行可能ファイル、または何らかの中間形式などのコンピュータ可読命令コードを含んでもよい。

前記不揮発性可読記憶媒体は、前記コンピュータ可読命令コードを搭載した任意のエンティティまたは装置、記録媒体、ＵＳＢメモリ、ポータブルハードディスク、磁気ディスク、光ディスク、コンピュータ記憶装置、読み取り専用メモリ、ランダムアクセス記憶装置、電気搬送波信号、通信信号、およびソフトウェア配布媒体などを含んでもよい。

なお、前記不揮発性可読記憶媒体に含まれるコンテンツは、司法管轄区域内の法律および特許実践の要求に応じて適切に増減してもよく、例えば、或る司法管轄区域では、法律および特許実践に基づき、不揮発性可読媒体は電気搬送波信号や電気通信信号を含まない。

本願発明で提供するいくつかの実施例において開示する端末と方法は、他の方式で実施されてもよいことを理解されたい。

例えば、前記端末の実施例は単に例示的なものであり、例えばユニットの分割は、論理的な機能分割のみであり、実際の実装時に別の分割方法を採用してもよい。

また、本願発明の各実施例における各機能ユニットは、１つのユニットに集積されていてもよく、様々な物理的な実体に別々に存在してもよく、２つあるいは複数のユニットが同一のユニットに集積されていてもよい。

前記集積ユニットは、ハードウェアの形態で、またはハードウェア化のソフトウェア機能モジュールの形態で実施されてもよい。

当業者にとって、本願発明は、上述の例示的な実施例の詳細に限定されるものではなく、本願発明の精神または基本的な特徴を逸脱することなく、他の具体的な形で本願発明を実現することができることは明らかである。

したがって、いずれの点から見ても、実施例が例示的なものであり、これを根拠として本願発明を限定解釈することは許されない。

本願発明の権利範囲は上記の説明に限定されるものではなく、添付する特許請求の範囲によるものである。

上記の説明は、特許請求の範囲の等価要件の意味および範囲内に含まれるすべての変化をなるべく本出願に網羅するよう意図したことに過ぎない。

特許請求の範囲内のいかなる図面や符号も、特許請求の範囲を制限するものと見なされてはならない。

また、明らかなように、「含む」という言葉は他のユニットやステップを除外するものではなく、単数の場合でも複数が除外されない。

システムの請求項に記載される複数のユニットまたは装置は、ソフトウェアまたはハードウェアにより、同一のユニットまたは装置によって実現されてもよい。

「第１」、「第２」などの単語は名称を表すために使用され、特定の順序を表すものではない。

最後に、前述の実施例は、本願発明のソリューションを説明するため例示的なものであり、これを根拠として、本願発明を限定解釈することは許されない。

上述したような好ましい実施例により、本願発明を詳しく説明したが、同技術分野の一般的な技術者にとって理解しやすいように、本願発明で説明したソリューションを変更したり、技術的特徴を同質的に置き換えたりしても、本願発明のソリューションの精神と本願発明の権利範囲を離脱させることができない。

Claims

話者分離モデル訓練方法であって、
複数の人の、複数のオーディオデータを取得するステップと、
オーディオデータごとに前処理を行うステップと、
前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
第１話者の第１ベクトル特徴と第２ベクトル特徴を取得し、予め設定された第１類似度関数に基づき、前記第１ベクトル特徴と第２ベクトル特徴との間の第１類似度を算出するステップと、
第２話者の第３ベクトル特徴を取得し、予め設定された第２類似度関数に基づき、前記第１ベクトル特徴と前記第３ベクトル特徴との間の第２類似度を算出するステップと、
前記第１類似度および前記第２類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、
を備えることを特徴とする話者分離モデル訓練方法。
前記オーディオデータに前処理を行うステップは、
前記オーディオデータに雑音低減処理を行うステップと、
雑音低減処理後のオーディオデータに対して音声区間検出を行い、無効な音声を削除し、標準オーディオデータサンプルを得るステップと、
前記標準オーディオデータサンプルにタグ付けて、前記標準オーディオデータサンプルが属する話者を示すようにするステップと、
を備えることを特徴とする請求項１記載の話者分離モデル訓練方法。
前記予め設定されたニューラルネットワークモデルは、予め設定された層数を採用したニューラルネットワーク構造を積層されて構成され、各層のニューラルネットワーク構造は、第１畳み込み層、第１正規化線形ユニット、第２畳み込み層、第２正規化線形ユニット、平均化層、全結合層、単位長正規化層を備え、そのうち前記畳み込み層の畳み込みカーネルは３＊３であり、ステップサイズは１＊１であり、チャンネル数は６４であり、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力し訓練してベクトル特徴を得るステップは、
前記オーディオ特徴を前記第１畳み込み層に入力して第１畳み込み処理を行い、第１畳み込み特徴を得るステップと、
前記第１畳み込み特徴を前記第１正規化線形ユニットに入力して第１正規化線形処理を行い、第１正規化線形特徴を得るステップと、
前記第１正規化線形特徴を前記第２畳み込み層に入力して第２畳み込み処理を行い、第２畳み込み特徴を得るステップと、
前記オーディオ特徴と前記第２畳み込み特徴とを合算して前記第２正規化線形ユニットに入力し、第２正規化線形特徴を得るステップと、
前記第２正規化線形特徴を、前記平均化層、全結合層、単位長正規化層に順次入力して処理し、１次元ベクトル特徴を得るサブステップと、を備えることを特徴とする請求項１または２記載の話者分離モデル訓練方法。
は、算出した第１類似度であり、

は、算出した第２類似度であることを特徴とする請求項１記載の話者分離モデル訓練方法。
た損失関数値であることを特徴とする請求項１記載の話者分離モデル訓練方法。
両話者分離方法であって、
１）分離待機の音声信号を前処理するステップと、
２）前記前処理後の音声信号の開始位置から、左右に隣接する第１スライド窓および第２スライド窓を確立し、前記第１スライド窓および第２スライド窓の分割点に基づき、第１音声セグメントおよび第２音声セグメントを得るステップと、
３）請求項１から５のいずれか１項に記載の訓練方法で話者分離モデルが得られ、前記話者分離モデルに前記第１音声セグメントを転送し、特徴を抽出して第１音声ベクトルを得、前記話者分離モデルに前記第２音声セグメントを転送し、特徴を抽出して第２音声ベクトルを得るステップと、
４）前記第１音声ベクトルおよび前記第２音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
５）前記第１スライド窓と前記第２スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第２スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ２）〜５）を繰り返すステップと、
６）各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
７）前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
８）前記新たな音声セグメントを２人の異なる話者の音声セグメントにクラスタリングするステップと、
を備えることを特徴とする両話者分離方法。
前記距離値に基づき局所最大値を決定するステップは、
すべての分割点に対応する距離値を分割点の時系列に従い順次並べるステップと、

に対応する距離値であり、

を備えることを特徴とする請求項６記載の両話者分離方法。
前記距離値に基づき局所最大値を決定するステップは、
分割点を横軸に、分割点に対応する距離値を縦軸に、滑らかな曲線を描くステップと、
前記曲線における点の接線を求解するステップと、
接線の傾斜がゼロである点に対応する距離値を局所最大値として決定すると、
ステップを備えることを特徴とする請求項６記載の両話者分離方法。
プロセッサと記憶装置とを備える端末であって、前記プロセッサが、前記記憶装置に記憶されたコンピュータ可読命令を実行させる際、
複数の人の、複数のオーディオデータを取得するステップと、
オーディオデータごとに前処理を行うステップと、
前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
第１話者の第１ベクトル特徴と第２ベクトル特徴を取得し、予め設定された第１類似度関数に基づき、前記第１ベクトル特徴と第２ベクトル特徴との間の第１類似度を算出するステップと、
第２話者の第３ベクトル特徴を取得し、予め設定された第２類似度関数に基づき、前記第１ベクトル特徴と前記第３ベクトル特徴との間の第２類似度を算出するステップと、
前記第１類似度および前記第２類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、
を実現することを特徴とする端末。
前記オーディオデータに前処理を行うステップは、
前記オーディオデータに雑音低減処理を行うステップと、
雑音低減処理後のオーディオデータに対して音声区間検出を行い、無効な音声を削除し、標準オーディオデータサンプルを得るステップと、
前記標準オーディオデータサンプルにタグ付けて、前記標準オーディオデータサンプルが属する話者を示すようにするステップと、
を備えることを特徴とする請求項９記載の端末。
前記予め設定されたニューラルネットワークモデルは、予め設定された層数を採用したニューラルネットワーク構造を積層されて構成され、各層のニューラルネットワーク構造は、第１畳み込み層、第１正規化線形ユニット、第１０畳み込み層、第２正規化線形ユニット、平均化層、全結合層、単位長正規化層を備え、そのうち前記畳み込み層の畳み込みカーネルは３＊３であり、ステップサイズは１＊１であり、チャンネル数は６４であり、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力し訓練してベクトル特徴を得るステップは、
前記オーディオ特徴を前記第１畳み込み層に入力して第１畳み込み処理を行い、第１畳み込み特徴を得るステップと、
前記第１畳み込み特徴を前記第１正規化線形ユニットに入力して第１正規化線形処理を行い、第１正規化線形特徴を得るステップと、
前記第１正規化線形特徴を前記第２畳み込み層に入力して第２畳み込み処理を行い、第２畳み込み特徴を得るステップと、
前記オーディオ特徴と前記第２畳み込み特徴とを合算して前記第２正規化線形ユニットに入力し、第２正規化線形特徴を得るサブステップと、
前記第２正規化線形特徴を、前記平均化層、アファイン層、単位長正規化層に順次入力して処理し、１次元ベクトル特徴を得るステップと、を備えることを特徴とする請求項９または１０記載の端末。
は、算出した第１類似度であり、

は、算出した第２類似度であることを特徴とする請求項９記載の端末。
プロセッサと記憶装置とを備える端末であって、前記プロセッサが前記記憶装置に記憶されたコンピュータ可読命令を実行させる際、
１）分離待機の音声信号を前処理するステップと、
２）前記前処理後の音声信号の開始位置から、左右に隣接する第１スライド窓および第２スライド窓を確立し、前記第１スライド窓および第２スライド窓の分割点に基づき、第１音声セグメントおよび第２音声セグメントを得るステップと、
３）請求項９から１０のいずれか１項に記載の端末における訓練で話者分離モデルが得られ、前記話者分離モデルに前記第１音声セグメントを転送し、特徴を抽出して第１音声ベクトルを得、前記話者分離モデルに前記第２音声セグメントを転送し、特徴を抽出して第２音声ベクトルを得るステップと、
４）前記第１音声ベクトルおよび前記第２音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
５）前記第１スライド窓と前記第２スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第２スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ２）〜５）を繰り返すステップと、
６）各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
７）前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
８）前記新たな音声セグメントを２人の異なる話者の音声セグメントにクラスタリングするステップと、を実現することを特徴とする端末。
前記距離値に基づき局所最大値を決定するステップは、
すべての分割点に対応する距離値を分割点の時系列に従い順次並べるステップと、

に対応する距離値であり、

を備えることを特徴とする請求項１３記載の端末。
不揮発性可読記憶媒体であって、前記不揮発性可読記憶媒体にコンピュータ可読命令が格納されており、プロセッサによって前記コンピュータ可読命令が実行される際、
複数の人の、複数のオーディオデータを取得するステップと、
オーディオデータごとに前処理を行うステップと、
前処理後のオーディオデータのオーディオ特徴を抽出するステップと、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力して訓練し、ベクトル特徴を得るステップと、
第１話者の第１ベクトル特徴と第２ベクトル特徴を取得し、予め設定された第１類似度関数に基づき、前記第１ベクトル特徴と第２ベクトル特徴との間の第１類似度を算出するステップと、
第２話者の第３ベクトル特徴を取得し、予め設定された第２類似度関数に基づき、前記第１ベクトル特徴と前記第３ベクトル特徴との間の第２類似度を算出するステップと、
前記第１類似度および前記第２類似度を予め設定された損失関数に入力して損失関数値を算出し、損失関数値が予め設定された損失関数閾値以下である場合、話者分離モデルの訓練処理を終了し、前記話者分離モデルのパラメータをアップデートするステップと、
を実現することを特徴とする不揮発性可読記憶媒体。
前記オーディオデータに前処理を実行するステップは、
前記オーディオデータに雑音低減処理を行うステップと、
雑音低減処理後のオーディオデータに対して音声区間検出を行い、無効な音声を削除し、標準オーディオデータサンプルを得るステップと、
前記標準オーディオデータサンプルにタグ付けて、前記標準オーディオデータサンプルが属する話者を示すようにするステップと、
を備えることを特徴とする請求項１５記載の記憶媒体。
前記予め設定されたニューラルネットワークモデルは、予め設定された層数を採用したニューラルネットワーク構造を積層されて構成され、各層のニューラルネットワーク構造は、第１畳み込み層、第１正規化線形ユニット、第１０畳み込み層、第２正規化線形ユニット、平均化層、全結合層、単位長正規化層を備え、そのうち前記畳み込み層の畳み込みカーネルは３＊３であり、ステップサイズは１＊１であり、チャンネル数は６４であり、
前記オーディオ特徴を予め設定されたニューラルネットワークモデルに入力し訓練してベクトル特徴を得るステップは、
前記オーディオ特徴を前記第１畳み込み層に入力して第１畳み込み処理を行い、第１畳み込み特徴を得るステップと、
前記第１畳み込み特徴を前記第１正規化線形ユニットに入力して第１正規化線形処理を行い、第１正規化線形特徴を得るステップと、
前記第１正規化線形特徴を前記第２畳み込み層に入力して第２畳み込み処理を行い、第２畳み込み特徴を得るステップと、
前記オーディオ特徴と前記第２畳み込み特徴とを合算して前記第２正規化線形ユニットに入力し、第２正規化線形特徴を得るステップと、
前記第２正規化線形特徴を、前記平均化層、アファイン層、単位長正規化層に順次入力して処理し、１次元ベクトル特徴を得るステップと、を備えることを特徴とする請求項１５または１６記載の記憶媒体。
は、算出した第１類似度であり、

は、算出した第２類似度であることを特徴とする請求項１５記載の記憶媒体。
不揮発性可読記憶媒体であって、前記不揮発性可読記憶媒体にコンピュータ可読命令が格納されており、プロセッサによって前記コンピュータ可読命令が実行される際、
１）分離待機の音声信号を前処理するステップと、
２）前記前処理後の音声信号の開始位置から、左右に隣接する第１スライド窓および第２スライド窓を確立し、前記第１スライド窓および第２スライド窓の分割点に基づき、第１音声セグメントおよび第２音声セグメントを得るステップと、
３）請求項１３に記載の記憶媒体に格納されたコンピュータ可読命令がプロセッサによって実行される際に話者分離モデルが得られ、前記話者分離モデルに前記第１音声セグメントを転送し、特徴を抽出して第１音声ベクトルを得、前記話者分離モデルに前記第２音声セグメントを転送し、特徴を抽出して第２音声ベクトルを得るステップと、
４）前記第１音声ベクトルおよび前記第２音声ベクトル間の距離値を計算して、今回の分割点に対応する距離値が得られるステップと、
５）前記第１スライド窓と前記第２スライド窓を同時に時間軸方向に所定時間幅で移動し、前記第２スライド窓が前記前処理後の音声信号の最後に到達するまで、ステップ２）〜５）を繰り返すステップと、
６）各分割点に対応する距離値を取得し、前記距離値に基づき局所最大値を決定するステップと、
７）前記局所最大値に対応する分割点に基づき、前記分離待機の音声信号を分割し、新たな音声セグメントを得るステップと、
８）前記新たな音声セグメントを２人の異なる話者の音声セグメントにクラスタリングするステップと、を実現することを特徴とする不揮発性可読記憶媒体。
前記距離値に基づき局所最大値を決定するステップは、
すべての分割点に対応する距離値を分割点の時系列に従い順次並べるステップと、

に対応する距離値であり、

を備えることを特徴とする請求項１９記載の記憶媒体。