JP2021516786A

JP2021516786A - 複数人の音声を分離する方法、装置、およびコンピュータプログラム

Info

Publication number: JP2021516786A
Application number: JP2020548932A
Authority: JP
Inventors: ▲聯▼武 ▲陳▼; 蒙于; 彦旻 ▲銭▼; 丹 ▲蘇▼; ▲棟▼ ▲兪▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-09
Filing date: 2019-08-05
Publication date: 2021-07-08
Also published as: CN110544488A; WO2020029906A1; CN110544488B; US20210005216A1; EP3751569A1; CN110164469A; CN110164469B; EP3751569A4; US11450337B2

Abstract

複数人の音声を含むシナリオでの音声間の分離を実現するための、複数人の音声を分離する方法及び装置に関する。端末がＮ（Ｎは２以上の正整数）種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するステップ（１０１）と、端末が敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得るステップ（１０２）と、端末が敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、Ｎ種の人声に対応するＮ種の分離音声信号を出力するステップ（１０３）と、を含む。

Description

本願は、２０１８年８月９日に中国特許庁に提出された、優先権主張番号が２０１８１０９０４４８８９で、発明の名称が「複数人の音声を分離する方法及び装置」である中国特許出願に基づく優先権を主張するものであり、その全内容を本出願に参照により援用する。

本願は、信号処理の技術分野に関し、特に複数人の音声を分離する方法及び装置に関する。

カクテルパーティーのような騒がしい音響環境では、複数の異なる人声とその他の雑音が同時に存在することが多い。このような音響環境では、人間の聴覚システムは目的音声をある程度はっきりと聞き取ることができるが、これに関して機器の能力は人間よりはるかに劣る。したがって、複数の人声が混在する音響環境から目的音声をどのように分離するかは、音声信号処理の分野において常に重要な研究方向である。

関連技術に係る音声ノイズ低減策は、主に音声とノイズの分離に適用され、音声とノイズの特性が非常に異なるため、関連する音声ノイズ低減策は、音声ノイズ低減タスクを効果的に完了することができた。一方、異なる話者の音声特性が非常に近いため、音声を分離する技術難易度は、音声ノイズ低減より明らかに高い。一方の音声と他方の音声をどのように分離するかは、依然として未解決の問題である。

本願の実施例は、複数人の音声を含むシナリオでの音声間の分離を実現するための、複数人の音声を分離する方法及び装置を提供する。

本願の実施例は、以下のような技術手段を提供する。
一態様では、本願の実施例は、
端末がＮ（前記Ｎは２以上の正整数）種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するステップと、
端末が敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得るステップと、
端末が前記敵対的生成ネットワークモデルを用いて前記Ｎ種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記Ｎ種の人声に対応するＮ種の分離音声信号を出力するステップと、を含む、複数人の音声を分離する方法を提供する。

別の態様では、本願の実施例は、
端末に実装される、複数人の音声を分離する装置であって、
Ｎ（前記Ｎは２以上の正整数）種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するように構成された特徴抽出モジュールと、
敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得るように構成されたマスクマトリックス生成モジュールと、
前記敵対的生成ネットワークモデルを用いて前記Ｎ種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記Ｎ種の人声に対応するＮ種の分離音声信号を出力するように構成された音声分離モジュールと、を含む、複数人の音声を分離する装置をさらに提供する。

前述の態様では、複数人の音声を分離する装置の構成モジュールは、前述の一態様及び様々な可能な実現形態に記載のステップをさらに実行することができ、詳細は、この前に前述の一態様及び様々な可能な実現形態についての説明を参照する。

別の態様では、本願の実施例は、コマンドを記憶するためのメモリと、メモリにおけるコマンドを実行して、複数人の音声を分離する装置に前述の一態様のいずれかに記載の方法を実行させるためのプロセッサとを含む、複数人の音声を分離する装置を提供する。

別の態様では、本願の実施例は、コンピュータで実行されるとき、コンピュータに上記各態様に記載の方法を実行させるコマンドが記憶されているコンピュータ可読を提供する。

本願の実施例では、端末は、まずＮ種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出し、次に敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得て、端末は、敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、Ｎ種の人声に対応するＮ種の分離音声信号を出力する。本願の実施例では、複数種の人声に対応する音声信号を精確に認識可能な敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックスを抽出することができるため、該敵対的生成ネットワークモデルに基づいて音声分離ネットワークフレームワークを実現し、複数人の音声を含むシナリオでの音声間の分離を実現し、音声分離の性能を向上させる。

本願の実施例における技術手段をより明確に説明するために、以下、実施例の説明に必要な図面を簡単に説明するが、明らかに、以下の説明における図面は本願のいくつかの実施例に過ぎず、当業者であれば、これらの図面に基づいて他の図面を得ることができる。

本願の実施例に係る複数人の音声を分離する方法の流れブロック図である。本願の実施例に係る敵対的生成ネットワークモデルをトレーニングする過程の流れブロック図である。本願の実施例に係る敵対的生成ネットワークモデルのモデルアーキテクチャ図である。本願の実施例に係る複数人の音声を分離する装置の概略構成図である。本願の実施例に係る複数人の音声を分離する装置の概略構成図である。本願の実施例に係るモデルトレーニングモジュールの概略構成図である。本願の実施例に係る生成ネットワークトレーニングユニットの概略構成図である。本願の実施例に係る判別ネットワークトレーニングユニットの概略構成図である。本願の実施例に係る複数人の音声を分離する方法を端末に適用する場合の概略構成図である。本願の実施例に係る複数人の音声を分離する方法をサーバに適用する場合の概略構成図である。

本願の出願目的、特徴、利点をより明らかにして容易に理解するために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術手段を明確、かつ完全に説明するが、明らかに、以下に説明された実施例は、本願の一部の実施例に過ぎず、全ての実施例ではない。当業者が本願の実施例を基に得られる他の全ての実施例は、いずれも本願の保護範囲に属する。

本願の明細書及び特許請求の範囲並びに上記図面における用語「含む」、「有する」及びそれらの変形用語は、非排他的に含むことをカバーするものであり、例えば、一連のユニットを含むプロセス、方法、システム、製品又は機器は、それらのユニットに限定されず、明確に例示されていない又はこれらのプロセス、方法、製品又は機器固有の他のユニットを含んでもよい。

以下、それぞれ詳細に説明する。
本願の実施例は、複数人の音声を分離する方法を主に提供し、本願の実施例は、ニューラルネットワークにより、複数人の音声を含むシナリオでの音声間の分離を実現することができ、複雑な音響シナリオでの音声対話、例えばスマートスピーカー、スマートテレビ（ＴＶ）などのシナリオでの音声認識に適用される。本願の実施例は、複数人の音声を分離する装置をさらに提供し、当該複数人の音声を分離する装置は、オーディオ処理ソフトウェアの形態で端末に配置されてもよく、オーディオを記憶するサーバであってもよい。

本願の実施例では、混合音声信号に対して行われる音声分離タスクは、関連技術における音声ノイズ低減と完全に異なる。音声ノイズ低減とは、入力オーディオに含まれるノイズ信号を除去し、音声を保留することである。音声分離とは、入力オーディオにおける異なる話者に属する音声を分離することである。入力オーディオがノイズ及び複数人の音声を含む場合、音声ノイズ低減タスクは、出力されるのがノイズが除去された複数人の混合音声である。音声分離タスクは、出力されるのが各々の話者の別個の音声であり、ノイズが単独で出力されるか又は直接的に除去されるかについては、異なる音声分離アルゴリズムの設計に依存する。オーディオ特性の処理難易度から見れば、音声とノイズの特性が非常に異なるため、関連する音声ノイズ低減策は、音声ノイズ低減タスクを効果的に完了することができた。一方、異なる話者の音声特性が非常に近いため、音声を分離する技術難易度は、音声ノイズ低減より明らかに高い。

本願の実施例に係る複数人の音声の分離では、機械学習の方法で敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｓ、ＧＡＮ）モデルをトレーニングし、該敵対的生成ネットワークモデルは、生成的敵対的ネットワークモデルとも呼ばれ、ニューラルネットワークモデルにより実現でき、例えば、本願の実施例で採用されたニューラルネットワークモデルは、具体的には、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＤＮＮ）、長・短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）を含んでよい。まず分離対象の混合音声信号から混合音声特徴を抽出し、次に該混合音声特徴を敵対的生成ネットワークモデルに入力し、敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得て、例えば、入力された混合音声に対して１フレームごとに各周波数チャンネル上でマスク係数を求めれば、マスクマトリックスを形成することができる。最後に敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、分離された複数の音声信号を出力する。本願の実施例で採用された敵対的生成ネットワークモデルは、Ｎ種の人声に対応するマスクマトリックスを効果的に抽出して音声処理を行うことにより、混合音声のセグメントから１人の音声の音声信号を自動的に分離し、Ｎ種の人声に対する人間聴覚のようなスマート認識を実現することができる。

図１に示すように、本願の一実施例に係る複数人の音声を分離する方法は、以下のステップ１０１〜１０３を含んでよい。
１０１では、端末は、Ｎ（Ｎは２以上の正整数）種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出する。

本願の実施例では、音源の数量をアルファベットＮで表し、音声分離タスクでは、音源の数量Ｎは、２以上であり、即ち、混合音声信号は、複数種の人声を含んでよく、本願の後続きの実施例に係る敵対的生成ネットワークモデルによりＮ種の人声の音声信号を分離することができる。

本願の実施例では、端末は、まず分離対象の混合音声信号を取得し、該混合音声信号に対応する特徴を抽出し、即ち、混合音声特徴を取得し、該混合音声特徴は、敵対的生成ネットワークモデルの入力特徴であり、実際の応用において、様々な方法で混合音声特徴を取得してよい。

本願の一部の実施例では、端末が分離対象の混合音声信号から混合音声特徴を抽出するステップ１０１は、
端末が混合音声信号からシングルチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は
端末が混合音声信号からマルチチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は
端末が混合音声信号からシングルチャンネルの音声特徴を抽出するか、又は
端末が混合音声信号からマルチチャンネル間の関連特徴を抽出することを含む。

本願の実施例では、分離対象の混合音声信号は、シングルチャンネル又はマルチチャンネルから収集取得してよい。混合音声特徴は、以下の１つ以上の特徴を含んでよく、例えば、元のシングルチャンネル／マルチチャンネルの音声信号の時間領域特徴又は周波数領域特徴を含んでよい。また、混合音声特徴は、例えば対数パワースペクトルや、メル周波数ケプストラム係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ、ＭＦＣＣ）、サブバンドパワーなどのシングルチャンネルの音声特徴であってよい。また、混合音声特徴は、例えば一般化相互相関（ｇｅｎｅｒａｌｉｚｅｄｃｒｏｓｓｃｏｒｒｅｌａｔｉｏｎ、ＧＣＣ）特徴や、位相差特徴などのマルチチャンネル間の関連特徴を含んでよい。混合オーディオ信号の特徴抽出方法については、具体的なシナリオに応じて、抽出される特徴タイプ及び特徴内容を決定してよい。

１０２では、端末は、敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得る。

本願の実施例では、端末は、敵対的生成ネットワークモデルを、混合音声信号における１人の音声の音声信号の分離に用いてよく、混合音声信号に対応する混合音声特徴を取得した後、混合音声特徴を敵対的生成ネットワークモデルに入力し、敵対的生成ネットワークモデルにおけるニューラルネットワークを用いて各人声に対応するマスク係数を抽出し、例えば、入力された混合音声に対して１フレームごとに各周波数チャンネル上でマスク係数を求めれば、マスクマトリックスを形成することができる。

本願の実施例では、敵対的生成ネットワークモデルによりＮ種の人声に対応するマスクマトリックスを生成することができ、該マスクマトリックスは混合音声信号における複数種の人声の音声分離に用いられることができる。本願の実施例で採用された敵対的生成ネットワークモデルは、混合音声サンプル及びクリーン音声サンプルを用いてトレーニングすることで得られ、本願の実施例で採用された敵対的生成ネットワークモデルは、効果的な教師なし学習方法である。生成ネットワークモデル及び判別ネットワークモデルを構築し、トレーニング過程で２つのモデルを互いに競合させることにより、最終的に生成ネットワークが本物をかたって、真の目標（例えば音声など）に接近する結果を生成することができる。詳細は、後続きの実施例における敵対的生成ネットワークモデルのトレーニング過程に対する詳細な説明を参照する。

１０３では、端末は、敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、Ｎ種の人声に対応するＮ種の分離音声信号を出力する。

本願の実施例では、端末は、敵対的生成ネットワークモデルによりＮ種の人声に対応するマスクマトリックスを抽出した後、敵対的生成ネットワークモデルを用いてマスクマトリックス及び混合音声信号について音声分離を行うことにより、マスクマトリックスの分離作用により該混合音声信号からそれぞれ異なる音源に属する分離音声信号を認識し、関連技術で複数人の音声を認識することができないという問題を解決する。

以上の本願の実施例に対する記載から分かるように、端末は、まずＮ種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出し、次に敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得て、端末は敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、Ｎ種の人声に対応するＮ種の分離音声信号を出力する。本願の実施例では、複数種の人声に対応する音声信号を精確に認識可能な敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックスを抽出することができるため、該敵対的生成ネットワークモデルに基づいて音声分離ネットワークフレームワークを実現し、複数人の音声を含むシナリオでの音声間の分離を実現し、音声分離の性能を向上させる。

続いて、本願の実施例における敵対的生成ネットワークモデルのトレーニング過程について、例を挙げて説明する。本願の実施例では、敵対的生成ネットワークモデルは、少なくとも２つのネットワークモデルを含み、そのうちの１つは、生成ネットワークモデルであり、もう１つは、判別ネットワークモデルであり、生成ネットワークモデルは、ジェネレータとも呼ばれてよく、判別ネットワークモデルは、判別器とも呼ばれてよい。生成ネットワークモデル及び判別ネットワークモデルの互いの競合学習により、敵対的生成ネットワークモデルによる優れる出力を生成する。

本願の一部の実施例では、端末が分離対象の混合音声信号から混合音声特徴を抽出する前に、本願の実施例に係る複数人の音声を分離する方法は、
Ａ１、端末がサンプルデータベースから混合音声サンプル及びクリーン音声サンプルを取得することと、
Ａ２、端末が混合音声サンプルから混合音声サンプル特徴を抽出することと、
Ａ３、端末が生成ネットワークモデルにより混合音声サンプル特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するサンプルマスクマトリックスを得ることと、
Ａ４、端末が生成ネットワークモデルを用いてサンプルマスクマトリックス及び混合音声サンプルについて音声分離を行い、分離音声サンプルを出力することと、
Ａ５、端末が分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて生成ネットワークモデル及び敵対的ネットワークモデルを交互にトレーニングすることと、をさらに含む。

本願の実施例では、モデルのトレーニング及び判別のためにサンプルデータベースを設定してよく、例えば、混合音声信号をモデルトレーニングに用い、ここでの「混合音声サンプル」は、ステップ１０１における混合音声信号と異なり、該混合音声サンプルは、サンプルデータベースにおけるサンプル音声であり、生成ネットワークモデルの出力効果を判別するために、サンプルデータベースはクリーン音声サンプルをさらに提供し、トレーニング過程で、クリーン音声サンプルは、複数のクリーン音声を重ね合わせて得られる。

前述のステップＡ２〜ステップＡ４では、混合音声サンプル特徴の抽出は、ステップ１０１における特徴抽出と同じであり、サンプルマスクマトリックスは、前述のステップ１０２におけるマスクマトリックスとは生成方法が類似し、ここでのサンプルマスクマトリックスとは、混合音声サンプル特徴に基づいて生成されたマスクマトリックスであり、続いて生成ネットワークモデルを用いてサンプルマスクマトリックス及び混合音声サンプルについて音声分離を行い、分離音声サンプルを出力し、モデルトレーニング過程で、採用可能な音源数量は２又はより多くの音源数量であり、ここで限定しない。

生成ネットワークモデルが分離音声サンプルを出力した後、分離音声サンプル、混合音声サンプル及びクリーン音声サンプルに基づいて、さらに判別ネットワークモデルを用いて出力された分離音声サンプルがクリーン音声サンプルと同じであるか否かを判別し、判別ネットワークモデルを用い、敵対的損失関数を導入して、生成ネットワークモデル及び判別ネットワークモデルを交互に繰り返してトレーニングすることにより、分離音声サンプルが真のクリーン音声サンプルに接近することをよりよく保証することができる。

本願の一部の実施例では、図２に示すように、端末が分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて生成ネットワークモデル及び敵対的ネットワークモデルを交互にトレーニングする前述のステップＡ５は、以下のステップ２０１〜２０６を含む。
２０１では、端末は今回判別ネットワークモデルをトレーニングするとき、生成ネットワークモデルを固定する。
２０２では、端末は分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて判別ネットワークモデルの損失関数を取得する。
２０３では、端末は判別ネットワークモデルの損失関数を最小化することにより、判別ネットワークモデルを最適化する。
２０４では、端末は次回生成ネットワークモデルをトレーニングするとき、判別ネットワークモデルを固定する。
２０５では、端末は分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて生成ネットワークモデルの損失関数を取得する。
２０６では、端末は生成ネットワークモデルの損失関数を最小化することにより、生成ネットワークモデルを最適化する。

本願の実施例では、端末の、敵対的生成ネットワークモデルに基づく音声分離トレーニング過程は、生成ネットワークモデル及び敵対的ネットワークモデルを交互にトレーニングすることを主に含み、生成ネットワークモデルに符号Ｇを付け、判別ネットワークモデルに符号Ｄを付け、まず生成ネットワークモデルＧ及び判別ネットワークモデルＤを初期化する。次に上記ステップ２０１〜ステップ２０３により一回のトレーニング過程における判別ネットワークモデルのトレーニングを完了し、さらに上記ステップ２０４〜ステップ２０６により一回のトレーニング過程における生成ネットワークモデルのトレーニングを完了する。敵対的生成ネットワークモデルが収束するまで、ステップ２０１〜ステップ２０３のモデルトレーニング過程、ステップ２０４〜ステップ２０６のモデルトレーニング過程を反復する。本願の実施例では、生成的敵対的ネットワーク基づく音声分離ネットワークフレームワークを提案し、生成ネットワーク及び敵対的ネットワークが互いに反復するトレーニング過程を利用して、従来の音声分離の性能を向上させる。

まず、上記ステップ２０１〜ステップ２０３では、生成ネットワークモデルＧを固定し、判別ネットワークモデルの損失関数Ｌ_Ｄを最小化することにより、判別ネットワークモデルのパラメータを最適化する。

分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて判別ネットワークモデルの損失関数を取得する上記ステップ２０２は、
２０２１、端末が分離音声サンプル及び混合音声サンプルに基づいて第１の信号サンプル組み合わせを決定し、かつクリーン音声サンプル及び混合音声サンプルに基づいて第２の信号サンプル組み合わせを決定することと、
２０２２、端末が判別ネットワークモデルを用いて第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、そして第１の判別出力結果と判別ネットワークモデルの第１の目標出力との間の第１の歪みメトリックを取得することと、
２０２３、端末が判別ネットワークモデルを用いて第２の信号サンプル組み合わせについて判別出力を行なって第２の判別出力結果を得て、そして第２の判別出力結果と判別ネットワークモデルの第２の目標出力との間の第２の歪みメトリックを取得することと、
２０２４、端末が第１の歪みメトリック及び第２の歪みメトリックに基づいて判別ネットワークモデルの損失関数を取得することと、を含む。

ステップ２０２１では、音源数量が２であることを例として説明し、分離音声サンプルをＺ_１、Ｚ_２で表し、混合音声サンプルをＹで表し、分離音声サンプルと混合音声サンプルを組み合わせて、第１の信号サンプル組み合わせを得て、該第１の信号サンプル組み合わせを［Ｚ_１、Ｚ_２、Ｙ］で表す。同様に、第２の信号サンプル組み合わせを［Ｘ_１、Ｘ_２、Ｙ］で表し、クリーン音声サンプルをＸ_１、Ｘ_２で表す。

ステップ２０２２では、判別ネットワークモデルに符号Ｄを付け、判別ネットワークモデルを用いて第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、該第１の判別出力結果をＤ（［Ｚ_１、Ｚ_２、Ｙ］）で表し、判別ネットワークモデルの第１の目標出力を目標出力０（ｆａｌｓｅ）とし、次に第１の判別出力結果と判別ネットワークモデルの第１の目標出力との間の第１の歪みメトリックを計算する。
例えば、該第１の歪みメトリックは、以下の公式で計算できる。

式中、Ｌ_{ｓｅｐａｒａｔｅｄ−＞ｆａｌｓｅ}は、分離音声サンプルと混合音声サンプルの組み合わせ［Ｚ_１、Ｚ_２、Ｙ］の判別ネットワークモデルＤによる第１の判別出力結果と第１の目標出力との間の歪みメトリックを表す。

ステップ２０２３では、判別出力方法が前述のステップ２０２２と類似し、端末は判別ネットワークモデルを用いて第２の信号サンプル組み合わせについて判別出力を行なって第２の判別出力結果を得て、該第２の判別出力結果をＤ（［Ｘ_１、Ｘ_２、Ｙ］）で表し、判別ネットワークモデルの第２の目標出力を目標出力１（ｔｒｕｅ）とし、次に第２の判別出力結果と判別ネットワークモデルの第２の目標出力との間の第２の歪みメトリックを取得する。
例えば、該第２の歪みメトリックは、以下の公式で計算できる。

式中、Ｌ_{ｒｅａｌ−＞ｔｒｕｅ}は、クリーン音声サンプルと混合音声サンプルの組み合わせ［Ｘ_１、Ｘ_２、Ｙ］の判別ネットワークモデルＤによる第２の判別出力結果と第２の目標出力との間の歪みメトリックを表す。

ステップ２０２４では、端末は、前述のステップで第１の歪みメトリック及び第２の歪みメトリックを取得した後、第１の歪みメトリック及び第２の歪みメトリックにより判別ネットワークモデルの損失関数を取得することができる。
一例として、判別ネットワークモデルを最適化するとき、対応する損失関数を以下のように定義してよい。

式中、Ｌ_Ｄは、判別ネットワークモデルの損失関数を表し、Ｌ_{ｓｅｐａｒａｔｅｄ−＞ｆａｌｓｅ}は、分離音声サンプルと混合音声サンプルの組み合わせ［Ｚ_１、Ｚ_２、Ｙ］の判別ネットワークモデルＤによる第１の判別出力結果と第１の目標出力との間の歪みメトリックを表し、Ｌ_{ｒｅａｌ−＞ｔｒｕｅ}は、クリーン音声サンプルと混合音声サンプルの組み合わせ［Ｘ_１、Ｘ_２、Ｙ］の判別ネットワークモデルＤによる第２の判別出力結果と第２の目標出力との間の歪みメトリックを表す。

続いて、上記ステップ２０４〜ステップ２０６では、判別ネットワークモデルＤを固定し、生成ネットワークモデルの損失関数Ｌ_Ｇを最小化することにより、生成ネットワークモデルパラメータを最適化する。

分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて生成ネットワークモデルの損失関数を取得する上記ステップ２０５は、
２０５１、端末が分離音声サンプル及び混合音声サンプルに基づいて第１の信号サンプル組み合わせを決定することと、
２０５２、端末が判別ネットワークモデルを用いて第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、そして第１の判別出力結果と判別ネットワークモデルの第２の目標出力との間の第３の歪みメトリックを取得することと、
２０５３、端末が分離音声サンプルとクリーン音声サンプルとの間の第４の歪みメトリックを取得することと、
２０５４、端末が第３の歪みメトリック及び第４の歪みメトリックに基づいて生成ネットワークモデルの損失関数を取得することと、を含む。

ステップ２０５１では、音源数量が２であることを例として説明し、分離音声サンプルをＺ_１、Ｚ_２で表し、混合音声サンプルをＹで表し、分離音声サンプルと混合音声サンプルを組み合わせて、第１の信号サンプル組み合わせを得て、該第１の信号サンプル組み合わせを［Ｚ_１、Ｚ_２、Ｙ］で表す。

ステップ２０５２では、判別ネットワークモデルに符号Ｄを付け、端末は、判別ネットワークモデルを用いて第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、該第１の判別出力結果をＤ（［Ｚ_１、Ｚ_２、Ｙ］）で表し、判別ネットワークモデルの第２の目標出力を目標出力１（ｔｒｕｅ）とし、次に第１の判別出力結果と判別ネットワークモデルの第２の目標出力との間の第３の歪みメトリックを計算する。

例えば、該第３の歪みメトリックは、以下の公式で計算できる。

式中、Ｌ_{ｓｅｐａｒａｔｅｄ−＞ｔｒｕｅ}は、分離音声サンプルと混合音声サンプルの組み合わせ［Ｚ_１、Ｚ_２、Ｙ］の判別ネットワークモデルＤによる第１の判別出力結果と第２の目標出力との間の歪みメトリックを表す。

ステップ２０５３では、端末は、分離音声サンプルとクリーン音声サンプルとの間の第４の歪みメトリックを取得し、第４の歪みメトリックは、スペクトル歪み項で、分離音声サンプルとクリーン音声サンプルとの歪みメトリックである。

Ｔが時間領域のフレーム数であり、Ｆが周波数領域のポイント数であり、Ｓが音源の個数であると仮定し、本願の実施例に係る第４の歪みメトリックＪ_ｓｓを以下のように表してよい。

本願の一部の実施例では、端末が分離音声サンプルとクリーン音声サンプルとの間の第４の歪みメトリックを取得するステップ２０５４は、
端末が分離音声サンプル及びクリーン音声サンプルについて置換不変性の計算を行い、分離音声サンプルとクリーン音声サンプルとの間の対応関係結果を得ることと、
端末が分離音声サンプルとクリーン音声サンプルとの間の対応関係結果に基づいて第４の歪みメトリックを取得することと、を含む。

音声分離タスクでは、音源数量が２より大きいため、分離音声サンプルとクリーン音声サンプルとの対応関係が唯一ではなく、即ちＺ_１がＸ_１に対応し、Ｚ_２がＸ_２に対応する可能性があり、Ｚ_１がＸ_２に対応し、Ｚ_２がＸ_１に対応する可能性もあることが考えられている。このため、分離音声サンプル及びクリーン音声サンプルについて置換不変性の計算を行う必要があり、即ちＪ_ｓｓの定義に対応関係と無関係な置換不変トレーニング（ＰｅｒｍｕｔａｔｉｏｎＩｎｖａｒｉａｎｔＴｒａｉｎｉｎｇ、ＰＩＴ）を導入してよい。ＰＩＴに対応するスペクトル歪み項Ｊ_φ＊を以下のように表す。

全ての対応関係の組み合わせが１つの集合Ｐを形成すると仮定すると、φ＊は、集合Ｐにおける最小歪みを取得するときの対応関係を表し、

式中、ａｒｇｍｉｎｆ（ｘ）は、関数ｆ（ｘ）をその最小値にする全ての独立変数ｘの集合である。

ステップ２０５４では、端末は、前述のステップで第３の歪みメトリック及び第４の歪みメトリックを取得した後、第３の歪みメトリック及び第４の歪みメトリックにより生成ネットワークモデルの損失関数を取得することができる。
一例として、生成ネットワークモデルを最適化するとき、対応する損失関数を以下のように定義してよい。

式中、Ｌ_Ｇは、生成ネットワークモデルの損失関数を表し、Ｌ_{ｓｅｐａｒａｔｅｄ−＞ｔｒｕｅ}は、分離音声サンプルと混合音声サンプルの組み合わせ［Ｚ_１、Ｚ_２、Ｙ］の判別ネットワークモデルＤによる第１の判別出力結果と第２の目標出力との間の歪みメトリックを表し、Ｊ_ｓｓは、第４の歪みメトリックを表し、λは、重み係数である。

以上の本願の実施例に対する記載から分かるように、本願の実施例では、生成的敵対的ネットワークに基づく音声分離ネットワークフレームワークを提案し、生成ネットワーク及び敵対的ネットワークが互いに反復するトレーニング過程を利用して、従来の音声分離の性能を向上させる。

本願の実施例の上記技術手段をよりよく理解して実施するために、以下、対応する応用シナリオを例として具体的に説明する。

図３に示すように、本願の実施例に係る敵対的生成ネットワークモデルのモデルアーキテクチャ図である。続いて、敵対的生成ネットワークモデルの音声分離ネットワーク構造を詳細に説明する。

本願の実施例に係る生成的敵対的ネットワークに基づく音声分離ネットワーク構造において、生成ネットワークモデルＧの入力は、混合音声信号に対応する混合音声特徴であり、ニューラルネットワーク（ＤＮＮ、ＬＳＴＭ、ＣＮＮなど）により、分離音声信号に対応する時間周波数ポイントマスクマトリックスＭ_１、Ｍ_２（ｍａｓｋ１、ｍａｓｋ２）を得た後に、マスクマトリックスと混合音声信号のスペクトルＹとを乗算することにより、分離音声信号に対応するスペクトルＺ_１、Ｚ_２を得ることができ、即ち以下の計算式を満たす。

敵対的ネットワークモデルは、入力が分離音声信号と混合音声信号の組み合わせ［Ｚ_１、Ｚ_２、Ｙ］であるか、又はクリーン音声信号と混合音声信号の組み合わせ［Ｘ_１、Ｘ_２、Ｙ］であり、出力が、０又は１である。トレーニング過程で、混合音声信号が複数のクリーン音声を重ね合わせて得られるため、クリーン音声に対応するスペクトルＸ_１、Ｘ_２は既知である。

ジェネレータ及び判別器のトレーニング過程について、詳細は、前述の実施例における例示を参照し、ここで詳述しない。

なお、前述の各方法の実施例について、説明の便宜上、いずれも一連の動作の組み合わせとして説明したが、当業者が理解できるように、本願は、説明した動作順に限定されず、本願によれば、一部のステップを他の順で実行したり同時に実行したりしてもよいからである。そして、明細書に説明した実施例がいずれも任意選択の実施例で、係る動作やモジュールが必ずしも本願に不可欠なものではないことは当業者が理解できる。

本願の実施例の上記解決手段をよりよく実施するために、以下、上記技術手段を実施するための、端末に実装される関連装置を提供する。
図４−ａに示すように、本願の実施例に係る複数人の音声を分離する装置４００は、
Ｎ（Ｎは２以上の正整数）種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するように構成された特徴抽出モジュール４０１と、
敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得るように構成されたマスクマトリックス生成モジュール４０２と、
前記敵対的生成ネットワークモデルを用いて前記Ｎ種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記Ｎ種の人声に対応するＮ種の分離音声信号を出力するように構成された音声分離モジュール４０３と、を含んでよい。

本願の一部の実施例では、前記敵対的生成ネットワークモデルは、生成ネットワークモデル及び敵対的ネットワークモデルを含み、図４−ｂに示すように、前記複数人の音声を分離する装置４００は、モデルトレーニングモジュール４０４をさらに含み、ここで、
前記特徴抽出モジュール４０１は、分離対象の混合音声信号から混合音声特徴を抽出する前に、サンプルデータベースから前記混合音声サンプル及び前記クリーン音声サンプルを取得し、前記混合音声サンプルから混合音声サンプル特徴を抽出するようにさらに構成され、
前記マスクマトリックス生成モジュール４０２は、前記生成ネットワークモデルにより前記混合音声サンプル特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するサンプルマスクマトリックスを得るようにさらに構成され、
前記音声分離モジュール４０３は、前記生成ネットワークモデルを用いて前記サンプルマスクマトリックス及び前記混合音声サンプルについて音声分離を行い、分離音声サンプルを出力するようにさらに構成され、
前記モデルトレーニングモジュール４０４は、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデル及び前記敵対的ネットワークモデルを交互にトレーニングするように構成される。

本願の一部の実施例では、図４−ｃに示すように、前記モデルトレーニングモジュール４０４は、
今回前記判別ネットワークモデルをトレーニングするとき、前記生成ネットワークモデルを固定し、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記判別ネットワークモデルの損失関数を取得し、前記判別ネットワークモデルの損失関数を最小化することにより、前記判別ネットワークモデルを最適化するように構成された生成ネットワークトレーニングユニット４０４１と、
次回前記生成ネットワークモデルをトレーニングするとき、前記判別ネットワークモデルを固定し、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデルの損失関数を取得し、前記生成ネットワークモデルの損失関数を最小化することにより、前記生成ネットワークモデルを最適化するように構成された判別ネットワークトレーニングユニット４０４２と、を含む。

本願の一部の実施例では、図４−ｄに示すように、前記生成ネットワークトレーニングユニット４０４１は、
前記分離音声サンプル及び前記混合音声サンプルに基づいて第１の信号サンプル組み合わせを決定し、かつ前記クリーン音声サンプル及び前記混合音声サンプルに基づいて第２の信号サンプル組み合わせを決定するように構成された第１の音声組み合わせサブユニット４０４１１と、
前記判別ネットワークモデルを用いて前記第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、そして前記第１の判別出力結果と前記判別ネットワークモデルの第１の目標出力との間の第１の歪みメトリックを取得するように構成された第１の判別出力サブユニットであって、前記判別ネットワークモデルを用いて前記第２の信号サンプル組み合わせについて判別出力を行なって第２の判別出力結果を得て、そして前記第２の判別出力結果と前記判別ネットワークモデルの第２の目標出力との間の第２の歪みメトリックを取得するように構成された第１の判別出力サブユニット４０４１２と、
前記第１の歪みメトリック及び前記第２の歪みメトリックに基づいて前記判別ネットワークモデルの損失関数を取得するように構成された第１の損失関数取得サブユニット４０４１３と、を含む。

本願の一部の実施例では、図４−ｅに示すように、前記判別ネットワークトレーニングユニット４０４２は、
前記分離音声サンプル及び前記混合音声サンプルに基づいて第１の信号サンプル組み合わせを決定するように構成された第２の音声組み合わせサブユニット４０４２１と、
前記判別ネットワークモデルを用いて前記第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、そして前記第１の判別出力結果と前記判別ネットワークモデルの第２の目標出力との間の第３の歪みメトリックを取得するように構成された第２の判別出力サブユニット４０４２２と、
前記分離音声サンプルと前記クリーン音声との間の第４の歪みメトリックを取得するように構成された歪みメトリック取得サブユニット４０４２３と、
前記第３の歪みメトリック及び前記第４の歪みメトリックに基づいて前記生成ネットワークモデルの損失関数を取得するように構成された第２の損失関数取得サブユニット４０４２４と、を含む。

本願の一部の実施例では、前記歪みメトリック取得サブユニット４０４２３は、前記分離音声サンプル及び前記クリーン音声サンプルについて置換不変性の計算を行い、前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果を得て、そして前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果に基づいて前記第４の歪みメトリックを取得するように具体的に構成される。

本願の一部の実施例では、前記特徴抽出モジュール４０１は、前記混合音声信号からシングルチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は前記混合音声信号からマルチチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は前記混合音声信号からシングルチャンネルの音声特徴を抽出するか、又は前記混合音声信号からマルチチャンネル間の関連特徴を抽出するように具体的に構成される。

以上の本願の実施例に対する記載から分かるように、まずＮ種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出し、次に敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得て、敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、Ｎ種の人声に対応するＮ種の分離音声信号を出力する。本願の実施例では、複数種の人声に対応する音声信号を精確に認識可能な敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックスを抽出することができるため、該敵対的生成ネットワークモデルに基づいて音声分離ネットワークフレームワークを実現し、複数人の音声を含むシナリオでの音声間の分離を実現し、音声分離の性能を向上させる。

本願の実施例は、さらに他の端末を提供し、図５に示すように、説明を容易にするために、本願実施例に関連する部分のみを示し、示されていない具体的な技術的詳細については、本願の実施例の方法の部分を参照されたい。該端末は、携帯電話、タブレットコンピュータ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、パーソナルデジタルアシスタント）、ＰＯＳ（ＰｏｉｎｔｏｆＳａｌｅｓ、ポイント・オブ・セールス）、車載コンピュータなどを含む任意の端末機器であってよく、端末が携帯電話であることを例とする。

図５は、本願の実施例に係る端末に関連する携帯電話の一部の構造のブロック図を示す。図５に示すように、携帯電話は、無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ＲＦ）回路１０１０、メモリ１０２０、入力ユニット１０３０、表示ユニット１０４０、センサー１０５０、オーディオ回路１０６０、ワイヤレスフィディリティー（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ、ＷｉＦｉ）モジュール１０７０、プロセッサ１０８０、及び電源１０９０などの部材を含む。当業者が理解できるように、図５に示される携帯電話の構造は、携帯電話を限定するものではなく、図に示すものよりも多いか又は少ない部材を含んでもよいし、又はいくつかの部材を組み合わせてもよいし、又は異なる部材配置を有してもよい。

以下、図５を参照しながら携帯電話の各構成部材を具体的に説明する。
ＲＦ回路１０１０は、情報を送受信するか又は通話の過程で、信号を送受信し、特に基地局からのダウンリンク情報を受信した後、プロセッサ１０８０に送って処理させ、また、アップリンク用データを基地局に送信するために用いられてよい。通常、ＲＦ回路１０１０は、アンテナ、少なくとも１つの増幅器、送受信機、カプラ、ローノイズアンプ（ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ、ＬＮＡ）、デュプレクサなどを含むが、それらに限定されない。また、ＲＦ回路１０１０は、さらに無線通信によりネットワーク及び他の機器と通信することができる。上記無線通信は、いずれかの通信規格又はプロトコルを使用してもよく、移動体通信用グローバルシステム（ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ、ＧＳＭ）、汎用パケット無線サービス（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ、ＧＰＲＳ）、符号分割多元接続（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＣＤＭＡ）、広帯域符号分割多元接続（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＷＣＤＭＡ（登録商標））、ロングタームエボリューション（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ、ＬＴＥ）、電子メール、ショートメッセージサービス（ＳｈｏｒｔＭｅｓｓａｇｉｎｇＳｅｒｖｉｃｅ、ＳＭＳ）などを含むが、これらに限定されない。

メモリ１０２０は、ソフトウェアプログラム及びモジュールを記憶するために用いられてよく、プロセッサ１０８０は、メモリ１０２０に記憶されているソフトウェアプログラム及びモジュールを実行することにより、携帯電話の様々な機能アプリケーション及びデータ処理を実行する。メモリ１０２０は、主に、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラム（例えば、音声再生機能や、画像再生機能など）などを記憶できるプログラム記憶領域と、携帯電話の使用に応じて作成したデータ（例えば、オーディオデータや、電話帳など）などを記憶できるデータ記憶領域とを含む。また、メモリ１０２０は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリを含んでもよく、例えば、少なくとも１つの磁気ディスクメモリ、フラッシュメモリ、又は他の揮発性固体メモリである。

入力ユニット１０３０は、入力された数字又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関するキー信号入力を生成するために用いられてよい。入力ユニット１０３０は、タッチパネル１０３１及びその他の入力装置１０３２を含んでよい。タッチパネル１０３１は、タッチスクリーンとも呼ばれ、ユーザーがその上又は近傍でのタッチ操作（例えば、ユーザーがフィンガー、タッチペンなど任意の適切な物体又は付属品を用いてタッチパネル１０３１上又はタッチパネル１０３１の近傍での操作）を収集し、かつ予め設定されたルーチンに基づいて対応する接続装置を駆動する。任意選択で、タッチパネル１０３１は、タッチ検出装置及びタッチ制御装置という２つの部分を含んでよい。ここで、タッチ検出装置は、ユーザーのタッチ位置を検出し、かつタッチ操作による信号を検出し、信号をタッチ制御装置に送信し、タッチ制御装置は、タッチ検出装置からタッチ情報を受信し、それを接触点座標に変換し、さらにプロセッサ１０８０に送信し、また、プロセッサ１０８０から送信されたコマンドを受信して実行することができる。また、電気抵抗式、容量式、赤外線及び弾性表面波などの様々な形態でタッチパネル１０３１を実現することができる。タッチパネル１０３１以外、入力ユニット１０３０は、その他の入力装置１０３２を含んでよい。その他の入力装置１０３２は、物理キーボード、ファンクションキー（例えば、ボリューム制御押しボタンや、スイッチボタンなど）、トラックボール、マウス、操作レバーなどから選ばれる１種又は複数種を含むが、それらに限定されない。

表示ユニット１０４０は、ユーザーが入力した情報又はユーザーに提供された情報及び携帯電話の様々なメニューを表示するために用いられてよい。表示ユニット１０４０は、表示パネル１０４１を含んでよく、任意選択で、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔ−ＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＯＬＥＤ）などの形態で表示パネル１０４１を構成してよい。タッチパネル１０３１は、表示パネル１０４１をカバーしてよく、タッチパネル１０３１がその上又は近傍でのタッチ操作を検出した後、プロセッサ１０８０に送信してタッチイベントのタイプを決定し、その後にプロセッサ１０８０がタッチイベントのタイプに応じて表示パネル１０４１上に対応する視覚出力を提供する。図５では、タッチパネル１０３１及び表示パネル１０４１は、２つの独立した部材として携帯電話の入力と入力機能を実現しているが、一部の実施例では、タッチパネル１０３１を表示パネル１０４１と一体化して携帯電話の入出力機能を実現してもよい。

携帯電話は、さらに、例えば光センサーや、モーションセンサー及び他のセンサーなどの少なくとも１種のセンサー１０５０を含んでよい。光センサーは、環境光の明暗に応じて表示パネル１０４１の輝度を調整可能な環境光センサーと、携帯電話が耳元に移動するときに表示パネル１０４１及び／又はバックライトをオフ可能な近接センサーとを含んでよい。モーションセンサーの一種として、加速度計センサーは、各方向（一般的に３軸）の加速度の大きさを検出することができ、静止時に重力の大きさ及び方向を検出することができ、携帯電話の姿勢を認識するアプリケーション（例えば、横縦画面の切替や、関連ゲーム、磁力計姿勢の較正）、振動認識関連機能（例えば、歩数計や、ノック）などに用いることができる。携帯電話には、ジャイロ、気圧計、湿度計、温度計、赤外線センサなどのその他のセンサーも配置されてよく、ここで詳述しない。

オーディオ回路１０６０、スピーカ１０６１、マイクロフォン１０６２は、ユーザーと携帯電話との間のオーディオインタフェースを提供することができる。オーディオ回路１０６０は、受信されたオーディオデータを変換した電気信号をスピーカ１０６１に送信し、スピーカ１０６１によって音声信号に変換して出力することができる一方、マイクロフォン１０６２は、収集された音声信号を電気信号に変換し、該電気信号は、オーディオ回路１０６０によって受信されてオーディオデータに変換され、該オーディオデータはプロセッサ１０８０に出力されて処理された後、ＲＦ回路１０１０を介して、例えば他の携帯電話に送信されるか、又は更なる処理のためにメモリ１０２０に出力される。

ＷｉＦｉは短距離無線伝送技術に属し、携帯電話はＷｉＦｉモジュール１０７０によりユーザーの電子メールの送受信、ウェブページの閲覧、及びストリーミングメディアへのアクセスなどを支援することができ、ユーザーに無線の広帯域インターネットアクセスを提供する。図５はＷｉＦｉモジュール１０７０を示しているが、携帯電話の必須構成ではなく、必要に応じて出願の要旨を変更しない範囲で省略してよいことを理解されたい。

プロセッサ１０８０は、携帯電話のコントロールセンターであり、様々なインタフェース及び回線を用いて携帯電話全体の各部分を接続し、メモリ１０２０内に記憶されたソフトウェアプログラム及び／又はモジュールを動作させるか又は実行し、メモリ１０２０内に記憶されたデータを呼び出すことにより、携帯電話の様々な機能を実行してデータを処理して、携帯電話全体を監視する。任意選択で、プロセッサ１０８０は、１つ又は複数の処理ユニットを含んでよく、任意選択で、プロセッサ１０８０に、主にオペレーティングシステム、ユーザインタフェース及びアプリケーションプログラムなどを処理するアプリケーションプロセッサと、主に無線通信を処理するモデムプロセッサと、を集積してもよい。上記モデムプロセッサをプロセッサ１０８０に集積しなくてよいことが理解されたい。

携帯電話は、さらに、各部材に給電する電源１０９０（例えば電池）を含み、任意選択で、電源は、電源管理システムによりプロセッサ１０８０に論理的に接続されることにより、電源管理システムにより充電、放電、及び電力消費の管理などの機能を実現する。
図示しないが、携帯電話は、さらにカメラ、ブルートゥース（登録商標）モジュールなどを含んでよく、ここで詳述しない。

本願の実施例では、該端末が備えるプロセッサ１０８０は、端末による複数人の音声を分離する上記方法の実行を制御する流れをさらに有する。

図６は、本願の実施例に係るサーバの概略構成図であり、該サーバ１１００は、構成又は性能によって大きく異なる可能性があり、１つ又は複数の中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵ）１１２２（例えば、１つ又は複数のプロセッサ）と、メモリ１１３２と、アプリケーションプログラム１１４２又はデータ１１４４を記憶する１つ又は複数の記憶媒体１１３０（例えば、１つ又は複数の大容量記憶装置）と、を含んでよい。メモリ１１３２及び記憶媒体１１３０は、一時的記憶装置でも永続的記憶装置でもよい。記憶媒体１１３０に記憶されたプログラムは、それぞれサーバに対する一連のコマンド操作を含む１つ又は複数のモジュール（図示せず）を含んでよい。さらに、中央処理装置１１２２は、記憶媒体１１３０と通信して、記憶媒体１１３０における一連のコマンド操作をサーバ１１００で実行するように構成されてよい。

サーバ１１００は、１つ又は複数の電源１１２６、１つ又は複数の有線又は無線ネットワークインタフェース１１５０、１つ又は複数の入出力インタフェース１１５８、及び／又は、１つ又は複数のオペレーティングシステム１１４１、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒ、ＭａｃＯＳＸ、Ｕｎｉｘ、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤなどをさらに含んでよい。

上記実施例では、サーバによって実行された複数人の音声を分離する方法のステップは、該図６に示されるサーバの構造に基づくことができる。

本願の実施例の別の態様によれば、さらに記憶媒体を提供する。該記憶媒体には、実行されると、上記いずれか１つの方法の実施例におけるステップが実行されるように構成されるコンピュータプログラムが記憶されている。

任意選択で、本実施例では、上記記憶媒体は、
Ｓ１、端末がＮ（Ｎは２以上の正整数）種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するステップと、
Ｓ２、前記端末が敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得るステップと、
Ｓ３、前記端末が前記敵対的生成ネットワークモデルを用いて前記Ｎ種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記Ｎ種の人声に対応するＮ種の分離音声信号を出力するステップと、を実行するためのコンピュータプログラムを記憶するように構成されてよい。

任意選択で、本実施例では、当業者によって理解されるように、上記実施例の様々な方法の全部又は一部のステップがプログラムにより端末装置の関連ハードウェアを指示して完了でき、該プログラムがコンピュータ読み取り可能な記憶媒体に記憶でき、記憶媒体は、フラッシュディスク、リードオンリーメモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスク又は光ディスクなどを含んでよい。

なお、以上に説明された装置の実施例は例示的なものに過ぎず、分離部材として説明された上記ユニットは物理的に分離されてもよいし、分離されなくてもよく、ユニットとして表示される部材は物理ユニットであってもよいし、そうでなくてもよく、すなわち１つの場所に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の需要に応じて、それらのうちの一部又は全部のモジュールを選択して本実施例の技術手段の目的を達成することができる。また、本願に係る装置の実施例の図面において、モジュール間の接続関係は、それらの間に通信接続を有することを示し、具体的には、１つまたは複数の通信バス又は信号線として実現されてよい。当業者は創造的労働をしなくても、理解し、かつ実施することができる。

以上の実施形態の説明から、当業者は、本願がソフトウェアと必要な汎用ハードウェアを組み合わせる形態で実現できることが明らかに分かり、もちろん、専用集積回路や、専用ＣＰＵ、専用メモリ、専用部品などを含む専用ハードウェアによって実現されてもよい。一般的には、コンピュータプログラムによって完了された機能は、いずれも対応するハードウェアで容易に実現でき、また、同一の機能を実現する具体的なハードウェアの構成は、様々であってよく、例えば、アナログ回路、デジタル回路、専用回路などである。しかしながら、本願では、より多くの場合、ソフトウェアプログラムによる実現は、より良い実施形態である。このような理解に基づいて、本願の技術手段の実質的な又は関連技術に貢献のある部分は、ソフトウェア製品の形態で実現されることができ、該コンピュータソフトウェア製品は、例えばコンピュータのフロッピーディスクや、Ｕディスク、移動ハードディスク、リードオンリーメモリ（ＲＯＭ、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスクなどの読取可能な記憶媒体に記憶され、１台のコンピュータ機器（パーソナルコンピュータ、サーバ又はネットワーク機器などであってよい）に本願の各実施例で説明した方法を実行させるための若干のコマンドを含む。

前記のように、以上の実施例は、本願の技術手段を説明するためのものに過ぎず、それを限定するものではなく、上記実施例を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、依然として上記各実施例に記載の技術手段を変更するか、又はその一部の技術的特徴に等価置換を行うことができ、これらの修正又は置換により、対応する技術手段の本質は、本願の各実施例の技術手段の主旨及び範囲から逸脱することにならない。

本願の実施例では、まずＮ種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出し、次に敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得て、敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、Ｎ種の人声に対応するＮ種の分離音声信号を出力する。本願の実施例では、複数種の人声に対応する音声信号を精確に認識可能な敵対的生成ネットワークモデルを用いてＮ種の人声に対応するマスクマトリックスを抽出することができるため、該敵対的生成ネットワークモデルに基づいて音声分離ネットワークフレームワークを実現し、複数人の音声を含むシナリオでの音声間の分離を実現し、音声分離の性能を向上させる。

４００装置
４０１特徴抽出モジュール
４０２マスクマトリックス生成モジュール
４０３音声分離モジュール
４０４モデルトレーニングモジュール
４０４１生成ネットワークトレーニングユニット
４０４２判別ネットワークトレーニングユニット
４０４１１サブユニット
４０４１２第１の判別出力サブユニット
４０４１３第１の損失関数取得サブユニット
４０４２１サブユニット
４０４２２第２の判別出力サブユニット
４０４２３メトリック取得サブユニット
４０４２４第２の損失関数取得サブユニット
１０１０ＲＦ回路
１０１０無線周波数回路
１０２０メモリ
１０３０入力ユニット
１０３１タッチパネル
１０３２入力装置
１０４０表示ユニット
１０４１表示パネル
１０５０センサー
１０６０オーディオ回路
１０６１スピーカ
１０６２マイクロフォン
１０７０ＷｉＦｉモジュール
１０７０ワイヤレスフィディリティーモジュール
１０８０プロセッサ
１０９０電源
１１００サーバ
１１２２中央処理装置
１１２６電源
１１３０記憶媒体
１１３２メモリ
１１４１オペレーティングシステム
１１４２アプリケーションプログラム
１１４４データ
１１５０無線ネットワークインタフェース
１１５８入出力インタフェース

別の態様では、本願の実施例は、コンピュータで実行されるとき、コンピュータに上記各態様に記載の方法を実行させるコマンドが記憶されているコンピュータ可読記憶媒体を提供する。

本願の一部の実施例では、図４−ｅに示すように、前記判別ネットワークトレーニングユニット４０４２は、
前記分離音声サンプル及び前記混合音声サンプルに基づいて第１の信号サンプル組み合わせを決定するように構成された第２の音声組み合わせサブユニット４０４２１と、
前記判別ネットワークモデルを用いて前記第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、そして前記第１の判別出力結果と前記判別ネットワークモデルの第２の目標出力との間の第３の歪みメトリックを取得するように構成された第２の判別出力サブユニット４０４２２と、
前記分離音声サンプルと前記クリーン音声サンプルとの間の第４の歪みメトリックを取得するように構成された歪みメトリック取得サブユニット４０４２３と、
前記第３の歪みメトリック及び前記第４の歪みメトリックに基づいて前記生成ネットワークモデルの損失関数を取得するように構成された第２の損失関数取得サブユニット４０４２４と、を含む。

表示ユニット１０４０は、ユーザーが入力した情報又はユーザーに提供された情報及び携帯電話の様々なメニューを表示するために用いられてよい。表示ユニット１０４０は、表示パネル１０４１を含んでよく、任意選択で、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔ−ＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＯＬＥＤ）などの形態で表示パネル１０４１を構成してよい。タッチパネル１０３１は、表示パネル１０４１をカバーしてよく、タッチパネル１０３１がその上又は近傍でのタッチ操作を検出した後、プロセッサ１０８０に送信してタッチイベントのタイプを決定し、その後にプロセッサ１０８０がタッチイベントのタイプに応じて表示パネル１０４１上に対応する視覚出力を提供する。図５では、タッチパネル１０３１及び表示パネル１０４１は、２つの独立した部材として携帯電話の入出力機能を実現しているが、一部の実施例では、タッチパネル１０３１を表示パネル１０４１と一体化して携帯電話の入出力機能を実現してもよい。

Claims

端末がＮ（前記Ｎは２以上の正整数）種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するステップと、
前記端末が敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得るステップと、
前記端末が前記敵対的生成ネットワークモデルを用いて前記Ｎ種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記Ｎ種の人声に対応するＮ種の分離音声信号を出力するステップと、を含む、複数人の音声を分離する方法。
前記敵対的生成ネットワークモデルは、生成ネットワークモデル及び敵対的ネットワークモデルを含み、
前記端末が分離対象の混合音声信号から混合音声特徴を抽出する前に、
前記端末がサンプルデータベースから前記混合音声サンプル及び前記クリーン音声サンプルを取得するステップと、
前記端末が前記混合音声サンプルから混合音声サンプル特徴を抽出するステップと、
前記端末が前記生成ネットワークモデルにより前記混合音声サンプル特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するサンプルマスクマトリックスを得るステップと、
前記端末が前記生成ネットワークモデルを用いて前記サンプルマスクマトリックス及び前記混合音声サンプルについて音声分離を行い、分離音声サンプルを出力するステップと、
前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデル及び前記敵対的ネットワークモデルを交互にトレーニングするステップと、をさらに含む、請求項１に記載の方法。
前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデル及び前記敵対的ネットワークモデルを交互にトレーニングするステップは、
前記端末が今回前記判別ネットワークモデルをトレーニングするとき、前記生成ネットワークモデルを固定するステップと、
前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記判別ネットワークモデルの損失関数を取得するステップと、
前記端末が前記判別ネットワークモデルの損失関数を最小化することにより、前記判別ネットワークモデルを最適化するステップと、
前記端末が次回前記生成ネットワークモデルをトレーニングするとき、前記判別ネットワークモデルを固定するステップと、
前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデルの損失関数を取得するステップと、
前記端末が前記生成ネットワークモデルの損失関数を最小化することにより、前記生成ネットワークモデルを最適化するステップと、を含む、請求項２に記載の方法。
前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記判別ネットワークモデルの損失関数を取得するステップは、
前記端末が前記分離音声サンプル及び前記混合音声サンプルに基づいて第１の信号サンプル組み合わせを決定し、かつ前記クリーン音声サンプル及び前記混合音声サンプルに基づいて第２の信号サンプル組み合わせを決定するステップと、
前記端末が前記判別ネットワークモデルを用いて前記第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、そして前記第１の判別出力結果と前記判別ネットワークモデルの第１の目標出力との間の第１の歪みメトリックを取得するステップと、
前記端末が前記判別ネットワークモデルを用いて前記第２の信号サンプル組み合わせについて判別出力を行なって第２の判別出力結果を得て、そして前記第２の判別出力結果と前記判別ネットワークモデルの第２の目標出力との間の第２の歪みメトリックを取得するステップと、
前記端末が前記第１の歪みメトリック及び前記第２の歪みメトリックに基づいて前記判別ネットワークモデルの損失関数を取得するステップと、を含む、請求項３に記載の方法。
前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデルの損失関数を取得するステップは、
前記端末が前記分離音声サンプル及び前記混合音声サンプルに基づいて第１の信号サンプル組み合わせを決定するステップと、
前記端末が前記判別ネットワークモデルを用いて前記第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、そして前記第１の判別出力結果と前記判別ネットワークモデルの第２の目標出力との間の第３の歪みメトリックを取得するステップと、
前記端末が前記分離音声サンプルと前記クリーン音声との間の第４の歪みメトリックを取得するステップと、
前記端末が前記第３の歪みメトリック及び前記第４の歪みメトリックに基づいて前記生成ネットワークモデルの損失関数を取得するステップと、を含む、請求項３に記載の方法。
前記端末が前記分離音声サンプルと前記クリーン音声との間の第４の歪みメトリックを取得するステップは、
前記端末が前記分離音声サンプル及び前記クリーン音声サンプルについて置換不変性の計算を行い、前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果を得るステップと、
前記端末が前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果に基づいて前記第４の歪みメトリックを取得するステップと、を含む、請求項５に記載の方法。
前記端末が分離対象の混合音声信号から混合音声特徴を抽出するステップは、
前記端末が前記混合音声信号からシングルチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は
前記端末が前記混合音声信号からマルチチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は
前記端末が前記混合音声信号からシングルチャンネルの音声特徴を抽出するか、又は
前記端末が前記混合音声信号からマルチチャンネル間の関連特徴を抽出するステップを含む、請求項１〜６のいずれか１項に記載の方法。
端末に実装される、複数人の音声を分離する装置であって、
Ｎ（前記Ｎは２以上の正整数）種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するように構成された特徴抽出モジュールと、
敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するマスクマトリックスを得るように構成されたマスクマトリックス生成モジュールと、
前記敵対的生成ネットワークモデルを用いて前記Ｎ種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記Ｎ種の人声に対応するＮ種の分離音声信号を出力するように構成された音声分離モジュールと、を含む、複数人の音声を分離する装置。
前記敵対的生成ネットワークモデルは、生成ネットワークモデル及び敵対的ネットワークモデルを含み、
前記複数人の音声を分離する装置は、モデルトレーニングモジュールをさらに含み、
前記特徴抽出モジュールは、分離対象の混合音声信号から混合音声特徴を抽出する前に、サンプルデータベースから前記混合音声サンプル及び前記クリーン音声サンプルを取得し、前記混合音声サンプルから混合音声サンプル特徴を抽出するようにさらに構成され、
前記マスクマトリックス生成モジュールは、前記生成ネットワークモデルにより前記混合音声サンプル特徴についてマスク係数抽出を行い、Ｎ種の人声に対応するサンプルマスクマトリックスを得るようにさらに構成され、
前記音声分離モジュールは、前記生成ネットワークモデルを用いて前記サンプルマスクマトリックス及び前記混合音声サンプルについて音声分離を行い、分離音声サンプルを出力するようにさらに構成され、
前記モデルトレーニングモジュールは、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデル及び前記敵対的ネットワークモデルを交互にトレーニングするように構成される、請求項８に記載の装置。
前記モデルトレーニングモジュールは、
今回前記判別ネットワークモデルをトレーニングするとき、前記生成ネットワークモデルを固定し、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記判別ネットワークモデルの損失関数を取得し、前記判別ネットワークモデルの損失関数を最小化することにより、前記判別ネットワークモデルを最適化するように構成された生成ネットワークトレーニングユニットと、
次回前記生成ネットワークモデルをトレーニングするとき、前記判別ネットワークモデルを固定し、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデルの損失関数を取得し、前記生成ネットワークモデルの損失関数を最小化することにより、前記生成ネットワークモデルを最適化するように構成された判別ネットワークトレーニングユニットと、を含む、請求項９に記載の装置。
前記生成ネットワークトレーニングユニットは、
前記分離音声サンプル及び前記混合音声サンプルに基づいて第１の信号サンプル組み合わせを決定し、かつ前記クリーン音声サンプル及び前記混合音声サンプルに基づいて第２の信号サンプル組み合わせを決定するように構成された第１の音声組み合わせサブユニットと、
前記判別ネットワークモデルを用いて前記第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、そして前記第１の判別出力結果と前記判別ネットワークモデルの第１の目標出力との間の第１の歪みメトリックを取得するように構成された第１の判別出力サブユニットであって、前記判別ネットワークモデルを用いて前記第２の信号サンプル組み合わせについて判別出力を行なって第２の判別出力結果を得て、そして前記第２の判別出力結果と前記判別ネットワークモデルの第２の目標出力との間の第２の歪みメトリックを取得するように構成された第１の判別出力サブユニットと、
前記第１の歪みメトリック及び前記第２の歪みメトリックに基づいて前記判別ネットワークモデルの損失関数を取得するように構成された第１の損失関数取得サブユニットと、を含む、請求項１０に記載の装置。
前記判別ネットワークトレーニングユニットは、
前記分離音声サンプル及び前記混合音声サンプルに基づいて第１の信号サンプル組み合わせを決定するように構成された第２の音声組み合わせサブユニットと、
前記判別ネットワークモデルを用いて前記第１の信号サンプル組み合わせについて判別出力を行なって第１の判別出力結果を得て、そして前記第１の判別出力結果と前記判別ネットワークモデルの第２の目標出力との間の第３の歪みメトリックを取得するように構成された第２の判別出力サブユニットと、
前記分離音声サンプルと前記クリーン音声との間の第４の歪みメトリックを取得するように構成された歪みメトリック取得サブユニットと、
前記第３の歪みメトリック及び前記第４の歪みメトリックに基づいて前記生成ネットワークモデルの損失関数を取得するように構成された第２の損失関数取得サブユニットと、を含む、請求項１０に記載の装置。
前記歪みメトリック取得サブユニットは、前記分離音声サンプル及び前記クリーン音声サンプルについて置換不変性の計算を行い、前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果を得て、そして前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果に基づいて前記第４の歪みメトリックを取得するように具体的に構成される、請求項１２に記載の装置。
前記特徴抽出モジュールは、前記混合音声信号からシングルチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は前記混合音声信号からマルチチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は前記混合音声信号からシングルチャンネルの音声特徴を抽出するか、又は前記混合音声信号からマルチチャンネル間の関連特徴を抽出するように具体的に構成される、請求項８〜１３のいずれか１項に記載の装置。
コマンドを記憶するためのメモリと、
前記メモリにおける前記コマンドを実行して、請求項１〜７のいずれか１項に記載の方法を実行するためのプロセッサとを含む、複数人の音声を分離する装置。