JP2021516786A - 複数人の音声を分離する方法、装置、およびコンピュータプログラム - Google Patents

複数人の音声を分離する方法、装置、およびコンピュータプログラム Download PDF

Info

Publication number
JP2021516786A
JP2021516786A JP2020548932A JP2020548932A JP2021516786A JP 2021516786 A JP2021516786 A JP 2021516786A JP 2020548932 A JP2020548932 A JP 2020548932A JP 2020548932 A JP2020548932 A JP 2020548932A JP 2021516786 A JP2021516786 A JP 2021516786A
Authority
JP
Japan
Prior art keywords
network model
sample
voice
mixed
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020548932A
Other languages
English (en)
Inventor
▲聯▼武 ▲陳▼
▲聯▼武 ▲陳▼
蒙 于
蒙 于
彦旻 ▲銭▼
彦旻 ▲銭▼
丹 ▲蘇▼
丹 ▲蘇▼
▲棟▼ ▲兪▼
▲棟▼ ▲兪▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2021516786A publication Critical patent/JP2021516786A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)

Abstract

複数人の音声を含むシナリオでの音声間の分離を実現するための、複数人の音声を分離する方法及び装置に関する。端末がN(Nは2以上の正整数)種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するステップ(101)と、端末が敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得るステップ(102)と、端末が敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、N種の人声に対応するN種の分離音声信号を出力するステップ(103)と、を含む。

Description

本願は、2018年8月9日に中国特許庁に提出された、優先権主張番号が2018109044889で、発明の名称が「複数人の音声を分離する方法及び装置」である中国特許出願に基づく優先権を主張するものであり、その全内容を本出願に参照により援用する。
本願は、信号処理の技術分野に関し、特に複数人の音声を分離する方法及び装置に関する。
カクテルパーティーのような騒がしい音響環境では、複数の異なる人声とその他の雑音が同時に存在することが多い。このような音響環境では、人間の聴覚システムは目的音声をある程度はっきりと聞き取ることができるが、これに関して機器の能力は人間よりはるかに劣る。したがって、複数の人声が混在する音響環境から目的音声をどのように分離するかは、音声信号処理の分野において常に重要な研究方向である。
関連技術に係る音声ノイズ低減策は、主に音声とノイズの分離に適用され、音声とノイズの特性が非常に異なるため、関連する音声ノイズ低減策は、音声ノイズ低減タスクを効果的に完了することができた。一方、異なる話者の音声特性が非常に近いため、音声を分離する技術難易度は、音声ノイズ低減より明らかに高い。一方の音声と他方の音声をどのように分離するかは、依然として未解決の問題である。
本願の実施例は、複数人の音声を含むシナリオでの音声間の分離を実現するための、複数人の音声を分離する方法及び装置を提供する。
本願の実施例は、以下のような技術手段を提供する。
一態様では、本願の実施例は、
端末がN(前記Nは2以上の正整数)種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するステップと、
端末が敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得るステップと、
端末が前記敵対的生成ネットワークモデルを用いて前記N種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記N種の人声に対応するN種の分離音声信号を出力するステップと、を含む、複数人の音声を分離する方法を提供する。
別の態様では、本願の実施例は、
端末に実装される、複数人の音声を分離する装置であって、
N(前記Nは2以上の正整数)種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するように構成された特徴抽出モジュールと、
敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得るように構成されたマスクマトリックス生成モジュールと、
前記敵対的生成ネットワークモデルを用いて前記N種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記N種の人声に対応するN種の分離音声信号を出力するように構成された音声分離モジュールと、を含む、複数人の音声を分離する装置をさらに提供する。
前述の態様では、複数人の音声を分離する装置の構成モジュールは、前述の一態様及び様々な可能な実現形態に記載のステップをさらに実行することができ、詳細は、この前に前述の一態様及び様々な可能な実現形態についての説明を参照する。
別の態様では、本願の実施例は、コマンドを記憶するためのメモリと、メモリにおけるコマンドを実行して、複数人の音声を分離する装置に前述の一態様のいずれかに記載の方法を実行させるためのプロセッサとを含む、複数人の音声を分離する装置を提供する。
別の態様では、本願の実施例は、コンピュータで実行されるとき、コンピュータに上記各態様に記載の方法を実行させるコマンドが記憶されているコンピュータ可読を提供する。
本願の実施例では、端末は、まずN種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出し、次に敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得て、端末は、敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、N種の人声に対応するN種の分離音声信号を出力する。本願の実施例では、複数種の人声に対応する音声信号を精確に認識可能な敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックスを抽出することができるため、該敵対的生成ネットワークモデルに基づいて音声分離ネットワークフレームワークを実現し、複数人の音声を含むシナリオでの音声間の分離を実現し、音声分離の性能を向上させる。
本願の実施例における技術手段をより明確に説明するために、以下、実施例の説明に必要な図面を簡単に説明するが、明らかに、以下の説明における図面は本願のいくつかの実施例に過ぎず、当業者であれば、これらの図面に基づいて他の図面を得ることができる。
本願の実施例に係る複数人の音声を分離する方法の流れブロック図である。 本願の実施例に係る敵対的生成ネットワークモデルをトレーニングする過程の流れブロック図である。 本願の実施例に係る敵対的生成ネットワークモデルのモデルアーキテクチャ図である。 本願の実施例に係る複数人の音声を分離する装置の概略構成図である。 本願の実施例に係る複数人の音声を分離する装置の概略構成図である。 本願の実施例に係るモデルトレーニングモジュールの概略構成図である。 本願の実施例に係る生成ネットワークトレーニングユニットの概略構成図である。 本願の実施例に係る判別ネットワークトレーニングユニットの概略構成図である。 本願の実施例に係る複数人の音声を分離する方法を端末に適用する場合の概略構成図である。 本願の実施例に係る複数人の音声を分離する方法をサーバに適用する場合の概略構成図である。
本願の実施例は、複数人の音声を含むシナリオでの音声間の分離を実現するための、複数人の音声を分離する方法及び装置を提供する。
本願の出願目的、特徴、利点をより明らかにして容易に理解するために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術手段を明確、かつ完全に説明するが、明らかに、以下に説明された実施例は、本願の一部の実施例に過ぎず、全ての実施例ではない。当業者が本願の実施例を基に得られる他の全ての実施例は、いずれも本願の保護範囲に属する。
本願の明細書及び特許請求の範囲並びに上記図面における用語「含む」、「有する」及びそれらの変形用語は、非排他的に含むことをカバーするものであり、例えば、一連のユニットを含むプロセス、方法、システム、製品又は機器は、それらのユニットに限定されず、明確に例示されていない又はこれらのプロセス、方法、製品又は機器固有の他のユニットを含んでもよい。
以下、それぞれ詳細に説明する。
本願の実施例は、複数人の音声を分離する方法を主に提供し、本願の実施例は、ニューラルネットワークにより、複数人の音声を含むシナリオでの音声間の分離を実現することができ、複雑な音響シナリオでの音声対話、例えばスマートスピーカー、スマートテレビ(TV)などのシナリオでの音声認識に適用される。本願の実施例は、複数人の音声を分離する装置をさらに提供し、当該複数人の音声を分離する装置は、オーディオ処理ソフトウェアの形態で端末に配置されてもよく、オーディオを記憶するサーバであってもよい。
本願の実施例では、混合音声信号に対して行われる音声分離タスクは、関連技術における音声ノイズ低減と完全に異なる。音声ノイズ低減とは、入力オーディオに含まれるノイズ信号を除去し、音声を保留することである。音声分離とは、入力オーディオにおける異なる話者に属する音声を分離することである。入力オーディオがノイズ及び複数人の音声を含む場合、音声ノイズ低減タスクは、出力されるのがノイズが除去された複数人の混合音声である。音声分離タスクは、出力されるのが各々の話者の別個の音声であり、ノイズが単独で出力されるか又は直接的に除去されるかについては、異なる音声分離アルゴリズムの設計に依存する。オーディオ特性の処理難易度から見れば、音声とノイズの特性が非常に異なるため、関連する音声ノイズ低減策は、音声ノイズ低減タスクを効果的に完了することができた。一方、異なる話者の音声特性が非常に近いため、音声を分離する技術難易度は、音声ノイズ低減より明らかに高い。
本願の実施例に係る複数人の音声の分離では、機械学習の方法で敵対的生成ネットワーク(Generative Adversarial Nets、GAN)モデルをトレーニングし、該敵対的生成ネットワークモデルは、生成的敵対的ネットワークモデルとも呼ばれ、ニューラルネットワークモデルにより実現でき、例えば、本願の実施例で採用されたニューラルネットワークモデルは、具体的には、ディープニューラルネットワーク(Deep Neural Networks、DNN)、長・短期記憶ネットワーク(Long Short−Term Memory、LSTM)、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)を含んでよい。まず分離対象の混合音声信号から混合音声特徴を抽出し、次に該混合音声特徴を敵対的生成ネットワークモデルに入力し、敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得て、例えば、入力された混合音声に対して1フレームごとに各周波数チャンネル上でマスク係数を求めれば、マスクマトリックスを形成することができる。最後に敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、分離された複数の音声信号を出力する。本願の実施例で採用された敵対的生成ネットワークモデルは、N種の人声に対応するマスクマトリックスを効果的に抽出して音声処理を行うことにより、混合音声のセグメントから1人の音声の音声信号を自動的に分離し、N種の人声に対する人間聴覚のようなスマート認識を実現することができる。
図1に示すように、本願の一実施例に係る複数人の音声を分離する方法は、以下のステップ101〜103を含んでよい。
101では、端末は、N(Nは2以上の正整数)種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出する。
本願の実施例では、音源の数量をアルファベットNで表し、音声分離タスクでは、音源の数量Nは、2以上であり、即ち、混合音声信号は、複数種の人声を含んでよく、本願の後続きの実施例に係る敵対的生成ネットワークモデルによりN種の人声の音声信号を分離することができる。
本願の実施例では、端末は、まず分離対象の混合音声信号を取得し、該混合音声信号に対応する特徴を抽出し、即ち、混合音声特徴を取得し、該混合音声特徴は、敵対的生成ネットワークモデルの入力特徴であり、実際の応用において、様々な方法で混合音声特徴を取得してよい。
本願の一部の実施例では、端末が分離対象の混合音声信号から混合音声特徴を抽出するステップ101は、
端末が混合音声信号からシングルチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は
端末が混合音声信号からマルチチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は
端末が混合音声信号からシングルチャンネルの音声特徴を抽出するか、又は
端末が混合音声信号からマルチチャンネル間の関連特徴を抽出することを含む。
本願の実施例では、分離対象の混合音声信号は、シングルチャンネル又はマルチチャンネルから収集取得してよい。混合音声特徴は、以下の1つ以上の特徴を含んでよく、例えば、元のシングルチャンネル/マルチチャンネルの音声信号の時間領域特徴又は周波数領域特徴を含んでよい。また、混合音声特徴は、例えば対数パワースペクトルや、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient、MFCC)、サブバンドパワーなどのシングルチャンネルの音声特徴であってよい。また、混合音声特徴は、例えば一般化相互相関(generalized cross correlation、GCC)特徴や、位相差特徴などのマルチチャンネル間の関連特徴を含んでよい。混合オーディオ信号の特徴抽出方法については、具体的なシナリオに応じて、抽出される特徴タイプ及び特徴内容を決定してよい。
102では、端末は、敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得る。
本願の実施例では、端末は、敵対的生成ネットワークモデルを、混合音声信号における1人の音声の音声信号の分離に用いてよく、混合音声信号に対応する混合音声特徴を取得した後、混合音声特徴を敵対的生成ネットワークモデルに入力し、敵対的生成ネットワークモデルにおけるニューラルネットワークを用いて各人声に対応するマスク係数を抽出し、例えば、入力された混合音声に対して1フレームごとに各周波数チャンネル上でマスク係数を求めれば、マスクマトリックスを形成することができる。
本願の実施例では、敵対的生成ネットワークモデルによりN種の人声に対応するマスクマトリックスを生成することができ、該マスクマトリックスは混合音声信号における複数種の人声の音声分離に用いられることができる。本願の実施例で採用された敵対的生成ネットワークモデルは、混合音声サンプル及びクリーン音声サンプルを用いてトレーニングすることで得られ、本願の実施例で採用された敵対的生成ネットワークモデルは、効果的な教師なし学習方法である。生成ネットワークモデル及び判別ネットワークモデルを構築し、トレーニング過程で2つのモデルを互いに競合させることにより、最終的に生成ネットワークが本物をかたって、真の目標(例えば音声など)に接近する結果を生成することができる。詳細は、後続きの実施例における敵対的生成ネットワークモデルのトレーニング過程に対する詳細な説明を参照する。
103では、端末は、敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、N種の人声に対応するN種の分離音声信号を出力する。
本願の実施例では、端末は、敵対的生成ネットワークモデルによりN種の人声に対応するマスクマトリックスを抽出した後、敵対的生成ネットワークモデルを用いてマスクマトリックス及び混合音声信号について音声分離を行うことにより、マスクマトリックスの分離作用により該混合音声信号からそれぞれ異なる音源に属する分離音声信号を認識し、関連技術で複数人の音声を認識することができないという問題を解決する。
以上の本願の実施例に対する記載から分かるように、端末は、まずN種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出し、次に敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得て、端末は敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、N種の人声に対応するN種の分離音声信号を出力する。本願の実施例では、複数種の人声に対応する音声信号を精確に認識可能な敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックスを抽出することができるため、該敵対的生成ネットワークモデルに基づいて音声分離ネットワークフレームワークを実現し、複数人の音声を含むシナリオでの音声間の分離を実現し、音声分離の性能を向上させる。
続いて、本願の実施例における敵対的生成ネットワークモデルのトレーニング過程について、例を挙げて説明する。本願の実施例では、敵対的生成ネットワークモデルは、少なくとも2つのネットワークモデルを含み、そのうちの1つは、生成ネットワークモデルであり、もう1つは、判別ネットワークモデルであり、生成ネットワークモデルは、ジェネレータとも呼ばれてよく、判別ネットワークモデルは、判別器とも呼ばれてよい。生成ネットワークモデル及び判別ネットワークモデルの互いの競合学習により、敵対的生成ネットワークモデルによる優れる出力を生成する。
本願の一部の実施例では、端末が分離対象の混合音声信号から混合音声特徴を抽出する前に、本願の実施例に係る複数人の音声を分離する方法は、
A1、端末がサンプルデータベースから混合音声サンプル及びクリーン音声サンプルを取得することと、
A2、端末が混合音声サンプルから混合音声サンプル特徴を抽出することと、
A3、端末が生成ネットワークモデルにより混合音声サンプル特徴についてマスク係数抽出を行い、N種の人声に対応するサンプルマスクマトリックスを得ることと、
A4、端末が生成ネットワークモデルを用いてサンプルマスクマトリックス及び混合音声サンプルについて音声分離を行い、分離音声サンプルを出力することと、
A5、端末が分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて生成ネットワークモデル及び敵対的ネットワークモデルを交互にトレーニングすることと、をさらに含む。
本願の実施例では、モデルのトレーニング及び判別のためにサンプルデータベースを設定してよく、例えば、混合音声信号をモデルトレーニングに用い、ここでの「混合音声サンプル」は、ステップ101における混合音声信号と異なり、該混合音声サンプルは、サンプルデータベースにおけるサンプル音声であり、生成ネットワークモデルの出力効果を判別するために、サンプルデータベースはクリーン音声サンプルをさらに提供し、トレーニング過程で、クリーン音声サンプルは、複数のクリーン音声を重ね合わせて得られる。
前述のステップA2〜ステップA4では、混合音声サンプル特徴の抽出は、ステップ101における特徴抽出と同じであり、サンプルマスクマトリックスは、前述のステップ102におけるマスクマトリックスとは生成方法が類似し、ここでのサンプルマスクマトリックスとは、混合音声サンプル特徴に基づいて生成されたマスクマトリックスであり、続いて生成ネットワークモデルを用いてサンプルマスクマトリックス及び混合音声サンプルについて音声分離を行い、分離音声サンプルを出力し、モデルトレーニング過程で、採用可能な音源数量は2又はより多くの音源数量であり、ここで限定しない。
生成ネットワークモデルが分離音声サンプルを出力した後、分離音声サンプル、混合音声サンプル及びクリーン音声サンプルに基づいて、さらに判別ネットワークモデルを用いて出力された分離音声サンプルがクリーン音声サンプルと同じであるか否かを判別し、判別ネットワークモデルを用い、敵対的損失関数を導入して、生成ネットワークモデル及び判別ネットワークモデルを交互に繰り返してトレーニングすることにより、分離音声サンプルが真のクリーン音声サンプルに接近することをよりよく保証することができる。
本願の一部の実施例では、図2に示すように、端末が分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて生成ネットワークモデル及び敵対的ネットワークモデルを交互にトレーニングする前述のステップA5は、以下のステップ201〜206を含む。
201では、端末は今回判別ネットワークモデルをトレーニングするとき、生成ネットワークモデルを固定する。
202では、端末は分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて判別ネットワークモデルの損失関数を取得する。
203では、端末は判別ネットワークモデルの損失関数を最小化することにより、判別ネットワークモデルを最適化する。
204では、端末は次回生成ネットワークモデルをトレーニングするとき、判別ネットワークモデルを固定する。
205では、端末は分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて生成ネットワークモデルの損失関数を取得する。
206では、端末は生成ネットワークモデルの損失関数を最小化することにより、生成ネットワークモデルを最適化する。
本願の実施例では、端末の、敵対的生成ネットワークモデルに基づく音声分離トレーニング過程は、生成ネットワークモデル及び敵対的ネットワークモデルを交互にトレーニングすることを主に含み、生成ネットワークモデルに符号Gを付け、判別ネットワークモデルに符号Dを付け、まず生成ネットワークモデルG及び判別ネットワークモデルDを初期化する。次に上記ステップ201〜ステップ203により一回のトレーニング過程における判別ネットワークモデルのトレーニングを完了し、さらに上記ステップ204〜ステップ206により一回のトレーニング過程における生成ネットワークモデルのトレーニングを完了する。敵対的生成ネットワークモデルが収束するまで、ステップ201〜ステップ203のモデルトレーニング過程、ステップ204〜ステップ206のモデルトレーニング過程を反復する。本願の実施例では、生成的敵対的ネットワーク基づく音声分離ネットワークフレームワークを提案し、生成ネットワーク及び敵対的ネットワークが互いに反復するトレーニング過程を利用して、従来の音声分離の性能を向上させる。
まず、上記ステップ201〜ステップ203では、生成ネットワークモデルGを固定し、判別ネットワークモデルの損失関数Lを最小化することにより、判別ネットワークモデルのパラメータを最適化する。
分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて判別ネットワークモデルの損失関数を取得する上記ステップ202は、
2021、端末が分離音声サンプル及び混合音声サンプルに基づいて第1の信号サンプル組み合わせを決定し、かつクリーン音声サンプル及び混合音声サンプルに基づいて第2の信号サンプル組み合わせを決定することと、
2022、端末が判別ネットワークモデルを用いて第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、そして第1の判別出力結果と判別ネットワークモデルの第1の目標出力との間の第1の歪みメトリックを取得することと、
2023、端末が判別ネットワークモデルを用いて第2の信号サンプル組み合わせについて判別出力を行なって第2の判別出力結果を得て、そして第2の判別出力結果と判別ネットワークモデルの第2の目標出力との間の第2の歪みメトリックを取得することと、
2024、端末が第1の歪みメトリック及び第2の歪みメトリックに基づいて判別ネットワークモデルの損失関数を取得することと、を含む。
ステップ2021では、音源数量が2であることを例として説明し、分離音声サンプルをZ、Zで表し、混合音声サンプルをYで表し、分離音声サンプルと混合音声サンプルを組み合わせて、第1の信号サンプル組み合わせを得て、該第1の信号サンプル組み合わせを[Z、Z、Y]で表す。同様に、第2の信号サンプル組み合わせを[X、X、Y]で表し、クリーン音声サンプルをX、Xで表す。
ステップ2022では、判別ネットワークモデルに符号Dを付け、判別ネットワークモデルを用いて第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、該第1の判別出力結果をD([Z、Z、Y])で表し、判別ネットワークモデルの第1の目標出力を目標出力0(false)とし、次に第1の判別出力結果と判別ネットワークモデルの第1の目標出力との間の第1の歪みメトリックを計算する。
例えば、該第1の歪みメトリックは、以下の公式で計算できる。
Figure 2021516786
式中、Lseparated−>falseは、分離音声サンプルと混合音声サンプルの組み合わせ[Z、Z、Y]の判別ネットワークモデルDによる第1の判別出力結果と第1の目標出力との間の歪みメトリックを表す。
ステップ2023では、判別出力方法が前述のステップ2022と類似し、端末は判別ネットワークモデルを用いて第2の信号サンプル組み合わせについて判別出力を行なって第2の判別出力結果を得て、該第2の判別出力結果をD([X、X、Y])で表し、判別ネットワークモデルの第2の目標出力を目標出力1(true)とし、次に第2の判別出力結果と判別ネットワークモデルの第2の目標出力との間の第2の歪みメトリックを取得する。
例えば、該第2の歪みメトリックは、以下の公式で計算できる。
Figure 2021516786
式中、Lreal−>trueは、クリーン音声サンプルと混合音声サンプルの組み合わせ[X、X、Y]の判別ネットワークモデルDによる第2の判別出力結果と第2の目標出力との間の歪みメトリックを表す。
ステップ2024では、端末は、前述のステップで第1の歪みメトリック及び第2の歪みメトリックを取得した後、第1の歪みメトリック及び第2の歪みメトリックにより判別ネットワークモデルの損失関数を取得することができる。
一例として、判別ネットワークモデルを最適化するとき、対応する損失関数を以下のように定義してよい。
Figure 2021516786
式中、Lは、判別ネットワークモデルの損失関数を表し、Lseparated−>falseは、分離音声サンプルと混合音声サンプルの組み合わせ[Z、Z、Y]の判別ネットワークモデルDによる第1の判別出力結果と第1の目標出力との間の歪みメトリックを表し、Lreal−>trueは、クリーン音声サンプルと混合音声サンプルの組み合わせ[X、X、Y]の判別ネットワークモデルDによる第2の判別出力結果と第2の目標出力との間の歪みメトリックを表す。
続いて、上記ステップ204〜ステップ206では、判別ネットワークモデルDを固定し、生成ネットワークモデルの損失関数Lを最小化することにより、生成ネットワークモデルパラメータを最適化する。
分離音声サンプル、混合音声サンプル及びクリーン音声サンプルを用いて生成ネットワークモデルの損失関数を取得する上記ステップ205は、
2051、端末が分離音声サンプル及び混合音声サンプルに基づいて第1の信号サンプル組み合わせを決定することと、
2052、端末が判別ネットワークモデルを用いて第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、そして第1の判別出力結果と判別ネットワークモデルの第2の目標出力との間の第3の歪みメトリックを取得することと、
2053、端末が分離音声サンプルとクリーン音声サンプルとの間の第4の歪みメトリックを取得することと、
2054、端末が第3の歪みメトリック及び第4の歪みメトリックに基づいて生成ネットワークモデルの損失関数を取得することと、を含む。
ステップ2051では、音源数量が2であることを例として説明し、分離音声サンプルをZ、Zで表し、混合音声サンプルをYで表し、分離音声サンプルと混合音声サンプルを組み合わせて、第1の信号サンプル組み合わせを得て、該第1の信号サンプル組み合わせを[Z、Z、Y]で表す。
ステップ2052では、判別ネットワークモデルに符号Dを付け、端末は、判別ネットワークモデルを用いて第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、該第1の判別出力結果をD([Z、Z、Y])で表し、判別ネットワークモデルの第2の目標出力を目標出力1(true)とし、次に第1の判別出力結果と判別ネットワークモデルの第2の目標出力との間の第3の歪みメトリックを計算する。
例えば、該第3の歪みメトリックは、以下の公式で計算できる。
Figure 2021516786
式中、Lseparated−>trueは、分離音声サンプルと混合音声サンプルの組み合わせ[Z、Z、Y]の判別ネットワークモデルDによる第1の判別出力結果と第2の目標出力との間の歪みメトリックを表す。
ステップ2053では、端末は、分離音声サンプルとクリーン音声サンプルとの間の第4の歪みメトリックを取得し、第4の歪みメトリックは、スペクトル歪み項で、分離音声サンプルとクリーン音声サンプルとの歪みメトリックである。
Tが時間領域のフレーム数であり、Fが周波数領域のポイント数であり、Sが音源の個数であると仮定し、本願の実施例に係る第4の歪みメトリックJssを以下のように表してよい。
Figure 2021516786
本願の一部の実施例では、端末が分離音声サンプルとクリーン音声サンプルとの間の第4の歪みメトリックを取得するステップ2054は、
端末が分離音声サンプル及びクリーン音声サンプルについて置換不変性の計算を行い、分離音声サンプルとクリーン音声サンプルとの間の対応関係結果を得ることと、
端末が分離音声サンプルとクリーン音声サンプルとの間の対応関係結果に基づいて第4の歪みメトリックを取得することと、を含む。
音声分離タスクでは、音源数量が2より大きいため、分離音声サンプルとクリーン音声サンプルとの対応関係が唯一ではなく、即ちZがXに対応し、ZがXに対応する可能性があり、ZがXに対応し、ZがXに対応する可能性もあることが考えられている。このため、分離音声サンプル及びクリーン音声サンプルについて置換不変性の計算を行う必要があり、即ちJssの定義に対応関係と無関係な置換不変トレーニング(Permutation Invariant Training、PIT)を導入してよい。PITに対応するスペクトル歪み項Jφ*を以下のように表す。
Figure 2021516786
全ての対応関係の組み合わせが1つの集合Pを形成すると仮定すると、φ*は、集合Pにおける最小歪みを取得するときの対応関係を表し、
Figure 2021516786
式中、arg min f(x)は、関数f(x)をその最小値にする全ての独立変数xの集合である。
ステップ2054では、端末は、前述のステップで第3の歪みメトリック及び第4の歪みメトリックを取得した後、第3の歪みメトリック及び第4の歪みメトリックにより生成ネットワークモデルの損失関数を取得することができる。
一例として、生成ネットワークモデルを最適化するとき、対応する損失関数を以下のように定義してよい。
Figure 2021516786
式中、Lは、生成ネットワークモデルの損失関数を表し、Lseparated−>trueは、分離音声サンプルと混合音声サンプルの組み合わせ[Z、Z、Y]の判別ネットワークモデルDによる第1の判別出力結果と第2の目標出力との間の歪みメトリックを表し、Jssは、第4の歪みメトリックを表し、λは、重み係数である。
以上の本願の実施例に対する記載から分かるように、本願の実施例では、生成的敵対的ネットワークに基づく音声分離ネットワークフレームワークを提案し、生成ネットワーク及び敵対的ネットワークが互いに反復するトレーニング過程を利用して、従来の音声分離の性能を向上させる。
本願の実施例の上記技術手段をよりよく理解して実施するために、以下、対応する応用シナリオを例として具体的に説明する。
図3に示すように、本願の実施例に係る敵対的生成ネットワークモデルのモデルアーキテクチャ図である。続いて、敵対的生成ネットワークモデルの音声分離ネットワーク構造を詳細に説明する。
本願の実施例に係る生成的敵対的ネットワークに基づく音声分離ネットワーク構造において、生成ネットワークモデルGの入力は、混合音声信号に対応する混合音声特徴であり、ニューラルネットワーク(DNN、LSTM、CNNなど)により、分離音声信号に対応する時間周波数ポイントマスクマトリックスM、M(mask1、mask2)を得た後に、マスクマトリックスと混合音声信号のスペクトルYとを乗算することにより、分離音声信号に対応するスペクトルZ、Zを得ることができ、即ち以下の計算式を満たす。
Figure 2021516786
敵対的ネットワークモデルは、入力が分離音声信号と混合音声信号の組み合わせ[Z、Z、Y]であるか、又はクリーン音声信号と混合音声信号の組み合わせ[X、X、Y]であり、出力が、0又は1である。トレーニング過程で、混合音声信号が複数のクリーン音声を重ね合わせて得られるため、クリーン音声に対応するスペクトルX、Xは既知である。
ジェネレータ及び判別器のトレーニング過程について、詳細は、前述の実施例における例示を参照し、ここで詳述しない。
なお、前述の各方法の実施例について、説明の便宜上、いずれも一連の動作の組み合わせとして説明したが、当業者が理解できるように、本願は、説明した動作順に限定されず、本願によれば、一部のステップを他の順で実行したり同時に実行したりしてもよいからである。そして、明細書に説明した実施例がいずれも任意選択の実施例で、係る動作やモジュールが必ずしも本願に不可欠なものではないことは当業者が理解できる。
本願の実施例の上記解決手段をよりよく実施するために、以下、上記技術手段を実施するための、端末に実装される関連装置を提供する。
図4−aに示すように、本願の実施例に係る複数人の音声を分離する装置400は、
N(Nは2以上の正整数)種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するように構成された特徴抽出モジュール401と、
敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得るように構成されたマスクマトリックス生成モジュール402と、
前記敵対的生成ネットワークモデルを用いて前記N種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記N種の人声に対応するN種の分離音声信号を出力するように構成された音声分離モジュール403と、を含んでよい。
本願の一部の実施例では、前記敵対的生成ネットワークモデルは、生成ネットワークモデル及び敵対的ネットワークモデルを含み、図4−bに示すように、前記複数人の音声を分離する装置400は、モデルトレーニングモジュール404をさらに含み、ここで、
前記特徴抽出モジュール401は、分離対象の混合音声信号から混合音声特徴を抽出する前に、サンプルデータベースから前記混合音声サンプル及び前記クリーン音声サンプルを取得し、前記混合音声サンプルから混合音声サンプル特徴を抽出するようにさらに構成され、
前記マスクマトリックス生成モジュール402は、前記生成ネットワークモデルにより前記混合音声サンプル特徴についてマスク係数抽出を行い、N種の人声に対応するサンプルマスクマトリックスを得るようにさらに構成され、
前記音声分離モジュール403は、前記生成ネットワークモデルを用いて前記サンプルマスクマトリックス及び前記混合音声サンプルについて音声分離を行い、分離音声サンプルを出力するようにさらに構成され、
前記モデルトレーニングモジュール404は、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデル及び前記敵対的ネットワークモデルを交互にトレーニングするように構成される。
本願の一部の実施例では、図4−cに示すように、前記モデルトレーニングモジュール404は、
今回前記判別ネットワークモデルをトレーニングするとき、前記生成ネットワークモデルを固定し、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記判別ネットワークモデルの損失関数を取得し、前記判別ネットワークモデルの損失関数を最小化することにより、前記判別ネットワークモデルを最適化するように構成された生成ネットワークトレーニングユニット4041と、
次回前記生成ネットワークモデルをトレーニングするとき、前記判別ネットワークモデルを固定し、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデルの損失関数を取得し、前記生成ネットワークモデルの損失関数を最小化することにより、前記生成ネットワークモデルを最適化するように構成された判別ネットワークトレーニングユニット4042と、を含む。
本願の一部の実施例では、図4−dに示すように、前記生成ネットワークトレーニングユニット4041は、
前記分離音声サンプル及び前記混合音声サンプルに基づいて第1の信号サンプル組み合わせを決定し、かつ前記クリーン音声サンプル及び前記混合音声サンプルに基づいて第2の信号サンプル組み合わせを決定するように構成された第1の音声組み合わせサブユニット40411と、
前記判別ネットワークモデルを用いて前記第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、そして前記第1の判別出力結果と前記判別ネットワークモデルの第1の目標出力との間の第1の歪みメトリックを取得するように構成された第1の判別出力サブユニットであって、前記判別ネットワークモデルを用いて前記第2の信号サンプル組み合わせについて判別出力を行なって第2の判別出力結果を得て、そして前記第2の判別出力結果と前記判別ネットワークモデルの第2の目標出力との間の第2の歪みメトリックを取得するように構成された第1の判別出力サブユニット40412と、
前記第1の歪みメトリック及び前記第2の歪みメトリックに基づいて前記判別ネットワークモデルの損失関数を取得するように構成された第1の損失関数取得サブユニット40413と、を含む。
本願の一部の実施例では、図4−eに示すように、前記判別ネットワークトレーニングユニット4042は、
前記分離音声サンプル及び前記混合音声サンプルに基づいて第1の信号サンプル組み合わせを決定するように構成された第2の音声組み合わせサブユニット40421と、
前記判別ネットワークモデルを用いて前記第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、そして前記第1の判別出力結果と前記判別ネットワークモデルの第2の目標出力との間の第3の歪みメトリックを取得するように構成された第2の判別出力サブユニット40422と、
前記分離音声サンプルと前記クリーン音声との間の第4の歪みメトリックを取得するように構成された歪みメトリック取得サブユニット40423と、
前記第3の歪みメトリック及び前記第4の歪みメトリックに基づいて前記生成ネットワークモデルの損失関数を取得するように構成された第2の損失関数取得サブユニット40424と、を含む。
本願の一部の実施例では、前記歪みメトリック取得サブユニット40423は、前記分離音声サンプル及び前記クリーン音声サンプルについて置換不変性の計算を行い、前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果を得て、そして前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果に基づいて前記第4の歪みメトリックを取得するように具体的に構成される。
本願の一部の実施例では、前記特徴抽出モジュール401は、前記混合音声信号からシングルチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は前記混合音声信号からマルチチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は前記混合音声信号からシングルチャンネルの音声特徴を抽出するか、又は前記混合音声信号からマルチチャンネル間の関連特徴を抽出するように具体的に構成される。
以上の本願の実施例に対する記載から分かるように、まずN種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出し、次に敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得て、敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、N種の人声に対応するN種の分離音声信号を出力する。本願の実施例では、複数種の人声に対応する音声信号を精確に認識可能な敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックスを抽出することができるため、該敵対的生成ネットワークモデルに基づいて音声分離ネットワークフレームワークを実現し、複数人の音声を含むシナリオでの音声間の分離を実現し、音声分離の性能を向上させる。
本願の実施例は、さらに他の端末を提供し、図5に示すように、説明を容易にするために、本願実施例に関連する部分のみを示し、示されていない具体的な技術的詳細については、本願の実施例の方法の部分を参照されたい。該端末は、携帯電話、タブレットコンピュータ、PDA(Personal Digital Assistant、パーソナルデジタルアシスタント)、POS(Point of Sales、ポイント・オブ・セールス)、車載コンピュータなどを含む任意の端末機器であってよく、端末が携帯電話であることを例とする。
図5は、本願の実施例に係る端末に関連する携帯電話の一部の構造のブロック図を示す。図5に示すように、携帯電話は、無線周波数(Radio Frequency、RF)回路1010、メモリ1020、入力ユニット1030、表示ユニット1040、センサー1050、オーディオ回路1060、ワイヤレスフィディリティー(wireless fidelity、WiFi)モジュール1070、プロセッサ1080、及び電源1090などの部材を含む。当業者が理解できるように、図5に示される携帯電話の構造は、携帯電話を限定するものではなく、図に示すものよりも多いか又は少ない部材を含んでもよいし、又はいくつかの部材を組み合わせてもよいし、又は異なる部材配置を有してもよい。
以下、図5を参照しながら携帯電話の各構成部材を具体的に説明する。
RF回路1010は、情報を送受信するか又は通話の過程で、信号を送受信し、特に基地局からのダウンリンク情報を受信した後、プロセッサ1080に送って処理させ、また、アップリンク用データを基地局に送信するために用いられてよい。通常、RF回路1010は、アンテナ、少なくとも1つの増幅器、送受信機、カプラ、ローノイズアンプ(Low Noise Amplifier、LNA)、デュプレクサなどを含むが、それらに限定されない。また、RF回路1010は、さらに無線通信によりネットワーク及び他の機器と通信することができる。上記無線通信は、いずれかの通信規格又はプロトコルを使用してもよく、移動体通信用グローバルシステム(Global System of Mobile communication、GSM)、汎用パケット無線サービス(General Packet Radio Service、GPRS)、符号分割多元接続(Code Division Multiple Access、CDMA)、広帯域符号分割多元接続(Wideband Code Division Multiple Access、WCDMA(登録商標))、ロングタームエボリューション(Long Term Evolution、LTE)、電子メール、ショートメッセージサービス(Short Messaging Service、SMS)などを含むが、これらに限定されない。
メモリ1020は、ソフトウェアプログラム及びモジュールを記憶するために用いられてよく、プロセッサ1080は、メモリ1020に記憶されているソフトウェアプログラム及びモジュールを実行することにより、携帯電話の様々な機能アプリケーション及びデータ処理を実行する。メモリ1020は、主に、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラム(例えば、音声再生機能や、画像再生機能など)などを記憶できるプログラム記憶領域と、携帯電話の使用に応じて作成したデータ(例えば、オーディオデータや、電話帳など)などを記憶できるデータ記憶領域とを含む。また、メモリ1020は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリを含んでもよく、例えば、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ、又は他の揮発性固体メモリである。
入力ユニット1030は、入力された数字又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関するキー信号入力を生成するために用いられてよい。入力ユニット1030は、タッチパネル1031及びその他の入力装置1032を含んでよい。タッチパネル1031は、タッチスクリーンとも呼ばれ、ユーザーがその上又は近傍でのタッチ操作(例えば、ユーザーがフィンガー、タッチペンなど任意の適切な物体又は付属品を用いてタッチパネル1031上又はタッチパネル1031の近傍での操作)を収集し、かつ予め設定されたルーチンに基づいて対応する接続装置を駆動する。任意選択で、タッチパネル1031は、タッチ検出装置及びタッチ制御装置という2つの部分を含んでよい。ここで、タッチ検出装置は、ユーザーのタッチ位置を検出し、かつタッチ操作による信号を検出し、信号をタッチ制御装置に送信し、タッチ制御装置は、タッチ検出装置からタッチ情報を受信し、それを接触点座標に変換し、さらにプロセッサ1080に送信し、また、プロセッサ1080から送信されたコマンドを受信して実行することができる。また、電気抵抗式、容量式、赤外線及び弾性表面波などの様々な形態でタッチパネル1031を実現することができる。タッチパネル1031以外、入力ユニット1030は、その他の入力装置1032を含んでよい。その他の入力装置1032は、物理キーボード、ファンクションキー(例えば、ボリューム制御押しボタンや、スイッチボタンなど)、トラックボール、マウス、操作レバーなどから選ばれる1種又は複数種を含むが、それらに限定されない。
表示ユニット1040は、ユーザーが入力した情報又はユーザーに提供された情報及び携帯電話の様々なメニューを表示するために用いられてよい。表示ユニット1040は、表示パネル1041を含んでよく、任意選択で、液晶ディスプレイ(Liquid Crystal Display、LCD)、有機発光ダイオード(Organic Light−Emitting Diode、OLED)などの形態で表示パネル1041を構成してよい。タッチパネル1031は、表示パネル1041をカバーしてよく、タッチパネル1031がその上又は近傍でのタッチ操作を検出した後、プロセッサ1080に送信してタッチイベントのタイプを決定し、その後にプロセッサ1080がタッチイベントのタイプに応じて表示パネル1041上に対応する視覚出力を提供する。図5では、タッチパネル1031及び表示パネル1041は、2つの独立した部材として携帯電話の入力と入力機能を実現しているが、一部の実施例では、タッチパネル1031を表示パネル1041と一体化して携帯電話の入出力機能を実現してもよい。
携帯電話は、さらに、例えば光センサーや、モーションセンサー及び他のセンサーなどの少なくとも1種のセンサー1050を含んでよい。光センサーは、環境光の明暗に応じて表示パネル1041の輝度を調整可能な環境光センサーと、携帯電話が耳元に移動するときに表示パネル1041及び/又はバックライトをオフ可能な近接センサーとを含んでよい。モーションセンサーの一種として、加速度計センサーは、各方向(一般的に3軸)の加速度の大きさを検出することができ、静止時に重力の大きさ及び方向を検出することができ、携帯電話の姿勢を認識するアプリケーション(例えば、横縦画面の切替や、関連ゲーム、磁力計姿勢の較正)、振動認識関連機能(例えば、歩数計や、ノック)などに用いることができる。携帯電話には、ジャイロ、気圧計、湿度計、温度計、赤外線センサなどのその他のセンサーも配置されてよく、ここで詳述しない。
オーディオ回路1060、スピーカ1061、マイクロフォン1062は、ユーザーと携帯電話との間のオーディオインタフェースを提供することができる。オーディオ回路1060は、受信されたオーディオデータを変換した電気信号をスピーカ1061に送信し、スピーカ1061によって音声信号に変換して出力することができる一方、マイクロフォン1062は、収集された音声信号を電気信号に変換し、該電気信号は、オーディオ回路1060によって受信されてオーディオデータに変換され、該オーディオデータはプロセッサ1080に出力されて処理された後、RF回路1010を介して、例えば他の携帯電話に送信されるか、又は更なる処理のためにメモリ1020に出力される。
WiFiは短距離無線伝送技術に属し、携帯電話はWiFiモジュール1070によりユーザーの電子メールの送受信、ウェブページの閲覧、及びストリーミングメディアへのアクセスなどを支援することができ、ユーザーに無線の広帯域インターネットアクセスを提供する。図5はWiFiモジュール1070を示しているが、携帯電話の必須構成ではなく、必要に応じて出願の要旨を変更しない範囲で省略してよいことを理解されたい。
プロセッサ1080は、携帯電話のコントロールセンターであり、様々なインタフェース及び回線を用いて携帯電話全体の各部分を接続し、メモリ1020内に記憶されたソフトウェアプログラム及び/又はモジュールを動作させるか又は実行し、メモリ1020内に記憶されたデータを呼び出すことにより、携帯電話の様々な機能を実行してデータを処理して、携帯電話全体を監視する。任意選択で、プロセッサ1080は、1つ又は複数の処理ユニットを含んでよく、任意選択で、プロセッサ1080に、主にオペレーティングシステム、ユーザインタフェース及びアプリケーションプログラムなどを処理するアプリケーションプロセッサと、主に無線通信を処理するモデムプロセッサと、を集積してもよい。上記モデムプロセッサをプロセッサ1080に集積しなくてよいことが理解されたい。
携帯電話は、さらに、各部材に給電する電源1090(例えば電池)を含み、任意選択で、電源は、電源管理システムによりプロセッサ1080に論理的に接続されることにより、電源管理システムにより充電、放電、及び電力消費の管理などの機能を実現する。
図示しないが、携帯電話は、さらにカメラ、ブルートゥース(登録商標)モジュールなどを含んでよく、ここで詳述しない。
本願の実施例では、該端末が備えるプロセッサ1080は、端末による複数人の音声を分離する上記方法の実行を制御する流れをさらに有する。
図6は、本願の実施例に係るサーバの概略構成図であり、該サーバ1100は、構成又は性能によって大きく異なる可能性があり、1つ又は複数の中央処理装置(central processing units、CPU)1122(例えば、1つ又は複数のプロセッサ)と、メモリ1132と、アプリケーションプログラム1142又はデータ1144を記憶する1つ又は複数の記憶媒体1130(例えば、1つ又は複数の大容量記憶装置)と、を含んでよい。メモリ1132及び記憶媒体1130は、一時的記憶装置でも永続的記憶装置でもよい。記憶媒体1130に記憶されたプログラムは、それぞれサーバに対する一連のコマンド操作を含む1つ又は複数のモジュール(図示せず)を含んでよい。さらに、中央処理装置1122は、記憶媒体1130と通信して、記憶媒体1130における一連のコマンド操作をサーバ1100で実行するように構成されてよい。
サーバ1100は、1つ又は複数の電源1126、1つ又は複数の有線又は無線ネットワークインタフェース1150、1つ又は複数の入出力インタフェース1158、及び/又は、1つ又は複数のオペレーティングシステム1141、例えばWindows Server、Mac OS X、Unix、Linux(登録商標)、FreeBSDなどをさらに含んでよい。
上記実施例では、サーバによって実行された複数人の音声を分離する方法のステップは、該図6に示されるサーバの構造に基づくことができる。
本願の実施例の別の態様によれば、さらに記憶媒体を提供する。該記憶媒体には、実行されると、上記いずれか1つの方法の実施例におけるステップが実行されるように構成されるコンピュータプログラムが記憶されている。
任意選択で、本実施例では、上記記憶媒体は、
S1、端末がN(Nは2以上の正整数)種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するステップと、
S2、前記端末が敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得るステップと、
S3、前記端末が前記敵対的生成ネットワークモデルを用いて前記N種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記N種の人声に対応するN種の分離音声信号を出力するステップと、を実行するためのコンピュータプログラムを記憶するように構成されてよい。
任意選択で、本実施例では、当業者によって理解されるように、上記実施例の様々な方法の全部又は一部のステップがプログラムにより端末装置の関連ハードウェアを指示して完了でき、該プログラムがコンピュータ読み取り可能な記憶媒体に記憶でき、記憶媒体は、フラッシュディスク、リードオンリーメモリ(Read−Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク又は光ディスクなどを含んでよい。
なお、以上に説明された装置の実施例は例示的なものに過ぎず、分離部材として説明された上記ユニットは物理的に分離されてもよいし、分離されなくてもよく、ユニットとして表示される部材は物理ユニットであってもよいし、そうでなくてもよく、すなわち1つの場所に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の需要に応じて、それらのうちの一部又は全部のモジュールを選択して本実施例の技術手段の目的を達成することができる。また、本願に係る装置の実施例の図面において、モジュール間の接続関係は、それらの間に通信接続を有することを示し、具体的には、1つまたは複数の通信バス又は信号線として実現されてよい。当業者は創造的労働をしなくても、理解し、かつ実施することができる。
以上の実施形態の説明から、当業者は、本願がソフトウェアと必要な汎用ハードウェアを組み合わせる形態で実現できることが明らかに分かり、もちろん、専用集積回路や、専用CPU、専用メモリ、専用部品などを含む専用ハードウェアによって実現されてもよい。一般的には、コンピュータプログラムによって完了された機能は、いずれも対応するハードウェアで容易に実現でき、また、同一の機能を実現する具体的なハードウェアの構成は、様々であってよく、例えば、アナログ回路、デジタル回路、専用回路などである。しかしながら、本願では、より多くの場合、ソフトウェアプログラムによる実現は、より良い実施形態である。このような理解に基づいて、本願の技術手段の実質的な又は関連技術に貢献のある部分は、ソフトウェア製品の形態で実現されることができ、該コンピュータソフトウェア製品は、例えばコンピュータのフロッピーディスクや、Uディスク、移動ハードディスク、リードオンリーメモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク又は光ディスクなどの読取可能な記憶媒体に記憶され、1台のコンピュータ機器(パーソナルコンピュータ、サーバ又はネットワーク機器などであってよい)に本願の各実施例で説明した方法を実行させるための若干のコマンドを含む。
前記のように、以上の実施例は、本願の技術手段を説明するためのものに過ぎず、それを限定するものではなく、上記実施例を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、依然として上記各実施例に記載の技術手段を変更するか、又はその一部の技術的特徴に等価置換を行うことができ、これらの修正又は置換により、対応する技術手段の本質は、本願の各実施例の技術手段の主旨及び範囲から逸脱することにならない。
本願の実施例では、まずN種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出し、次に敵対的生成ネットワークモデルを用いて混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得て、敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックス及び混合音声信号について音声分離を行い、N種の人声に対応するN種の分離音声信号を出力する。本願の実施例では、複数種の人声に対応する音声信号を精確に認識可能な敵対的生成ネットワークモデルを用いてN種の人声に対応するマスクマトリックスを抽出することができるため、該敵対的生成ネットワークモデルに基づいて音声分離ネットワークフレームワークを実現し、複数人の音声を含むシナリオでの音声間の分離を実現し、音声分離の性能を向上させる。
400 装置
401 特徴抽出モジュール
402 マスクマトリックス生成モジュール
403 音声分離モジュール
404 モデルトレーニングモジュール
4041 生成ネットワークトレーニングユニット
4042 判別ネットワークトレーニングユニット
40411 サブユニット
40412 第1の判別出力サブユニット
40413 第1の損失関数取得サブユニット
40421 サブユニット
40422 第2の判別出力サブユニット
40423 メトリック取得サブユニット
40424 第2の損失関数取得サブユニット
1010 RF回路
1010 無線周波数回路
1020 メモリ
1030 入力ユニット
1031 タッチパネル
1032 入力装置
1040 表示ユニット
1041 表示パネル
1050 センサー
1060 オーディオ回路
1061 スピーカ
1062 マイクロフォン
1070 WiFiモジュール
1070 ワイヤレスフィディリティーモジュール
1080 プロセッサ
1090 電源
1100 サーバ
1122 中央処理装置
1126 電源
1130 記憶媒体
1132 メモリ
1141 オペレーティングシステム
1142 アプリケーションプログラム
1144 データ
1150 無線ネットワークインタフェース
1158 入出力インタフェース
別の態様では、本願の実施例は、コンピュータで実行されるとき、コンピュータに上記各態様に記載の方法を実行させるコマンドが記憶されているコンピュータ可読記憶媒体を提供する。
本願の一部の実施例では、図4−eに示すように、前記判別ネットワークトレーニングユニット4042は、
前記分離音声サンプル及び前記混合音声サンプルに基づいて第1の信号サンプル組み合わせを決定するように構成された第2の音声組み合わせサブユニット40421と、
前記判別ネットワークモデルを用いて前記第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、そして前記第1の判別出力結果と前記判別ネットワークモデルの第2の目標出力との間の第3の歪みメトリックを取得するように構成された第2の判別出力サブユニット40422と、
前記分離音声サンプルと前記クリーン音声サンプルとの間の第4の歪みメトリックを取得するように構成された歪みメトリック取得サブユニット40423と、
前記第3の歪みメトリック及び前記第4の歪みメトリックに基づいて前記生成ネットワークモデルの損失関数を取得するように構成された第2の損失関数取得サブユニット40424と、を含む。
表示ユニット1040は、ユーザーが入力した情報又はユーザーに提供された情報及び携帯電話の様々なメニューを表示するために用いられてよい。表示ユニット1040は、表示パネル1041を含んでよく、任意選択で、液晶ディスプレイ(Liquid Crystal Display、LCD)、有機発光ダイオード(Organic Light−Emitting Diode、OLED)などの形態で表示パネル1041を構成してよい。タッチパネル1031は、表示パネル1041をカバーしてよく、タッチパネル1031がその上又は近傍でのタッチ操作を検出した後、プロセッサ1080に送信してタッチイベントのタイプを決定し、その後にプロセッサ1080がタッチイベントのタイプに応じて表示パネル1041上に対応する視覚出力を提供する。図5では、タッチパネル1031及び表示パネル1041は、2つの独立した部材として携帯電話の入出力機能を実現しているが、一部の実施例では、タッチパネル1031を表示パネル1041と一体化して携帯電話の入出力機能を実現してもよい。

Claims (15)

  1. 端末がN(前記Nは2以上の正整数)種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するステップと、
    前記端末が敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得るステップと、
    前記端末が前記敵対的生成ネットワークモデルを用いて前記N種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記N種の人声に対応するN種の分離音声信号を出力するステップと、を含む、複数人の音声を分離する方法。
  2. 前記敵対的生成ネットワークモデルは、生成ネットワークモデル及び敵対的ネットワークモデルを含み、
    前記端末が分離対象の混合音声信号から混合音声特徴を抽出する前に、
    前記端末がサンプルデータベースから前記混合音声サンプル及び前記クリーン音声サンプルを取得するステップと、
    前記端末が前記混合音声サンプルから混合音声サンプル特徴を抽出するステップと、
    前記端末が前記生成ネットワークモデルにより前記混合音声サンプル特徴についてマスク係数抽出を行い、N種の人声に対応するサンプルマスクマトリックスを得るステップと、
    前記端末が前記生成ネットワークモデルを用いて前記サンプルマスクマトリックス及び前記混合音声サンプルについて音声分離を行い、分離音声サンプルを出力するステップと、
    前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデル及び前記敵対的ネットワークモデルを交互にトレーニングするステップと、をさらに含む、請求項1に記載の方法。
  3. 前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデル及び前記敵対的ネットワークモデルを交互にトレーニングするステップは、
    前記端末が今回前記判別ネットワークモデルをトレーニングするとき、前記生成ネットワークモデルを固定するステップと、
    前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記判別ネットワークモデルの損失関数を取得するステップと、
    前記端末が前記判別ネットワークモデルの損失関数を最小化することにより、前記判別ネットワークモデルを最適化するステップと、
    前記端末が次回前記生成ネットワークモデルをトレーニングするとき、前記判別ネットワークモデルを固定するステップと、
    前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデルの損失関数を取得するステップと、
    前記端末が前記生成ネットワークモデルの損失関数を最小化することにより、前記生成ネットワークモデルを最適化するステップと、を含む、請求項2に記載の方法。
  4. 前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記判別ネットワークモデルの損失関数を取得するステップは、
    前記端末が前記分離音声サンプル及び前記混合音声サンプルに基づいて第1の信号サンプル組み合わせを決定し、かつ前記クリーン音声サンプル及び前記混合音声サンプルに基づいて第2の信号サンプル組み合わせを決定するステップと、
    前記端末が前記判別ネットワークモデルを用いて前記第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、そして前記第1の判別出力結果と前記判別ネットワークモデルの第1の目標出力との間の第1の歪みメトリックを取得するステップと、
    前記端末が前記判別ネットワークモデルを用いて前記第2の信号サンプル組み合わせについて判別出力を行なって第2の判別出力結果を得て、そして前記第2の判別出力結果と前記判別ネットワークモデルの第2の目標出力との間の第2の歪みメトリックを取得するステップと、
    前記端末が前記第1の歪みメトリック及び前記第2の歪みメトリックに基づいて前記判別ネットワークモデルの損失関数を取得するステップと、を含む、請求項3に記載の方法。
  5. 前記端末が前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデルの損失関数を取得するステップは、
    前記端末が前記分離音声サンプル及び前記混合音声サンプルに基づいて第1の信号サンプル組み合わせを決定するステップと、
    前記端末が前記判別ネットワークモデルを用いて前記第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、そして前記第1の判別出力結果と前記判別ネットワークモデルの第2の目標出力との間の第3の歪みメトリックを取得するステップと、
    前記端末が前記分離音声サンプルと前記クリーン音声との間の第4の歪みメトリックを取得するステップと、
    前記端末が前記第3の歪みメトリック及び前記第4の歪みメトリックに基づいて前記生成ネットワークモデルの損失関数を取得するステップと、を含む、請求項3に記載の方法。
  6. 前記端末が前記分離音声サンプルと前記クリーン音声との間の第4の歪みメトリックを取得するステップは、
    前記端末が前記分離音声サンプル及び前記クリーン音声サンプルについて置換不変性の計算を行い、前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果を得るステップと、
    前記端末が前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果に基づいて前記第4の歪みメトリックを取得するステップと、を含む、請求項5に記載の方法。
  7. 前記端末が分離対象の混合音声信号から混合音声特徴を抽出するステップは、
    前記端末が前記混合音声信号からシングルチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は
    前記端末が前記混合音声信号からマルチチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は
    前記端末が前記混合音声信号からシングルチャンネルの音声特徴を抽出するか、又は
    前記端末が前記混合音声信号からマルチチャンネル間の関連特徴を抽出するステップを含む、請求項1〜6のいずれか1項に記載の方法。
  8. 端末に実装される、複数人の音声を分離する装置であって、
    N(前記Nは2以上の正整数)種の人声が混合している分離対象の混合音声信号から混合音声特徴を抽出するように構成された特徴抽出モジュールと、
    敵対的生成ネットワークモデルを用いて前記混合音声特徴についてマスク係数抽出を行い、N種の人声に対応するマスクマトリックスを得るように構成されたマスクマトリックス生成モジュールと、
    前記敵対的生成ネットワークモデルを用いて前記N種の人声に対応するマスクマトリックス及び前記混合音声信号について音声分離を行い、前記N種の人声に対応するN種の分離音声信号を出力するように構成された音声分離モジュールと、を含む、複数人の音声を分離する装置。
  9. 前記敵対的生成ネットワークモデルは、生成ネットワークモデル及び敵対的ネットワークモデルを含み、
    前記複数人の音声を分離する装置は、モデルトレーニングモジュールをさらに含み、
    前記特徴抽出モジュールは、分離対象の混合音声信号から混合音声特徴を抽出する前に、サンプルデータベースから前記混合音声サンプル及び前記クリーン音声サンプルを取得し、前記混合音声サンプルから混合音声サンプル特徴を抽出するようにさらに構成され、
    前記マスクマトリックス生成モジュールは、前記生成ネットワークモデルにより前記混合音声サンプル特徴についてマスク係数抽出を行い、N種の人声に対応するサンプルマスクマトリックスを得るようにさらに構成され、
    前記音声分離モジュールは、前記生成ネットワークモデルを用いて前記サンプルマスクマトリックス及び前記混合音声サンプルについて音声分離を行い、分離音声サンプルを出力するようにさらに構成され、
    前記モデルトレーニングモジュールは、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデル及び前記敵対的ネットワークモデルを交互にトレーニングするように構成される、請求項8に記載の装置。
  10. 前記モデルトレーニングモジュールは、
    今回前記判別ネットワークモデルをトレーニングするとき、前記生成ネットワークモデルを固定し、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記判別ネットワークモデルの損失関数を取得し、前記判別ネットワークモデルの損失関数を最小化することにより、前記判別ネットワークモデルを最適化するように構成された生成ネットワークトレーニングユニットと、
    次回前記生成ネットワークモデルをトレーニングするとき、前記判別ネットワークモデルを固定し、前記分離音声サンプル、前記混合音声サンプル及び前記クリーン音声サンプルを用いて前記生成ネットワークモデルの損失関数を取得し、前記生成ネットワークモデルの損失関数を最小化することにより、前記生成ネットワークモデルを最適化するように構成された判別ネットワークトレーニングユニットと、を含む、請求項9に記載の装置。
  11. 前記生成ネットワークトレーニングユニットは、
    前記分離音声サンプル及び前記混合音声サンプルに基づいて第1の信号サンプル組み合わせを決定し、かつ前記クリーン音声サンプル及び前記混合音声サンプルに基づいて第2の信号サンプル組み合わせを決定するように構成された第1の音声組み合わせサブユニットと、
    前記判別ネットワークモデルを用いて前記第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、そして前記第1の判別出力結果と前記判別ネットワークモデルの第1の目標出力との間の第1の歪みメトリックを取得するように構成された第1の判別出力サブユニットであって、前記判別ネットワークモデルを用いて前記第2の信号サンプル組み合わせについて判別出力を行なって第2の判別出力結果を得て、そして前記第2の判別出力結果と前記判別ネットワークモデルの第2の目標出力との間の第2の歪みメトリックを取得するように構成された第1の判別出力サブユニットと、
    前記第1の歪みメトリック及び前記第2の歪みメトリックに基づいて前記判別ネットワークモデルの損失関数を取得するように構成された第1の損失関数取得サブユニットと、を含む、請求項10に記載の装置。
  12. 前記判別ネットワークトレーニングユニットは、
    前記分離音声サンプル及び前記混合音声サンプルに基づいて第1の信号サンプル組み合わせを決定するように構成された第2の音声組み合わせサブユニットと、
    前記判別ネットワークモデルを用いて前記第1の信号サンプル組み合わせについて判別出力を行なって第1の判別出力結果を得て、そして前記第1の判別出力結果と前記判別ネットワークモデルの第2の目標出力との間の第3の歪みメトリックを取得するように構成された第2の判別出力サブユニットと、
    前記分離音声サンプルと前記クリーン音声との間の第4の歪みメトリックを取得するように構成された歪みメトリック取得サブユニットと、
    前記第3の歪みメトリック及び前記第4の歪みメトリックに基づいて前記生成ネットワークモデルの損失関数を取得するように構成された第2の損失関数取得サブユニットと、を含む、請求項10に記載の装置。
  13. 前記歪みメトリック取得サブユニットは、前記分離音声サンプル及び前記クリーン音声サンプルについて置換不変性の計算を行い、前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果を得て、そして前記分離音声サンプルと前記クリーン音声サンプルとの間の対応関係結果に基づいて前記第4の歪みメトリックを取得するように具体的に構成される、請求項12に記載の装置。
  14. 前記特徴抽出モジュールは、前記混合音声信号からシングルチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は前記混合音声信号からマルチチャンネルの音声信号の時間領域特徴又は周波数領域特徴を抽出するか、又は前記混合音声信号からシングルチャンネルの音声特徴を抽出するか、又は前記混合音声信号からマルチチャンネル間の関連特徴を抽出するように具体的に構成される、請求項8〜13のいずれか1項に記載の装置。
  15. コマンドを記憶するためのメモリと、
    前記メモリにおける前記コマンドを実行して、請求項1〜7のいずれか1項に記載の方法を実行するためのプロセッサとを含む、複数人の音声を分離する装置。
JP2020548932A 2018-08-09 2019-08-05 複数人の音声を分離する方法、装置、およびコンピュータプログラム Pending JP2021516786A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810904488.9 2018-08-09
CN201810904488.9A CN110164469B (zh) 2018-08-09 2018-08-09 一种多人语音的分离方法和装置
PCT/CN2019/099216 WO2020029906A1 (zh) 2018-08-09 2019-08-05 一种多人语音的分离方法和装置

Publications (1)

Publication Number Publication Date
JP2021516786A true JP2021516786A (ja) 2021-07-08

Family

ID=67645182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020548932A Pending JP2021516786A (ja) 2018-08-09 2019-08-05 複数人の音声を分離する方法、装置、およびコンピュータプログラム

Country Status (5)

Country Link
US (1) US11450337B2 (ja)
EP (1) EP3751569A4 (ja)
JP (1) JP2021516786A (ja)
CN (2) CN110544488B (ja)
WO (1) WO2020029906A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021128328A (ja) * 2020-02-14 2021-09-02 システム・ワン・ノック・アンド・ディベロップメント・ソリューションズ・ソシエダッド・アノニマSystem One Noc & Development Solutions, S.A. 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法
US20220262386A1 (en) * 2020-02-10 2022-08-18 Tencent Technology (Shenzhen) Company Limited Speech enhancement method and apparatus, electronic device, and computer- readable storage medium
JP7465992B2 (ja) 2021-08-24 2024-04-11 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド オーディオデータ処理方法、装置、機器、記憶媒体及びプログラム

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847238B (zh) * 2018-08-06 2022-09-16 东北大学 一种服务机器人语音识别方法
CN110544482B (zh) * 2019-09-09 2021-11-12 北京中科智极科技有限公司 一种单通道语音分离系统
CN110795892B (zh) * 2019-10-23 2021-10-01 北京邮电大学 一种基于生成对抗网络的信道模拟方法及装置
CN110827849B (zh) * 2019-11-11 2022-07-26 广州国音智能科技有限公司 数据建库的人声分离方法、装置、终端及可读存储介质
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
CN113450823B (zh) * 2020-03-24 2022-10-28 海信视像科技股份有限公司 基于音频的场景识别方法、装置、设备及存储介质
CN111477240B (zh) * 2020-04-07 2023-04-07 浙江同花顺智能科技有限公司 音频处理方法、装置、设备和存储介质
CN111640456B (zh) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN111899758B (zh) * 2020-09-07 2024-01-30 腾讯科技(深圳)有限公司 语音处理方法、装置、设备和存储介质
CN112071329B (zh) * 2020-09-16 2022-09-16 腾讯科技(深圳)有限公司 一种多人的语音分离方法、装置、电子设备和存储介质
CN112216300A (zh) * 2020-09-25 2021-01-12 三一专用汽车有限责任公司 用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车
CN112331218B (zh) * 2020-09-29 2023-05-05 北京清微智能科技有限公司 一种针对多说话人的单通道语音分离方法和装置
CN113223497A (zh) * 2020-12-10 2021-08-06 上海雷盎云智能技术有限公司 智能语音识别处理方法及系统
CN112992174A (zh) * 2021-02-03 2021-06-18 深圳壹秘科技有限公司 一种语音分析方法及其语音记录装置
CN113077812A (zh) * 2021-03-19 2021-07-06 北京声智科技有限公司 语音信号生成模型训练方法、回声消除方法和装置及设备
CN113571084B (zh) * 2021-07-08 2024-03-22 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质
CN114446316B (zh) * 2022-01-27 2024-03-12 腾讯科技(深圳)有限公司 音频分离方法、音频分离模型的训练方法、装置及设备
CN114743561A (zh) * 2022-05-06 2022-07-12 广州思信电子科技有限公司 语音分离装置及方法、存储介质、计算机设备
CN116597828B (zh) * 2023-07-06 2023-10-03 腾讯科技(深圳)有限公司 模型确定方法、模型应用方法和相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020003537A (ja) * 2018-06-25 2020-01-09 カシオ計算機株式会社 オーディオ抽出装置、学習装置、カラオケ装置、オーディオ抽出方法、学習方法及びプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8947347B2 (en) * 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7225124B2 (en) * 2002-12-10 2007-05-29 International Business Machines Corporation Methods and apparatus for multiple source signal separation
US20150287406A1 (en) * 2012-03-23 2015-10-08 Google Inc. Estimating Speech in the Presence of Noise
JP5841986B2 (ja) * 2013-09-26 2016-01-13 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法
CN105096961B (zh) * 2014-05-06 2019-02-01 华为技术有限公司 语音分离方法和装置
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
WO2018045358A1 (en) * 2016-09-05 2018-03-08 Google Llc Generating theme-based videos
US11024009B2 (en) * 2016-09-15 2021-06-01 Twitter, Inc. Super resolution using a generative adversarial network
CN106847294B (zh) * 2017-01-17 2018-11-30 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN107437077A (zh) * 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
US10642846B2 (en) * 2017-10-13 2020-05-05 Microsoft Technology Licensing, Llc Using a generative adversarial network for query-keyword matching
CN107945811B (zh) * 2017-10-23 2021-06-01 北京大学 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
US10839822B2 (en) * 2017-11-06 2020-11-17 Microsoft Technology Licensing, Llc Multi-channel speech separation
CN108109619B (zh) 2017-11-15 2021-07-06 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN108198569B (zh) * 2017-12-28 2021-07-16 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
US11281976B2 (en) * 2018-07-12 2022-03-22 International Business Machines Corporation Generative adversarial network based modeling of text for natural language processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020003537A (ja) * 2018-06-25 2020-01-09 カシオ計算機株式会社 オーディオ抽出装置、学習装置、カラオケ装置、オーディオ抽出方法、学習方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENXING LI ET AL.: "CBLDNN-Based Speaker-Independent Speech Separation Via Generative Adversarial Training", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6021043377, April 2018 (2018-04-01), pages 711 - 715, XP033401816, ISSN: 0004937776, DOI: 10.1109/ICASSP.2018.8462505 *
GUANGCAN LIU ET AL.: "Improving Speech Separation with Adversarial Network and Reinforcement Learning", 2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, JPN6021043380, July 2018 (2018-07-01), pages 1 - 7, XP033419297, ISSN: 0004937774, DOI: 10.1109/IJCNN.2018.8489444 *
俵直弘ほか: "非線形ひずみ除去のための敵対的denoising autoencoder", 情報処理学会研究報告, vol. Vol.2018-SLP-123, No.1, JPN6021043378, July 2018 (2018-07-01), pages 1 - 7, ISSN: 0004937775 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220262386A1 (en) * 2020-02-10 2022-08-18 Tencent Technology (Shenzhen) Company Limited Speech enhancement method and apparatus, electronic device, and computer- readable storage medium
US12009004B2 (en) * 2020-02-10 2024-06-11 Tencent Technology (Shenzhen) Company Limited Speech enhancement method and apparatus, electronic device, and computer-readable storage medium
JP2021128328A (ja) * 2020-02-14 2021-09-02 システム・ワン・ノック・アンド・ディベロップメント・ソリューションズ・ソシエダッド・アノニマSystem One Noc & Development Solutions, S.A. 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法
JP7094340B2 (ja) 2020-02-14 2022-07-01 システム・ワン・ノック・アンド・ディベロップメント・ソリューションズ・ソシエダッド・アノニマ 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法
JP7465992B2 (ja) 2021-08-24 2024-04-11 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド オーディオデータ処理方法、装置、機器、記憶媒体及びプログラム

Also Published As

Publication number Publication date
CN110544488A (zh) 2019-12-06
WO2020029906A1 (zh) 2020-02-13
CN110544488B (zh) 2022-01-28
US20210005216A1 (en) 2021-01-07
EP3751569A1 (en) 2020-12-16
CN110164469A (zh) 2019-08-23
CN110164469B (zh) 2023-03-10
EP3751569A4 (en) 2021-07-21
US11450337B2 (en) 2022-09-20

Similar Documents

Publication Publication Date Title
JP2021516786A (ja) 複数人の音声を分離する方法、装置、およびコンピュータプログラム
JP5996783B2 (ja) 声紋特徴モデルを更新するための方法及び端末
CN110364145B (zh) 一种语音识别的方法、语音断句的方法及装置
CN107274885B (zh) 语音识别方法及相关产品
CN108538320B (zh) 录音控制方法和装置、可读存储介质、终端
WO2017215649A1 (zh) 音效调节方法及用户终端
CN108346433A (zh) 一种音频处理方法、装置、设备及可读存储介质
CN108511002B (zh) 危险事件声音信号识别方法、终端和计算机可读存储介质
CN107993672B (zh) 频带扩展方法及装置
CN106528545B (zh) 一种语音信息的处理方法及装置
CN106920559B (zh) 通话音的优化方法、装置及通话终端
CN110364156A (zh) 语音交互方法、系统、终端及可读存储介质
CN111477243B (zh) 音频信号处理方法及电子设备
CN112735388B (zh) 网络模型训练方法、语音识别处理方法及相关设备
CN109302528B (zh) 一种拍照方法、移动终端及计算机可读存储介质
CN109873894B (zh) 一种音量调节方法及移动终端
CN109686359B (zh) 语音输出方法、终端及计算机可读存储介质
CN110944056A (zh) 交互方法、移动终端及可读存储介质
CN109889665B (zh) 一种音量调节方法、移动终端及存储介质
CN109543193B (zh) 一种翻译方法、装置及终端设备
US20210110838A1 (en) Acoustic aware voice user interface
CN107645604B (zh) 一种通话处理方法及移动终端
CN115497498A (zh) 音频处理方法、装置、系统、终端及计算机可读存储介质
CN111010488A (zh) 音频信号处理方法、装置和电子设备
CN117012202B (zh) 语音通道识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200914

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220921

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220921

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221006

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221011

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20221209

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20221219

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230104

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230327