JP6312110B2 - 信号の1つ又は複数の成分を区別する方法 - Google Patents

信号の1つ又は複数の成分を区別する方法 Download PDF

Info

Publication number
JP6312110B2
JP6312110B2 JP2017527940A JP2017527940A JP6312110B2 JP 6312110 B2 JP6312110 B2 JP 6312110B2 JP 2017527940 A JP2017527940 A JP 2017527940A JP 2017527940 A JP2017527940 A JP 2017527940A JP 6312110 B2 JP6312110 B2 JP 6312110B2
Authority
JP
Japan
Prior art keywords
signal
components
processing
association
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017527940A
Other languages
English (en)
Other versions
JP2018502319A (ja
Inventor
ハーシェイ、ジョン
ル・ルー、ジョナサン
渡部 晋治
晋治 渡部
チェン、ズオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2018502319A publication Critical patent/JP2018502319A/ja
Application granted granted Critical
Publication of JP6312110B2 publication Critical patent/JP6312110B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Description

本発明は、包括的には信号処理に関し、より詳細には、音響信号の成分を区別することに関する。
現実世界の認知において、多くの場合に、信号を発するオブジェクト又はソースに選択的に注意を払う問題に直面する。不都合なことに、驚くほど多岐にわたる音響信号が存在する。例えば、人間の声が、音声及び歌に用いられる可能性があり、弦楽器、木管楽器及びパーカッション等の楽器は音響信号の別のクラスである。音響信号は、動物等の自然の音、及び環境から、並びに人工音源から生じたものであり得る。
人間は通常、既知の音及び新規の音の双方を分離するのに苦労しない。一方、発生モデルの場合、非常に多岐にわたる生じ得る音がモデリング問題を呈する。任意のタイプの音に適用することができる大型モデルを構築することは困難である。さらに、音は、状態に依拠して互いに曖昧になり得る。通常、全ての音の状態により、いずれの音が音響スペクトルの特定の部分を支配するかが決まる。
例えば、異なる人物からの音声は、カクテルパーティー効果として知られている、信号の単一の混合物において混ざり合う。人間は、広範にわたる他の刺激をフィルタリング除去しながら、特定の刺激に対し、聴覚の注意を集中することができる。これは、パーティー参加者が、雑音のある部屋内で単一の会話に集中することができる方法によって例示される。音響信号処理において、これは、聴覚シーン解析として知られ、聴覚シーン解析は、混合信号における個々の音源(人々の声等)に対応する音響信号の成分を特定しようとする。
音の成分は、ワールド内の目的エンティティ又はイベントに対応するが、成分への信号の解析をどの程度厳密に定義することができるかは、解析の目的に依拠して異なり得る。解析される成分構造を定義するときに検討される、解析のための様々な判断基準及び様々なカテゴリー化レベルが存在する場合がある。
例えば、当然ながら、多くのタイプの音が、成分及びそれらの副成分部分の階層的分解を許容する。音声において、1人の人物の声は、解析の1つのレベルにおける成分とみなされ得るのに対し、人物の音声における各単語は、より詳細な解析レベルにおける成分とみなされ得る。さらに、話者のグループからの音は、タスクが非音声から全ての音声を分離することである場合、成分とみなすことができる。代替的に、成分への音声の分割は、2つの異なる成分として、男性の音声及び女性の音声を検討することができる。
同様に、音楽では、成分及び副成分の自然な階層が存在する。解析の最高レベルにあるのは、音のアンサンブル全体であり、次が楽器の異なるグループであり、解析のより低いレベルにあるのは、異なる個々の楽器であり、最終的に、個々のノートイベントがある。楽器のグループを表す成分は、楽器のカテゴリ(例えば、フルート対クラリネット)等の異なる判断基準によって、又は楽器が演奏するメロディー部分若しくはリズム部分(例えば、テーマ対伴奏)によって定義することができる。
信号の成分の異なる定義及び更には相反する定義が存在する場合があるにもかかわらず、所与のタスクについて特定の成分構造を定義することができる。例えば、音声を非定常雑音と分離することは、明確に定義されたタスクである。成分構造の定義は、音声と非定常雑音との混合物を含む音響データの例、及び例示的な成分の音声及び非定常雑音のデータベースの使用により、明確にすることができる。音声信号及び非定常雑音信号成分を任意に共に混合することによって、目標用途を良好に表す任意の大きさの例の組が及ぶ大きな問題空間を定義することができる。
一方、通常、非定常雑音から音声を分離することは、困難な問題とみなされる。他の音声信号から音声を分離することは、全ての音源が同じクラスに属し、同じ特性を共有しているため、特に困難である。同性の話者からの音声を分離することは、音声のピッチが同じ範囲にあるため、最も困難な事例のうちの1つである。
目標が、複雑な音響シーンをその成分に解析することであるとき、解析特徴空間において、異なる音が互いに重なり、部分的に互いを曖昧にしている場合があり、音及び音タイプの数が不明である場合があり、特定のタイプの複数のインスタンスが存在する場合がある。
これらの問題は、解析を、セグメンテーション問題として扱うことによって対処することができる。ここで、信号における解析特徴要素の組は、信号から導出された解析特徴のインデックス付けされた組により定式化される。各要素は、通常、信号の小さな部分の多次元表現である解析特徴値を含む。
要素を用いて成分を区別するために、要素は、概して、各要素が成分のうちの1つのみの一部を主に表すように設計されなくてはならない。これは、いくつかの場合にほぼ真である。例えば、短時間フーリエ変換によって解析される話者の混合において、時間周波数ビンの大きなパーセンテージがいろいろな話者によって支配されている。この意味で、単一の成分によって支配されている要素はその成分に対応し、それらの要素を特定することができる場合、それらの要素を用いてその成分の近似を再構成することができる。このため、信号要素をグループに分割することは、信号を成分にセグメンテーションする手段を提供することができる。
クラスタリング方法をセグメンテーションのために用いることができるが、セグメンテーションは基本的に異なるものである。クラスタリングは通常、ペアワイズ点関係において定義される単純な目的関数に基づく、領域に無関係な問題として定式化される。対照的に、セグメンテーションは、通例、入力全体の複雑な処理に依拠し、タスクの目的は、セグメントラベルを用いたトレーニング例を用いて任意に定義することができる。
セグメンテーションは、目標が、学習されたオブジェクトクラスラベルに基づいて既知のオブジェクトクラスをラベル付けすることであるクラスベースのセグメンテーションと、タスクが、オブジェクトクラスラベルを必要とすることなく、学習された分割ラベルに基づいて入力をセグメンテーションすることである分割ベースのセグメンテーションとに大まかに分類することができる。分割ベースのセグメンテーション問題を解くことは、未知のオブジェクトを分割することができるという利点を有する。
単一チャネルの音声分離において、スペクトログラムの時間周波数要素は、分類器又は発生モデルに基づいて、目標話者によって支配される領域に分割される。深層ニューラルネットワークをクラスベースのセグメンテーション問題に適用することもできる。
一方、クラスベースの手法は制限を有する。既知のクラスをラベル付けするタスクは、多数の可能なクラスが存在する可能性があり、多くのオブジェクトが、明確に定義されたクラスを有していない場合がある現実世界の信号における一般問題に対処していない。また、従来のクラスベースの手法をより一般的な問題にどのように直接適用するのか明らかでない。ソースを分離するためのクラスベースの深層ネットワークモデルは、出力ノードにおける出力クラス及びオブジェクトインスタンスの明確な表現を必要とし、これは、一般的な事例では、困難をもたらす。
発生モデルベースの方法は、理論上、試験時間におけるモデルタイプ及びインスタンスの数に関して柔軟にすることができるが、より一般的なセグメンテーションタスクによって課される、潜在的にはるかに大きな問題に対し、推測を計算によりスケーリングするには、大きな困難が残っている。
対照的に、人間は、新規のオブジェクト及び音を容易にセグメンテーションすることができるため、分割ベースの問題を解くように見える。この観測は、近接性及び類似度等の特徴の観点から知覚的グルーピングの説明を試みるゲシュタルト知覚理論に基づく。分割ベースのセグメンテーションタスクは、密に関係しており、画像セグメンテーション及び音響分離における研究の流れを辿るものである。音響セグメンテーションに対する知覚グルーピング理論の適用は、計算聴覚シーン解析(CASA)として一般的に知られている。
スペクトルクラスタリング
機械学習において、スペクトルクラスタリングは、画像及び音響のセグメンテーションのために用いられている。スペクトルクラスタリングは、信号の要素の特徴間のローカルアフィニティ尺度(local affinity measure)を用い、正規化されたアフィニティ行列のスペクトル分解を用いて様々な目的関数を最適化する。k平均法等の従来の集中型クラスタリングと対照的に、スペクトルクラスタリングは、点が中心プロトタイプの周りに密にクラスタリングされることを必要とせず、クラスターが連結されたサブグラフを形成することを条件として、任意のトポロジのクラスターを決定することができるという利点を有する。用いられるペアワイズカーネル関数の局所形式に起因して、難解なスペクトルクラスタリング問題において、アフィニティ行列は、集中型クラスタリングに直接適用可能でないスパースなブロック対角構造を有する。これは、ブロック対角アフィニティ構造が密であるときに良好に機能する。スペクトルクラスタリングの、強力であるが計算的に複雑な固有空間変換ステップは、事実上、ブロック構造を「膨らませる」ことによってこれに対処し、それによって、連結された成分は、集中型クラスタリングの前に密なブロックになる。
アフィニティベースの方法は、教師なし推測方法のために用いられているが、マルチカーネル学習方法を、別個のアフィニティ尺度を組み合わせるために重みをトレーニングするように用いることができる。これは、分割ベースのセグメンテーションタスクのためのマルチカーネル学習方法を用いて検討することを可能にする。この方法では、分割ラベルが利用可能であるが、特定のクラスラベルを必要としない。これらの方法は、スペクトログラムの時間周波数領域間のアフィニティとして、オンセット、オフセット、ピッチ及びスペクトルエンベロープの類似性等の様々な聴覚シーン解析グルーピング原理を実施するように開発された多岐にわたる複雑な特徴を含む音声分離に適用されている。入力特徴は、一般性を犠牲にして、カーネルベースの特徴の相対的単純性に対し改善を行う二重ピッチ追跡モデルを含むことができる。
埋め込みとして知られる、学習される特徴変換が複数の用途において用いられる。比較的単純なクラスタリング手順と共に用いられる、自動連想深層ネットワークによって得られる教師なし埋め込みは、いくつかの場合、スペクトルクラスタリング方法よりも優れた性能を発揮することができる。近傍ベースの分割ラベルを用いて、ペアワイズメトリック学習を用いてトレーニングされた埋め込みは、興味深い普遍特性を有することも示されている。非特許文献1を参照されたい。
Mikolov他「Distributed representations of words and phrases and their compositionality」Proc. NIPS, 2013, pp. 3111-3119
本発明の実施形態は、深層ニューラルネットワーク(DNN)を用いて音響信号の成分を区別する方法を提供する。本方法は、深層クラスタリング(deep clustering)を用いて信号を分割する。トレーニングデータにおいて与えられる分割ラベルについて弁別的である関連記述子の形態の埋め込みが、深層学習によって決定される。本方法は、新規のオブジェクトクラスを含む音響信号を分割することができるように、オブジェクトクラスのラベルを用いることを回避する。
DNNは、学習力及び学習速度の観点において利点をもたらす。一方、これまで、DNNをクラスと無関係にどのように用いるかが不明確であった。学習力及びスケーラビリティの観点における制限にかかわらず、クラスタリング手法は、クラス、及び分割される成分の数に関して柔軟性がある。これらの利点をDNNにもたらすために、実施形態は、ラベル分割の置換と無関係の目的関数を用いて、理想的なペアワイズアフィニティ行列を近似する埋め込みをトレーニングする。
目的関数は異なる区画内の要素のための埋め込み間の距離を最大にしながら、一区画内の要素の埋め込み間の距離を最小にする。利点として、埋め込みにより、全ての分割及びそれらの置換を、ニューラルネットワークの固定次元の出力を用いて暗黙的に表すことが可能になる。
DNNが2人の話者の混合を含む音響信号におけるスペクトル特徴に対しトレーニングされるとき、本方法のプロトタイプ実施形態は、ほぼ0dB±5dBで混合される信号から開始して、約6dBだけ信号品質を改善するマスキング関数を推測することができる。本方法は、2人の話者の混合に対してのみトレーニングされている場合であっても、3人の話者の混合に一般化することができる。
本発明の実施形態による、音響信号の1つ又は複数の成分を区別する方法の流れ図である。
本発明の実施形態は、深層ニューラルネットワーク(DNN)を用いて信号の成分を区別する方法を提供する。DNNは、リカレントニューラルネットワークとすることができる。
図1に示すように、信号101が環境103から取得される。1つの実施形態では、環境は、音響センサー105、例えばマイクロフォンを用いる1つ又は複数の音響源104を含む。信号が処理され、1組のDNN入力特徴111、及び解析特徴112が抽出される(110)。ここで、特徴ベクトルの形態をとる各解析特徴は、セグメンテーションのために用いられる信号の要素を定義する。別の実施形態では、ビデオ信号及び/又はテキスト106は、音響信号に関連付けられる。これに加えて、又は代替的に、信号は、マルチチャネル音響信号を含む。
解析特徴は、32msのウィンドウ長、8msのウィンドウシフト、及びハンウィンドウの二乗根で求められる入力音声信号の短時間フーリエ複素スペクトル係数の形態をとることができる。ローカルコヒーレンスを確保するために、概ね音声における1つの単語の長さの100個のフレームのセグメントが用いられる。
DNN入力特徴は、何らかの任意の特徴セットとすることができる。いくつかの実施形態では、DNN入力特徴は、セグメンテーションのために用いられる要素を定義する解析特徴の対数短時間フーリエの大きさである。一方、他の実施形態では、DNN入力特徴は、音響信号の任意の特徴とすることができ、解析特徴と数及び品質が異なる可能性がある。
DNN入力特徴は、DNN120を用いて処理される。DNNは、ネットワークパラメーター115によって定義される。DNNは、関連記述子130を解析特徴によって定義される各要素に割り当てる。異なる要素の関連する記述子間の類似度は、要素が信号の単一の成分に属する度合いに関係付けられる。マルチチャネルの音響信号の場合、チャネル間のタイミング関係を用いて、要素のための関連記述子を推定する。
関連記述子の類似性関係が処理され、要素と1つ又は複数の成分との間の対応関係141が推定される(140)。次に、対応関係151を用いて信号101が更に処理され(150)、1つ又は複数の成分102が区別される。本方法は、当該技術分野において既知のメモリ及び入出力インターフェースバスに接続されたプロセッサ100において実行することができる。
ここで、方法及び深層ニューラルネットワーク及びトレーニングがより詳細に説明される。
クラスタリングのための学習関連記述子
時間領域音響信号101はxであり、解析特徴110は、要素iによってインデックス付けされたベクトルX=g(x),n∈{1,...,N}の形態であり、ここで、iは時間周波数インデックス(t,f)とすることができ、ここで、tは音響信号のフレームをインデックス付けし、fは周波数を表す。対応する時間周波数ビンにおける複素スペクトルの値はX=Xt,fである。
例えば、特徴Xを領域ごとに別個に更に処理するために見つけることを望む、領域への要素iの妥当な分割が存在すると仮定する。音響源分離の場合、例えば、これらの領域は、各ソースが支配する時間周波数ビンの組として定義することができる。区画を推定することにより、要素Xに適用することができる時間周波数マスクを構築することが可能になり、音響源を分離するために反転することができる時間周波数表現がもたらされる。特徴変換X=g(x)を最適化して、システムの全体セグメンテーション又はソース分離性能を改善することができることに留意されたい。
区画を推定するために、θによってパラメーター化された関連記述子
Figure 0006312110
の形態でK次元埋め込みを求め、それによって、関連記述子空間におけるクラスタリングの実行により、目標区画に類似した区画{1,...,N}がもたらされる。V=fθ(x)は、全体信号x101のグローバル関数であるDNN120に基づく。特徴抽出ステップ110は、DNN120のためのDNN入力特徴111を生成する。DNN入力特徴は、Xと完全に異なり得る。このため、変換は、入力信号のグローバル特性を考慮に入れることができ、関連記述子は、置換、及び解析特徴によって定義される要素に基づく信号分割の推定値の、濃度と独立した符号化とみなすことができる。
ここで、
Figure 0006312110
であるような単位ノルム関連記述子を検討する。ここで、v={vi,k}であり、vi,kは要素iのための関連記述子のk番目の次元の値である。θにおけるVの依存性を省いて表記を単純にする。
分割に基づくトレーニングは、各要素iをc個の任意の分割クラスの各々にマッピングする基準ラベルインジケータY={yi,c}を必要とし、要素iが区画c内にあるとき、yi,c=1であるようにする。トレーニング目的の場合、分割ラベルに従って正確なクラスタリングを可能にする関連記述子を求める。これを行うために、1つのトレーニング例から次のトレーニング例までの分割ラベルの数及び置換に対して不変の式、例えば、
Figure 0006312110
を用いる。ここで、|v=1,∀iであることを用いた。式(1)において、目的は、内積<v,v>=cosθi,jによって測定される単位ベクトルv及びvの類似度の観点において定義され、ここで、θi,jはv及びv間の角度である。このため、目的は、i及びjが同じ区画内にあるとき、類似度を1まで増大させようとし、i及びjが異なる区画内にあるとき、類似度を0まで減少させようとする。
同等に、式(2)に示すように、この目的は、同じ区画内の要素について二乗距離|v−vを0に減少させる傾向があるのに対し、関連記述子が単一点に自明に崩壊する(trivially collapsing)のを防ぐ。二乗距離|v−v=2−2<v,v>は、類似度<v,v>に反比例する。
式(2)における第1の項は、クラスター割り当ての関数として、k平均クラスタリングアルゴリズムによって最小化される目的関数に等価であるのに対し、第2の項は、クラスター割り当てに関して一定であることに留意されたい。このため、目的は、トレーニング時間における基準クラスターの割り当てのためのk平均割り当て誤差を妥当に低減しようとする。
単純にするために、ここで重みを省くが、目的関数における各要素に帰する重要度を変更する要素重み行列WをC(θ)=|W(VV−YY)W として導出し、要素の線形関数に対し異なる重要度を課すことができる。例えば、対角重み行列Wを用いて、信号のより顕著な部分を表す要素により大きな重要度を与えることができる。
関連記述子重み行列A(φ)を含めることによって、複数のタスクのための埋め込みを最適化することもできる。関連記述子重み行列A(φ)は、タスク関連パラメーターφの関数としてVの埋め込み次元に対し重みを課すことによって要素間の類似度の尺度を変更する。この場合の目的関数は、C(θ)=|VAφ(VAφ−YY になる。このようにして、関連記述子は、試験時に選択することができるφによって選択される複数の異なるタスクについて有用であるようにトレーニングすることができる。例えば、変更された関連記述子VAφを用いて、φの1つの設定について音楽の成分として異なる楽器を区別し、φの異なる設定について同じ音楽の異なる個々のノートを区別することができる。このようにして、階層の複数のレベルにおいて、又は複数のアプリケーションドメインについて、単一の埋め込みを用いてセグメンテーションを提供することができる。
DNNを最適化するために、勾配ベースの方法を用いることができる。好都合なことに、関連記述子Vに関する本発明による目的関数の導関数は、低階数構造に起因して効率的に得ることができる。
Figure 0006312110
これによって、トレーニング中のN×Nアフィニティ行列の計算が回避される。
この定式化は、以下のようにスペクトルクラスタリングに関係付けることができる。本発明では、理想アフィニティ行列A=YYを定義することができる。この行列はブロック対角行列から置換行列まであり、内積カーネルを用い、A=VVがアフィニティ行列となるようになっている。ここで、Tは転置演算子である。本発明の目的は、理想アフィニティからモデルのアフィニティ行列の導出を測定するC=|A−A となる。この関数は、表向きは、データ点i、jの全ての対にわたって合算するが、目的の低階数の特性により以下がもたらされる。
Figure 0006312110
これにより、N×Nアフィニティ行列を明示的に構築することが回避される。実際に、NはKよりも数桁大きく、大きな加速をもたらす。スペクトルクラスタリングにおいて、N×Nのアフィニティ行列の計算を必要とする異なるカーネル関数が用いられる。さらに、スペクトルクラスタリングにおいて用いられるカーネルによって、アフィニティ行列はスパースなブロックごとの構造を有することになり、これは、成分を解析するための固有分解を必要とする。
したがって、効率性のために、スペクトルクラスタリングは通常、アフィニティ行列に対するニストロム低階数近似等の近似を必要とし、N×K行列の特異値分解(SVD)をK×Kの正規化アフィニティ行列のはるかに複雑な固有値分解に置き換えることができるようにする。
本発明による方法は、全階数モデルの低階数近似を行う際にスペクトルクラスタリングを辿るのではなく、低階数アフィニティ行列を直接最適化し、処理がより効率的であり、パラメーターが低階数構造に対し調整されるようにする。本発明による低階数アフィニティ行列に起因して、アフィニティ行列のブロック単位の構造は密であり、特異値分解に直接従う。さらに、類似度に基づくトレーニング目的に起因して、K平均等のより単純なクラスタリング方法を用いることができる。
試験中、試験信号に対し関連記述子Vを決定し、例えば、k平均クラスタリング手順を用いて行
Figure 0006312110
をクラスタリングする。また、k平均は、C=|VV−YY を最小にしようとし、同じ目的がトレーニングにおいて用いられるが、この場合は、ネットワークパラメーターθを固定された状態に保持して、クラスター割り当ての関数Yとして用いられることに留意されたい。このため、k平均は、同じ成分に対応する要素の関連記述子v及びv間の類似度<v,v>を最大にする要素及び成分間の対応関係を選択する。
また、クラスタリングの前に、又はクラスタリングの代わりに、スペクトルクラスタリング型の次元低減を交互に実行することができる。正規化された
Figure 0006312110

Figure 0006312110
として定義された特異値分解(SVD)から開始することができ、ここで、D=VVであり、特異ベクトル及び特異値は、si,i≧sj,j:j>iとなるように置換される。次に、m個の主要な左特異ベクトルの行列の正規化された行を、
Figure 0006312110
によって与えられるi番目の行と共にクラスタリングすることができる。
関連記述子をクラスタリングすることによって、要素と信号の成分との間の対応関係が決まる。これは、セグメンテーションを生成するのに用いることができる。ここで、i=(t,f)によってインデックス付けされる各解析要素は、セグメントk=c(t,f)に割り当てられる。このハードクラスタリングを用いて、k=c(t,f)である場合、フィルターa t,f=1を計算し、そうでない場合、a t,f=0を計算することができる。次に、k番目の成分の特徴を、
Figure 0006312110
として推定することができる。多くの既存の方法による連続対応関数に従って推定された重みa t,fを用いて、ソフトクラスタリングも得ることができる。これは、
Figure 0006312110
に基づいて、かつグラフベースの信号処理方法を用いてこれらを求めることを含む。
別の拡張は、クラスbによってインデックス付けされた1つ又は複数の関連記述子zを用いることである。これは、クラスの埋め込みを表す。この場合、
Figure 0006312110
となるようにクラス
Figure 0006312110
を用いて要素vを分類する分類が行われる。ここで、関数arg maxは最大値を返す。
クラスタリング及び推定ステップは、処理の重要な部分であり、例えば、クラスタリングモデルの深層展開によって、DNNの目的関数に含めることができる。これについては、Hershey他「Deep unfolding: Model-based inspiration of novel deep architectures」Sep. 2014, arXiv: 1409.2574を参照されたい。
なお、DNNは、畳み込みニューラルネットワークとすることができる。また、関連記述子と1つ又は複数の成分との間の関連付けは、ガウス混合モデルを用いて推定されるようにすることができる。また、信号の1つ又は複数の成分は、オブジェクトを認識するために用いられるようにすることができる。また、別個の信号のうちの1つ又は複数は、音声認識システムにおいて、話者が発話する単語を認識するように処理されるようにすることができる。

Claims (15)

  1. 信号の1つ又は複数の成分を区別する方法であって、
    前記信号は音響信号であり、
    前記方法は、
    音響センサーを用いて環境から前記信号を取得するステップと、
    前記信号を処理して、1組の解析特徴を推定するステップであって、各解析特徴は、前記信号の要素を定義し、前記信号の部分を表す特徴値を有する、ステップと、
    前記信号を処理して前記信号の入力特徴を推定するステップと、
    深層ニューラルネットワーク(DNN)を用いて前記入力特徴を処理して、関連記述子を前記信号の各要素に割り当てるステップであって、異なる要素の前記関連記述子間の類似度は、前記要素によって表される前記信号の前記部分が前記信号の単一の成分に属する度合いに関係する、ステップと、
    前記関連記述子間の類似度を処理して、前記信号の前記要素と前記信号内の1つ又は複数の成分との間の対応関係を推定するステップと、
    前記対応関係を用いて前記信号を処理して、前記信号の前記1つ又は複数の成分の前記部分を区別するステップと、
    を含み、
    前記ステップはプロセッサにおいて実行される、
    方法。
  2. 前記信号は、前記信号の前記1つ又は複数の成分に対応する前記要素の強度を変更するように処理される、
    請求項1に記載の方法。
  3. 前記DNNはリカレントニューラルネットワークである、
    請求項1に記載の方法。
  4. 前記ニューラルネットワークは畳み込みニューラルネットワークである、
    請求項1に記載の方法。
  5. 前記関連記述子と前記1つ又は複数の成分との間の関連付けは、K平均クラスタリングを用いて推定される、
    請求項1に記載の方法。
  6. 前記関連記述子と前記1つ又は複数の成分との間の関連付けは、ガウス混合モデルを用いて推定される、
    請求項1に記載の方法。
  7. 前記関連記述子と前記1つ又は複数の成分との間の関連付けは、特異値分解を用いて推定される、
    請求項1に記載の方法。
  8. 前記関連記述子間の関連付けが処理されてグラフが形成され、前記信号に対しグラフベースの信号処理が行われる、
    請求項1に記載の方法。
  9. 前記信号は、マルチチャネル音響信号を含み、チャネル間のタイミング関係を用いて、前記要素のための前記記述子が推定される、
    請求項1に記載の方法。
  10. 前記信号の前記成分のうちの1つ又は複数は音声であり、前記信号の前記処理は、1つ又は複数の音声信号に対応する別個の信号を生成する、
    請求項1に記載の方法。
  11. 前記信号の前記1つ又は複数の成分は、オブジェクトを認識するために用いられる、
    請求項1に記載の方法。
  12. 別個の信号のうちの1つ又は複数は、音声認識システムにおいて、話者が発話する単語を認識するように処理される、
    請求項11に記載の方法。
  13. 前記1つ又は複数の成分は、類似度の異なる尺度を用いて区別され、前記対応関係が推定される、
    請求項1に記載の方法。
  14. 前記1つ又は複数の成分は、階層に組織化され、前記階層の1つ又は複数のレベルにおける対応関係は、前記類似度の異なる尺度を用いて推定される、
    請求項13に記載の方法。
  15. 前記DNNは、トレーニングデータを用いて、前記関連記述子を生成するように最適化され、それによって、前記関連記述子間の類似度の前記処理をして、前記信号の前記要素と前記信号内の1つ又は複数の成分との間の対応関係を推定することにより、前記信号の前記成分を区別する際の誤りが低減する、
    請求項1に記載の方法。
JP2017527940A 2015-07-07 2016-07-05 信号の1つ又は複数の成分を区別する方法 Active JP6312110B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/792,960 US9368110B1 (en) 2015-07-07 2015-07-07 Method for distinguishing components of an acoustic signal
US14/792,960 2015-07-07
PCT/JP2016/070355 WO2017007035A1 (en) 2015-07-07 2016-07-05 Method for distinguishing one or more components of signal

Publications (2)

Publication Number Publication Date
JP2018502319A JP2018502319A (ja) 2018-01-25
JP6312110B2 true JP6312110B2 (ja) 2018-04-18

Family

ID=56100614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017527940A Active JP6312110B2 (ja) 2015-07-07 2016-07-05 信号の1つ又は複数の成分を区別する方法

Country Status (4)

Country Link
US (2) US9368110B1 (ja)
EP (1) EP3292515B1 (ja)
JP (1) JP6312110B2 (ja)
WO (1) WO2017007035A1 (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8691145B2 (en) 2009-11-16 2014-04-08 Flodesign Sonics, Inc. Ultrasound and acoustophoresis for water purification
US9752114B2 (en) 2012-03-15 2017-09-05 Flodesign Sonics, Inc Bioreactor using acoustic standing waves
US10967298B2 (en) 2012-03-15 2021-04-06 Flodesign Sonics, Inc. Driver and control for variable impedence load
US9567559B2 (en) 2012-03-15 2017-02-14 Flodesign Sonics, Inc. Bioreactor using acoustic standing waves
US9783775B2 (en) 2012-03-15 2017-10-10 Flodesign Sonics, Inc. Bioreactor using acoustic standing waves
US10953436B2 (en) 2012-03-15 2021-03-23 Flodesign Sonics, Inc. Acoustophoretic device with piezoelectric transducer array
US10689609B2 (en) 2012-03-15 2020-06-23 Flodesign Sonics, Inc. Acoustic bioreactor processes
US9458450B2 (en) 2012-03-15 2016-10-04 Flodesign Sonics, Inc. Acoustophoretic separation technology using multi-dimensional standing waves
US10322949B2 (en) 2012-03-15 2019-06-18 Flodesign Sonics, Inc. Transducer and reflector configurations for an acoustophoretic device
US9950282B2 (en) 2012-03-15 2018-04-24 Flodesign Sonics, Inc. Electronic configuration and control for acoustic standing wave generation
US9796956B2 (en) 2013-11-06 2017-10-24 Flodesign Sonics, Inc. Multi-stage acoustophoresis device
US9752113B2 (en) 2012-03-15 2017-09-05 Flodesign Sonics, Inc. Acoustic perfusion devices
US10704021B2 (en) 2012-03-15 2020-07-07 Flodesign Sonics, Inc. Acoustic perfusion devices
US10370635B2 (en) 2012-03-15 2019-08-06 Flodesign Sonics, Inc. Acoustic separation of T cells
US9745548B2 (en) 2012-03-15 2017-08-29 Flodesign Sonics, Inc. Acoustic perfusion devices
US9272234B2 (en) 2012-03-15 2016-03-01 Flodesign Sonics, Inc. Separation of multi-component fluid through ultrasonic acoustophoresis
US10737953B2 (en) 2012-04-20 2020-08-11 Flodesign Sonics, Inc. Acoustophoretic method for use in bioreactors
US9745569B2 (en) 2013-09-13 2017-08-29 Flodesign Sonics, Inc. System for generating high concentration factors for low cell density suspensions
CA2935960C (en) 2014-01-08 2023-01-10 Bart Lipkens Acoustophoresis device with dual acoustophoretic chamber
US9744483B2 (en) 2014-07-02 2017-08-29 Flodesign Sonics, Inc. Large scale acoustic separation device
US9978388B2 (en) * 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
EP3230976B1 (en) * 2014-12-11 2021-02-24 Uberchord UG (haftungsbeschränkt) Method and installation for processing a sequence of signals for polyphonic note recognition
US10106770B2 (en) 2015-03-24 2018-10-23 Flodesign Sonics, Inc. Methods and apparatus for particle aggregation using acoustic standing waves
US11377651B2 (en) 2016-10-19 2022-07-05 Flodesign Sonics, Inc. Cell therapy processes utilizing acoustophoresis
EP3288660A1 (en) 2015-04-29 2018-03-07 Flodesign Sonics Inc. Acoustophoretic device for angled wave particle deflection
US11708572B2 (en) 2015-04-29 2023-07-25 Flodesign Sonics, Inc. Acoustic cell separation techniques and processes
US11021699B2 (en) 2015-04-29 2021-06-01 FioDesign Sonics, Inc. Separation using angled acoustic waves
US11474085B2 (en) 2015-07-28 2022-10-18 Flodesign Sonics, Inc. Expanded bed affinity selection
US11459540B2 (en) 2015-07-28 2022-10-04 Flodesign Sonics, Inc. Expanded bed affinity selection
JP6507946B2 (ja) * 2015-08-31 2019-05-08 富士通株式会社 映像音声再生装置、映像音声再生方法、及びプログラム
CN105655354A (zh) * 2016-01-22 2016-06-08 京东方科技集团股份有限公司 薄膜晶体管、阵列基板及其制备方法以及显示装置
KR102151682B1 (ko) 2016-03-23 2020-09-04 구글 엘엘씨 다중채널 음성 인식을 위한 적응성 오디오 강화
US10710006B2 (en) 2016-04-25 2020-07-14 Flodesign Sonics, Inc. Piezoelectric transducer for generation of an acoustic standing wave
CN109715124B (zh) 2016-05-03 2022-04-22 弗洛设计声能学公司 利用声泳的治疗细胞洗涤、浓缩和分离
US11085035B2 (en) 2016-05-03 2021-08-10 Flodesign Sonics, Inc. Therapeutic cell washing, concentration, and separation utilizing acoustophoresis
US11214789B2 (en) 2016-05-03 2022-01-04 Flodesign Sonics, Inc. Concentration and washing of particles with acoustics
JP7006592B2 (ja) * 2016-06-16 2022-01-24 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US9984683B2 (en) * 2016-07-22 2018-05-29 Google Llc Automatic speech recognition using multi-dimensional models
US9965863B2 (en) 2016-08-26 2018-05-08 Elekta, Inc. System and methods for image segmentation using convolutional neural network
US9947102B2 (en) 2016-08-26 2018-04-17 Elekta, Inc. Image segmentation using neural network method
EP3293733A1 (en) 2016-09-09 2018-03-14 Thomson Licensing Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
JP2020513248A (ja) 2016-10-19 2020-05-14 フロデザイン ソニックス, インク.Flodesign Sonics, Inc. 音響による親和性細胞抽出
CN108510979B (zh) * 2017-02-27 2020-12-15 芋头科技(杭州)有限公司 一种混合频率声学识别模型的训练方法及语音识别方法
US11037330B2 (en) * 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression
US10839822B2 (en) 2017-11-06 2020-11-17 Microsoft Technology Licensing, Llc Multi-channel speech separation
WO2019102585A1 (ja) * 2017-11-24 2019-05-31 三菱電機株式会社 音響信号分離装置および音響信号分離方法
BR112020009889A2 (pt) 2017-12-14 2020-11-03 Flodesign Sonics, Inc. acionador e controlador de transdutor acústico
WO2019138573A1 (ja) * 2018-01-15 2019-07-18 三菱電機株式会社 音響信号分離装置および音響信号分離方法
US11972178B2 (en) * 2018-02-27 2024-04-30 Falkonry Inc. System and method for explanation of condition predictions in complex systems
JP6992873B2 (ja) * 2018-03-06 2022-01-13 日本電気株式会社 音源分離装置、音源分離方法およびプログラム
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
AU2019287569A1 (en) 2018-06-14 2021-02-04 Pindrop Security, Inc. Deep neural network based speech enhancement
CN108962229B (zh) * 2018-07-26 2020-11-13 汕头大学 一种基于单通道、无监督式的目标说话人语音提取方法
WO2020039571A1 (ja) * 2018-08-24 2020-02-27 三菱電機株式会社 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
CN109446910B (zh) * 2018-09-17 2021-12-07 中国人民解放军空军工程大学 一种通信辐射源信号分类识别方法
WO2020079918A1 (ja) * 2018-10-18 2020-04-23 ソニー株式会社 情報処理装置及び情報処理方法
CN111128222B (zh) * 2018-10-30 2023-09-08 富士通株式会社 语音分离方法、语音分离模型训练方法和计算机可读介质
US20200335119A1 (en) * 2019-04-16 2020-10-22 Microsoft Technology Licensing, Llc Speech extraction using attention network
IL267273A (en) * 2019-06-12 2019-11-28 Uveye Ltd Sound analysis for determination of sound sources and sound isolation
US11176924B2 (en) * 2020-01-09 2021-11-16 International Business Machines Corporation Reduced miss rate in sound to text conversion using banach spaces
WO2021234873A1 (ja) * 2020-05-20 2021-11-25 日本電信電話株式会社 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法及びプログラム
US11978476B2 (en) * 2021-09-19 2024-05-07 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting anomalous sound
WO2023127057A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム
WO2023127058A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム
EP4346234A1 (en) * 2022-09-29 2024-04-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for perception-based clustering of object-based audio scenes

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130131465A1 (en) * 2010-07-26 2013-05-23 Sharp Kabushiki Kaisha Biomeasurement device, biomeasurement method, control program for a biomeasurement device, and recording medium with said control program recorded thereon
JP6171544B2 (ja) 2013-05-08 2017-08-02 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
JP6235938B2 (ja) 2013-08-13 2017-11-22 日本電信電話株式会社 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
US20150271608A1 (en) * 2014-03-19 2015-09-24 Bose Corporation Crowd sourced recommendations for hearing assistance devices

Also Published As

Publication number Publication date
US20170011741A1 (en) 2017-01-12
EP3292515B1 (en) 2020-08-19
US9685155B2 (en) 2017-06-20
WO2017007035A8 (en) 2017-04-27
US9368110B1 (en) 2016-06-14
JP2018502319A (ja) 2018-01-25
WO2017007035A1 (en) 2017-01-12
EP3292515A1 (en) 2018-03-14

Similar Documents

Publication Publication Date Title
JP6312110B2 (ja) 信号の1つ又は複数の成分を区別する方法
Chen et al. Deep attractor network for single-microphone speaker separation
Kavalerov et al. Universal sound separation
Défossez et al. Demucs: Deep extractor for music sources with extra unlabeled data remixed
Hershey et al. Deep clustering: Discriminative embeddings for segmentation and separation
US7729914B2 (en) Method for detecting emotions involving subspace specialists
Seetharaman et al. Class-conditional embeddings for music source separation
Chazan et al. Multi-microphone speaker separation based on deep DOA estimation
CN111128236B (zh) 一种基于辅助分类深度神经网络的主乐器识别方法
Fan et al. Singing voice separation and pitch extraction from monaural polyphonic audio music via DNN and adaptive pitch tracking
Yu et al. Predominant instrument recognition based on deep neural network with auxiliary classification
Xu et al. Modeling attention and memory for auditory selection in a cocktail party environment
JP2019101391A (ja) 系列データ変換装置、学習装置、及びプログラム
Fan et al. Discriminative learning for monaural speech separation using deep embedding features
Fan et al. Utterance-level permutation invariant training with discriminative learning for single channel speech separation
Tan et al. Speech separation using augmented-discrimination learning on squash-norm embedding vector and node encoder
Sutojo et al. Auditory gestalt rules and their application
Guo et al. Optimized phase-space reconstruction for accurate musical-instrument signal classification
Kim et al. Speech and music pitch trajectory classification using recurrent neural networks for monaural speech segregation
Liu et al. Hierarchical component-attention based speaker turn embedding for emotion recognition
Pimpale et al. A survey on: Sound source separation methods
Arora et al. Instrument identification using PLCA over stretched manifolds
Saraf et al. A Zero-Shot Approach to Identifying Children's Speech in Automatic Gender Classification
Ke et al. Multi-speakers speech separation based on modified attractor points estimation and GMM clustering
Pham et al. End-to-end Visual-guided Audio Source Separation with Enhanced Losses

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180313

R150 Certificate of patent or registration of utility model

Ref document number: 6312110

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250