JP2011069948A - 音源信号分離装置、音源信号分離方法及びプログラム - Google Patents

音源信号分離装置、音源信号分離方法及びプログラム Download PDF

Info

Publication number
JP2011069948A
JP2011069948A JP2009220197A JP2009220197A JP2011069948A JP 2011069948 A JP2011069948 A JP 2011069948A JP 2009220197 A JP2009220197 A JP 2009220197A JP 2009220197 A JP2009220197 A JP 2009220197A JP 2011069948 A JP2011069948 A JP 2011069948A
Authority
JP
Japan
Prior art keywords
sound source
sound
source information
source signal
signal separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009220197A
Other languages
English (en)
Other versions
JP5435221B2 (ja
Inventor
Toshiyuki Nomura
俊之 野村
Akira Inoue
晃 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009220197A priority Critical patent/JP5435221B2/ja
Publication of JP2011069948A publication Critical patent/JP2011069948A/ja
Application granted granted Critical
Publication of JP5435221B2 publication Critical patent/JP5435221B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】分離する音源の数あるいは種類を事前に設定する必要がない音源分離装置を提供すること。
【解決手段】本発明は、入力映像からオブジェクトを検出し、検出結果に基づいて、音源情報を算出する音源情報算出部と、前記音源情報を用いて、入力オーディオ信号から音源信号を分離する音源信号分離部とを有する音源信号分離装置である。
【選択図】図1

Description

本発明は、音源信号分離装置、音源信号分離方法及びプログラムに関する。
従来の音源信号分離装置の一例が非特許文献1に記載されている。音源信号分離装置は、入力オーディオ信号を複数の音源信号に分離する装置である。
音源信号に分離する方法として、ブラインド信号源分離(Blind Source Separation)や、独立成分分析(Independent Component Analysis)と呼ばれる手法を用いられる。ブラインド信号源分離および独立成分分析の方法に関連する技術は、非特許文献1に開示されている。これらの関連技術は音源数を適切に設定することで入力オーディオ信号から自動的に音源信号に分離することができる。
一方、特許文献1によれば、所望音声と背景雑音とから構成される入力オーディオ信号から、各音源信号である所望音声と背景雑音とに分離し、背景雑音を抑圧する装置として、雑音抑圧装置が知られている。
雑音抑圧装置は、所望の音声信号に重畳されている雑音(ノイズ)を抑圧するシステムである。一般的に、雑音抑圧装置は、周波数領域に変換した入力信号を用いて雑音成分のパワースペクトルを推定し、入力信号から雑音成分の推定パワースペクトルを差し引く。これにより、所望の音声信号に混在する雑音が抑圧される。さらに、これらの雑音抑圧装置は、雑音成分のパワースペクトルを継続的に推定することにより、非定常な雑音の抑圧にも適用される。このような雑音抑圧装置に関連する技術としては、例えば、特許文献1に記載されている技術がある。しかしながら、雑音抑圧に関する従来技術は音源の種類を仮定しており、入力オーディオ信号が複数の音声信号から構成される場合あるいは音源の種類が変動した場合、分離された音源信号の品質が劣化する。
特開2002−204175号公報
2005年、「スピーチ・エンハンスメント」、シュプリンガー、(Speech Enhancement, Springer, 2005, pp. 299-327)、299ページから327ページ
しかしながら、音源数が不明な場合は、非特許文献1に開示されている手法を適用することが出来なかった。すなわち、入力オーディオ信号を予め定めた数の音源信号に分離する処理方法はあるが、分離する音源の数が不明な場合、あるいは種類が不明な場合に対応することが出来なかった。
また、音源数が変動したことを検知できない場合には、実際の音源数とは異なる音源数に分離してしまうため、分離された音源信号の品質が劣化してしまう問題があった。
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、分離する音源の数あるいは種類を事前に設定する必要がない音源分離装置を提供することにある。
上記課題を解決する本発明は、入力映像からオブジェクトを検出し、検出結果に基づいて、音源情報を算出する音源情報算出部と、前記音源情報を用いて、入力オーディオ信号から音源信号を分離する音源信号分離部とを有する音源信号分離装置である。
上記課題を解決する本発明は、入力映像からオブジェクトを検出し、検出結果に基づいて、音源情報を算出し、前記音源情報を用いて、入力オーディオ信号から音源信号を分離する音源信号分離方法である。
上記課題を解決する本発明は、入力映像からオブジェクトを検出し、検出結果に基づいて、音源情報を算出する音源情報算出処理と、前記音源情報を用いて、入力オーディオ信号から音源信号を分離する音源信号分離処理とを情報処理装置に実行させるプログラムである。
本発明は、音源の数、位置、種類等の変動に頑健な音源信号分離が実現できる。
図1は第1の実施の形態のブロック図である。 図2は映像オブジェクトの例を示した図である。 図3は第1の実施の形態における音源情報算出部1のブロック図である。 図4は第2の実施の形態における音源情報算出部1のブロック図である。 図5は第2の実施の形態における音源位置推定部12を説明するための図である。 図6は第3の実施の形態における音源情報算出部1のブロック図である。 図7は第4の実施の形態における音源情報算出部1のブロック図である。 図8は第5の実施の形態における音源情報算出部1のブロック図である。
本発明の実施の形態について図面を参照して詳細に説明する。
<第1の実施の形態>
図1は第1の実施の形態のブロック図である。
図1を参照すると、本発明の第1の実施の形態は、音源情報算出部1と、音源分離部2とから構成されている。映像信号は、音源情報算出部1に入力される。オーディオ信号は音源分離部2に入力される。
音源情報算出部1は、映像信号を解析して映像オブジェクトを検出し、検出した映像オブジェクトから音源情報を算出し、音源分離部2に出力する。音源分離部2は、音源情報を利用して、オーディオ信号を複数の音源信号に分離し、音源信号を出力する。
次に、各部の詳細を説明する。
音源情報算出部1は、まず、映像信号から映像フレーム内の映像オブジェクトを検出する。映像オブジェクトの例として、図2におけるオブジェクトA74,オブジェクトB75,オブジェクトC76のような、人物オブジェクトがある。その他、自動車、建物、草木、など、空間を構成する物体は、映像オブジェクトと見なすことができる。
映像オブジェクトの検出方法として、例えば、パターン認識を利用したオブジェクト検出方法が知られている。これらの手法では、予め映像オブジェクトのテンプレートを作成し、このテンプレートを用いて映像フレーム全体にテンプレートマッチングを施す。映像フレーム内の映像とテンプレートとの相関値がしきい値以上であれば、所望の映像オブジェクトが存在するものと判断する。
また、音源情報算出部1は、図3に示す如く、音源数検出部11を備えている。この音源数検出部21は、検出した映像オブジェクトの数を音源情報として出力する。
音源分離部2は、音源情報を用いてオーディオ信号を複数の音源信号に分離する。音源信号に分離する方法として、非特許文献1に開示されているブラインド信号源分離(Blind Source Separation)や独立成分分析(Independent Component Analysis)、あるいは、特許文献1に開示されている雑音抑圧に関する手法を用いることができる。音源情報としてオブジェクトの数が入力される場合、ブラインド信号源分離や独立成分分析における分離する音源数として利用することにより、事前に音源数を設定する必要がなくなる。
<第2の実施の形態>
第2の実施の形態を説明する。
第2の実施の形態は、オブジェクトの数とオブジェクトの3次元位置とを、音源情報として用いる。尚、第1の実施の形態と同様な構成のものについては、同じ符号を付し、詳細な説明を省略する。
第2の実施の形態における音源情報算出部2は、図4に示す如く、音源数検出部11に加えて、音源位置推定部12を備える。尚、本構成例では映像オブジェクト検出部1で検出された映像オブジェクトは全て音を発生しうるものとする。
音源数検出部11は、検出した映像オブジェクトの数を音源数として音源位置推定部12に出力する。
音源位置推定部12は、検出した映像オブジェクトの3次元位置を算出し、この3次元位置と音源数とを音源情報として出力する。音源位置推定部12における3次元位置算出の動作の一例を、図5を参照して説明する。図5は、映像フレーム101の映像を、カメラ視点102から観察している概念図である。カメラの左右の視野角をθとする。映像フレーム101からは、ビデオオブジェクトとして、オブジェクトH103と、オブジェクトI104が検出されている。また映像フレーム101の横サイズ(画素幅)をW、オブジェクトI104の画素幅をTとする。
オブジェクトI104が人物の顔であることが分かっていると仮定する。すなわち、対象オブジェクトの種類が既知であって、平均的な大きさも既知である。この場合の人物の顔の平均的な横幅をmとする。求めたいオブジェクトまでの距離をZとすると、奥行きZ地点における映像フレーム101の横幅Uは、数1で表される。
Figure 2011069948
ここで横幅Uは、画面の横サイズWと、顔の横幅mとを元に、数2で求められる。
Figure 2011069948
数1と数2より、Zは次式(数3)で算出できる。
Figure 2011069948
算出したZを用いて横幅Uを算出することができるので、オブジェクトのX座標を特定できる。またカメラの上下の視野角を用いれば、オブジェクトのY座標を特定することができる。
以上は対象オブジェクトの平均的な大きさが既知である場合の3次元位置推定方法について述べた。一方、対象オブジェクトの元サイズ(mの値)が未知の場合は、同じ映像フレーム内の既知オブジェクトの元サイズとの比率によって、距離を推定することができる。また、すべてのオブジェクトの元サイズが未知の場合には、最も大きなオブジェクトの元サイズにあらかじめ決めておいた値を用いることで、擬似的にすべてのオブジェクト位置を推定することができる。
音源分離部2は、音源情報を用いてオーディオ信号を複数の音源信号に分離する。第2の実施の形態では、音源情報は、オブジェクト数とオブジェクトの3次元位置とである。オブジェクト数は、第1の実施の形態と同様に、ブラインド信号源分離や独立成分分析における分離する音源数として利用することにより、事前に音源数を設定する必要がなくなる。更に、オブジェクトの3次元位置を用いて、当該位置に対してビームフォーマーを形成し、このビームフォーマーを初期値として独立成分分析を用いることにより、高精度の音源分離が実現できる。
<第3の実施の形態>
第3の実施の形態を説明する。
図6は第3の実施の形態における音源情報算出部1のブロック図である。
第3の実施の形態における音源情報算出部1は、第2の実施の形態に加えて、映像種類判別部13を備える。尚、上述した実施の形態と同様な構成のものについては、同じ符号を付し、詳細な説明を省略する。
映像種類判別部13は、映像信号を解析して検出された映像オブジェクトの種類を特定し、音を発生しうるオブジェクトのみを選択して音源数検出部11と音源位置推定部12とに出力する。オブジェクトの種類の例として、男性の顔、女性の顔、子供の顔、男性の全身、女性の全身、子供の全身、自動車、電車、PC、ディスプレイなどがある。
映像種類判別部13の動作の一例を以下に述べる。予めいくつかの映像カテゴリを決めておき、それぞれのカテゴリに対応する典型的な画像群をテンプレートとして用意する。ビデオオブジェクト領域画素と前記テンプレートとのパターンマッチングを行い、最も類似度が大きいカテゴリにオブジェクトを分類することによって種類を判別する。パターンマッチングの方法としては、正規化相関法などの公知の技術を用いることができる。
さらに、映像種類判別部13は、判別した映像オブジェクトの種類を用いて音を発生しうるオブジェクトを判別する。この判別方法の一例は、前記テンプレートに音を発生するかどうかの情報を予め付加しておけばよい。例えば、前述のオブジェクトの種類の例では、音を発生しうるオブジェクトとして男性の顔、女性の顔、子供の顔、自動車、電車、PCなどを設定すれば良い。
音源数検出部11は、映像種類判別部13から、音を発生しうるオブジェクトの情報をうけ、音を発生しうるオブジェクトの数を、音源数として音源位置推定部12に出力する。
音源位置推定部12は、映像種類判別部13から、音を発生しうるオブジェクトの情報をうけ、音を発生しうるオブジェクトの3次元位置を算出し、この3次元位置と音源数とを音源情報として出力する。
音源分離部2は、音源情報(音源数とオブジェクトの3次元位置)を用いて、オーディオ信号を複数の音源信号に分離する。
このような構成を用いることにより、映像中に音を発生しない映像オブジェクトが存在しても、音源情報をより正確に算出することができる。
次に、第3の実施の形態の他の形態を説明する。
第3の実施の形態の他の形態における音源情報算出部1は、上述した第3の実施の形態と同様な構成であり、音源情報の構成のみが異なる。同一なものについては、同じ符号を付し、詳細な説明を省略する。
音源位置推定部12は、映像種類判別部13から、音を発生しうるオブジェクトの情報をうけ、音を発生しうるオブジェクトの3次元位置を算出し、この3次元位置と音源数と音源の種類を音源情報として出力する。
音源分離部2は、音源情報(音源数と音源の種類とオブジェクトの3次元位置)を用いて、オーディオ信号を複数の音源信号に分離する。音源の種類により、音源信号に分離する方法を切り替えて用いることができる。
例えば、音源の種類が雑音の場合は、特許文献1に開示されている雑音抑圧に関する手法を用いることができる。また、音源の種類が音声の場合は、非特許文献1に開示されているブラインド信号源分離(Blind Source Separation)や独立成分分析(Independent Component Analysis)を用いることができる。さらに、複数の音源の種類の組合せにより、音源信号に分離する方法を切り替えて用い手も良い。例えば、複数の音源の種類の中に雑音が含まれる場合は、非特許文献1に開示されているブラインド信号源分離(Blind Source Separation)や独立成分分析(Independent Component Analysis)を用いて分離を行った後、特許文献1に開示されている雑音抑圧により雑音を抑圧しても良いし、逆に雑音を抑圧した後、その他の音源を分離しても良い。
このような構成を用いることにより、音源の種類に応じて適切な分離方法を用いることが出来るため、良好な音源分離が実現できる。
<第4の実施の形態>
第4の実施の形態を説明する。
図7は第4の実施の形態における音源情報算出部1のブロック図である。
第4の実施の形態における音源情報算出部1は、第2の実施の形態に加えて、変動検出部14を備える。尚、上述した実施の形態と同様な構成のものについては、同じ符号を付し、詳細な説明を省略する。
変動検出部14は、音源数検出部11からの音源数と、音源位置推定部12からの映像オブジェクトの3次元位置とを受信し、音源情報を構成する音源数と映像オブジェクトの3次元位置との時間的な変動を検出する。そして、変動の検出結果を音源情報に含めて出力する。変動の検出方法としては、例えば、過去の音源情報を蓄えておき、その値と比較すれば良い。
音源分離部2は、上述した動作に加え、音源の数、位置、種類等に変動が生じた場合、前述の初期ビームフォーマーを再設定し、独立成分分析を再度用いることにより、これらの変動に対する追従性を向上させることができる。
このような検出結果を用いることにより、音源の数、位置、種類等に変動が生じた場合にも、後段の音源分離部2において良好な音源分離が実現できる。
<第5の実施の形態>
第5の実施の形態を説明する。
図8は第5の実施の形態における音源情報算出部1のブロック図である。尚、上述した実施の形態と同様な構成のものについては、同じ符号を付し、詳細な説明を省略する。
図8に示される如く、音源情報算出部1は、音源数検出部11と、音源位置推定部12と、映像種類判別部13と、変動検出部14とを備える。第5の実施の形態における音源情報算出部1は、第3の実施の形態と第4の実施の形態とを組み合わせた構成であり、それらの効果を有する。
1 音源情報算出部
2 音源分離部
11 音源数検出部
12 音源位置推定部
13 映像種類判別部
14 変動検出部

Claims (15)

  1. 入力映像からオブジェクトを検出し、検出結果に基づいて、音源情報を算出する音源情報算出部と、
    前記音源情報を用いて、入力オーディオ信号から音源信号を分離する音源信号分離部と
    を有する音源信号分離装置。
  2. 前記音源情報算出部は、検出されたオブジェクトの数を音源数として音源情報を算出する音源数検出部を有する請求項1に記載の音源信号分離装置。
  3. 前記音源情報算出部は、オブジェクトの種類を判定し、検出されたオブジェクトのうち音源となるオブジェクトを判定する映像種類判定部を有し、
    前記音源数検出部は、前記映像種類判定部の判定結果をうけ、音源となるオブジェクトの数を音源数として算出する
    請求項2に記載の音源信号分離装置。
  4. 前記音源情報算出部は、検出されたオブジェクトの3次元位置を算出し、オブジェクトの3次元位置を音源情報として算出する音源位置推定部を有する請求項1から請求項3のいずれかに記載の音源信号分離装置。
  5. 前記音源情報算出部は、検出されたオブジェクトの種類を判定する映像種類判定部を有し、
    前記音源位置推定部は、前記映像種類判定部からのオブジェクト種類の判定に基づいて、3次元位置の算出対象となるオブジェクトを決定する
    請求項4に記載の音源信号分離装置。
  6. 音源位置推定部は、前記映像種類判定部からのオブジェクト種類の判定に基づいて、3次元位置の算出対象となるオブジェクトを決定し、音を発生しうるオブジェクトの3次元位置を算出し、この3次元位置と音源数と音源の種類とを音源情報として出力し、
    前記音源信号分離部は、前記音源の種類により、音源信号に分離する方法を切り替え、入力オーディオ信号から音源信号を分離する
    請求項5に記載の音源信号分離装置。
  7. 前記音源情報算出部は、音源情報の変動を検出し、この変動を示す情報を音源情報に含める変動検出部を有する請求項1から請求項6のいずれかに記載の音源信号分離装置。
  8. 入力映像からオブジェクトを検出し、検出結果に基づいて、音源情報を算出し、
    前記音源情報を用いて、入力オーディオ信号から音源信号を分離する
    音源信号分離方法。
  9. 検出されたオブジェクトの数を音源数とした音源情報を算出する
    請求項8に記載の音源信号分離方法。
  10. オブジェクトの種類を判定し、検出されたオブジェクトのうち音源となるオブジェクトを判定し、音源となるオブジェクトの数を音源数として算出する
    請求項9に記載の音源信号分離方法。
  11. 検出されたオブジェクトの3次元位置を算出し、オブジェクトの3次元位置を音源情報として算出する
    請求項8から請求項10のいずれかに記載の音源信号分離方法。
  12. 検出されたオブジェクトの種類を判定し、3次元位置の算出対象となるオブジェクトを決定する
    請求項11に記載の音源信号分離方法。
  13. 前記オブジェクト種類の判定に基づいて、3次元位置の算出対象となるオブジェクトを決定し、音を発生しうるオブジェクトの3次元位置を算出し、この3次元位置と音源数と音源の種類とを音源情報として算出し、
    前記音源の種類により、音源信号に分離する方法を切り替え、入力オーディオ信号から音源信号を分離する
    請求項12に記載の音源信号分離方法。
  14. 音源情報の変動を検出し、この変動を示す情報を音源情報に含める
    請求項8から請求項13のいずれかに記載の音源信号分離方法。
  15. 入力映像からオブジェクトを検出し、検出結果に基づいて、音源情報を算出する音源情報算出処理と、
    前記音源情報を用いて、入力オーディオ信号から音源信号を分離する音源信号分離処理と
    を情報処理装置に実行させるプログラム。
JP2009220197A 2009-09-25 2009-09-25 音源信号分離装置、音源信号分離方法及びプログラム Active JP5435221B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009220197A JP5435221B2 (ja) 2009-09-25 2009-09-25 音源信号分離装置、音源信号分離方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009220197A JP5435221B2 (ja) 2009-09-25 2009-09-25 音源信号分離装置、音源信号分離方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011069948A true JP2011069948A (ja) 2011-04-07
JP5435221B2 JP5435221B2 (ja) 2014-03-05

Family

ID=44015309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009220197A Active JP5435221B2 (ja) 2009-09-25 2009-09-25 音源信号分離装置、音源信号分離方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5435221B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017208820A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
US10176825B2 (en) 2013-12-26 2019-01-08 Kabushiki Kaisha Toshiba Electronic apparatus, control method, and computer program
CN111370019A (zh) * 2020-03-02 2020-07-03 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
WO2022168297A1 (ja) * 2021-02-08 2022-08-11 日本電信電話株式会社 音源分離方法、音源分離装置、およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1051889A (ja) * 1996-08-05 1998-02-20 Toshiba Corp 音声収集装置及び音声収集方法
JP2006038772A (ja) * 2004-07-29 2006-02-09 Nittobo Acoustic Engineering Co Ltd 音圧測定方法
JP2008158868A (ja) * 2006-12-25 2008-07-10 Toyota Motor Corp 移動体、及びその制御方法
JP2008278433A (ja) * 2007-05-07 2008-11-13 Casio Hitachi Mobile Communications Co Ltd 情報処理装置、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1051889A (ja) * 1996-08-05 1998-02-20 Toshiba Corp 音声収集装置及び音声収集方法
JP2006038772A (ja) * 2004-07-29 2006-02-09 Nittobo Acoustic Engineering Co Ltd 音圧測定方法
JP2008158868A (ja) * 2006-12-25 2008-07-10 Toyota Motor Corp 移動体、及びその制御方法
JP2008278433A (ja) * 2007-05-07 2008-11-13 Casio Hitachi Mobile Communications Co Ltd 情報処理装置、プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201010087546; 脇坂龍他: '"画像情報を利用したFDBMのデータベース更新による音源分離性能改善の試み"' 日本音響学会2009年春季研究発表会講演論文集CD-ROM , 200903, pp.799-800 *
JPN6013020311; 脇坂龍他: '"画像情報を利用したFDBMのデータベース更新による音源分離性能改善の試み"' 日本音響学会2009年春季研究発表会講演論文集CD-ROM , 200903, pp.799-800 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176825B2 (en) 2013-12-26 2019-01-08 Kabushiki Kaisha Toshiba Electronic apparatus, control method, and computer program
WO2017208820A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
JPWO2017208820A1 (ja) * 2016-05-30 2019-03-28 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
US11184579B2 (en) 2016-05-30 2021-11-23 Sony Corporation Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
JP2022036998A (ja) * 2016-05-30 2022-03-08 ソニーグループ株式会社 映像音響処理装置および方法、並びにプログラム
JP7396341B2 (ja) 2016-05-30 2023-12-12 ソニーグループ株式会社 映像音響処理装置および方法、並びにプログラム
US11902704B2 (en) 2016-05-30 2024-02-13 Sony Corporation Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
CN111370019A (zh) * 2020-03-02 2020-07-03 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
WO2022168297A1 (ja) * 2021-02-08 2022-08-11 日本電信電話株式会社 音源分離方法、音源分離装置、およびプログラム

Also Published As

Publication number Publication date
JP5435221B2 (ja) 2014-03-05

Similar Documents

Publication Publication Date Title
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
EP3678385B1 (en) Sound pickup device, sound pickup method, and program
EP3177040A2 (en) Information processing apparatus, information processing method, and program
US20100302401A1 (en) Image Audio Processing Apparatus And Image Sensing Apparatus
US9747690B2 (en) Image processing device, image processing method, and program
US20140003704A1 (en) Imaging system and method
US9280828B2 (en) Image processing apparatus, image processing method, and program
JP2015019371A5 (ja)
JP5618043B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
JP2011171858A5 (ja)
Aubrey et al. Visual voice activity detection with optical flow
JP4825552B2 (ja) 音声認識装置、周波数スペクトル取得装置および音声認識方法
WO2013035445A1 (ja) 物体検出装置
JP5565552B2 (ja) 映像音響処理装置、映像音響処理方法及びプログラム
US20210312915A1 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
US20140064517A1 (en) Multimedia processing system and audio signal processing method
WO2020116054A1 (ja) 信号処理装置及び信号処理方法
US20150281839A1 (en) Background noise cancellation using depth
JP5435221B2 (ja) 音源信号分離装置、音源信号分離方法及びプログラム
CN114519880B (zh) 基于跨模态自监督学习的主动说话人识别方法
US9355641B2 (en) Monitoring device using selective attention model and method for monitoring same
Rachavarapu et al. Localize to binauralize: Audio spatialization from visual sound source localization
KR101542647B1 (ko) 화자 검출을 이용한 오디오 신호 처리 방법 및 장치
KR101696086B1 (ko) 소나 이미지 내의 물체 부분 추출 방법 및 장치
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131126

R150 Certificate of patent or registration of utility model

Ref document number: 5435221

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150