JP2014089420A - 信号処理装置、方法およびプログラム - Google Patents

信号処理装置、方法およびプログラム Download PDF

Info

Publication number
JP2014089420A
JP2014089420A JP2012240669A JP2012240669A JP2014089420A JP 2014089420 A JP2014089420 A JP 2014089420A JP 2012240669 A JP2012240669 A JP 2012240669A JP 2012240669 A JP2012240669 A JP 2012240669A JP 2014089420 A JP2014089420 A JP 2014089420A
Authority
JP
Japan
Prior art keywords
background sound
component
voice
filter
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012240669A
Other languages
English (en)
Other versions
JP6054142B2 (ja
Inventor
Makoto Hirohata
誠 広畑
Masashi Nishiyama
正志 西山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012240669A priority Critical patent/JP6054142B2/ja
Priority to US14/058,829 priority patent/US9478232B2/en
Publication of JP2014089420A publication Critical patent/JP2014089420A/ja
Application granted granted Critical
Publication of JP6054142B2 publication Critical patent/JP6054142B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】声と背景音の分離性能を向上させる。
【解決手段】信号処理装置は、取得部と第1背景音推定部と代表成分推定部と第1声推定部と第1フィルタ作成部と分離部とを備える。取得部は、音響信号を周波数分析して得られる特徴量を取得する。第1背景音推定部は、特徴量の背景音成分のうち非定常性を持つ第1背景音成分を推定する。代表成分推定部は、一定時間に取得された特徴量から推定された第1背景音成分の最大値に基づいて、一定時間内の第1背景音成分を代表する代表成分を推定する。第1声推定部は、特徴量の声成分である第1声成分を推定する。第1フィルタ作成部は、第1声成分と代表成分とに基づいて、特徴量から声成分および背景音成分を抽出する第1フィルタを作成する。分離部は、第1フィルタを用いて音響信号を声信号および背景音信号に分離する。
【選択図】図1

Description

本発明の実施形態は、信号処理装置、方法およびプログラムに関する。
音声認識や映像制作などにおいてマイクロホンで取得した音響信号には、ユーザや役者の音声である声信号だけでなく、背景雑音や音楽などの背景音信号が含まれる。声信号と背景音信号が混入した音響信号から所望の信号のみを抽出する技術として音源分離技術が存在する。
例えば、非負行列因子分解(NMF:non-Negative Matrix Factorization)を用いた音源分離技術が知られている。NMFは、複数のスペクトルを基底行列と係数行列の積に分解する手法である。トレーニングサンプルを用いて、背景音の基底行列を作成しておけば、処理対象とする音響信号のスペクトルに合わせて係数行列を調整することで、分散の大きい非定常な背景音のスペクトルが推定可能になる。背景音のスペクトルと同様に声のスペクトルも推定でき、背景音と声の信号をそれぞれ抽出できる。
特開2009−128906
様々な背景音の混入やシーンチェンジに対して高精度な音源分離を行うには、過去に取得した音響信号をトレーニングサンプルとして用いることが望ましい。一方、遅延を最小限に抑えるなど、少ない計算コストで音源分離を実現するためには、例えば数秒以下の少ないサンプルで背景音を推定することが望ましい。
しかしながら、従来の技術では、サンプル数が少ないと背景音のスペクトル分布を高精度に推定できなかった。すなわち、背景音の平均成分の推定精度が劣化し(推定した背景音成分が不足し)、抽出した声にはより多くの背景音が残る(分離性能が劣化する)という問題があった。
実施形態の信号処理装置は、取得部と第1背景音推定部と代表成分推定部と第1声推定部と第1フィルタ作成部と分離部とを備える。取得部は、音響信号を周波数分析して得られる特徴量を取得する。第1背景音推定部は、特徴量の背景音成分のうち非定常性を持つ第1背景音成分を推定する。代表成分推定部は、一定時間に取得された特徴量から推定された第1背景音成分の最大値に基づいて、一定時間内の第1背景音成分を代表する代表成分を推定する。第1声推定部は、特徴量の声成分である第1声成分を推定する。第1フィルタ作成部は、第1声成分と代表成分とに基づいて、特徴量から声成分および背景音成分を抽出する第1フィルタを作成する。分離部は、第1フィルタを用いて音響信号を声信号および背景音信号に分離する。
第1の実施形態にかかる信号処理装置のブロック図。 信号処理装置のハードウェア構成図。 第1の実施形態における信号処理のフローチャート。 音響信号の定常性および非定常性に関する定義を示す図。 第1の実施形態の混合音分離の効果を説明する図。 第1の実施形態の混合音分離の効果を説明する図。 第1の実施形態による客観評価実験の結果を説明する図。 第1の実施形態による客観評価実験の結果を説明する図。 第1の実施形態による客観評価実験の結果を説明する図。 第2の実施形態にかかる信号処理装置のブロック図。 第2の実施形態における信号処理のフローチャート。 第2の実施形態の混合音分離の効果を説明する図。 第2の実施形態の混合音分離の効果を説明する図。 第2の実施形態の混合音分離の効果を説明する図。 第2の実施形態による客観評価実験の結果の説明図。 第2の実施形態による客観評価実験の結果の説明図。 第3の実施形態による信号処理装置のブロック図。
以下に添付図面を参照して、この発明にかかる信号処理装置の好適な実施形態を詳細に説明する。
(第1の実施形態)
第1の実施形態の信号処理装置は、声信号および背景音信号を含んだ音響信号を声信号と背景音信号とに分離する。例えば、本実施形態の信号処理装置を音声認識の前処理として利用することにより、音声認識の認識性能を向上させることができる。また、映像視聴の際に、抽出した声信号と背景音信号の混合率を変更することで、所望の信号を聴き取りやすくすることができる。
本実施形態の信号処理装置は、音響信号から取得した特徴量を用いて非定常性を持つ第1背景音成分を推定する。第1背景音成分を推定する際、過去の一定時間内に取得した少ない特徴量で推定した背景音基底行列を用いる。推定した第1背景音成分に加え、一定時間に推定した第1背景音成分を用いて、一定時間内の第1背景音成分を代表する代表成分を推定する。また、取得した特徴量を用いて第1声成分を推定する。推定した第1声成分と代表成分を用いて、声または背景音のスペクトルを抽出する第1フィルタを作成する。作成した第1フィルタと音響信号のスペクトルを用いて、声信号と背景音信号に分離する。
このように、本実施形態の信号処理装置は、過去に推定した第1背景音成分を用いて推定した代表成分に基づき分離を行う。これにより、背景音スペクトルが声スペクトルに残存する問題を改善できる。
図1は、第1の実施形態にかかる信号処理装置100の構成例を示すブロック図である。信号処理装置100は、取得部101と、算出部102と、第1背景音推定部103と、代表成分推定部104と、第1声推定部105と、第1フィルタ作成部106と、分離部107と、を備える。
取得部101は、声信号と背景音信号を含んだ音響信号を周波数分析し、音響信号の特徴量を取得する。なお、取得部101が周波数分析等により外部装置で求められた特徴量を取得するように構成してもよい。
算出部102は、一定時間に取得される特徴量を用いて、背景音を表す背景音基底行列を算出する。
第1背景音推定部103は、取得した特徴量および算出された背景音基底行列を利用して、特徴量の背景音成分のうち非定常性を持つ第1背景音成分を推定する。
代表成分推定部104は、過去を含む一定時間に取得された1以上の特徴量により推定された第1背景音成分から、一定時間内の第1背景音成分の代表成分を推定する。
第1声推定部105は、取得した特徴量を利用して、特徴量の声成分である第1声成分を推定する。
第1フィルタ作成部106は、推定された第1声成分と第1背景音成分の代表成分とから、声のスペクトルまたは背景音のスペクトルを抽出する第1フィルタを作成する。
分離部107は、第1フィルタと音響信号のスペクトルとを用いて、音響信号を声信号および背景音信号に分離する。
次に、信号処理装置100のハードウェア構成について説明する。図2は、信号処理装置100のハードウェア構成例を示す説明図である。
信号処理装置100は、図2に示すような通常のコンピュータを利用したハードウェアで構成されている。信号処理装置100は、制御部201と、記憶部202と、外部記憶部203と、操作部204と、通信部205と、マイク206と、がバス207で接続された構成となっている。
制御部201は、装置全体を制御するCPU(Central Processing Unit)等である。記憶部202は、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等である。外部記憶部203は、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の記憶部である。操作部204は、ユーザの指示入力を受け付けるキーボードやマウスなどである。通信部205は、外部装置との通信を制御する。マイク206は、ユーザの発声などの音声を取得する。
このようなハードウェア構成において、例えば制御部201がROM等の記憶部202や外部記憶部203に記憶された各種プログラムを実行することにより図1に示す各構成部の機能が実現される。このように各構成部は、例えば、CPUなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。以下、各構成部の機能の詳細についてさらに説明する。
取得部101は、マイク206に入力された音響信号を取得する。この音響信号には、人の声を表す声信号だけでなく、背景雑音や音楽などの背景音信号が含まれる。音響信号は、例えば48kHzでサンプリングされたデジタル信号である。なお、取得部101は、マイク206ではなく、外部記憶部203、または、通信部205によって接続された外部装置から音響信号を取得してもよい。
また、取得部101は、取得した音響信号を周波数分析し、周波数に関する特徴量(ベクトル)を取得する。具体的には、音響信号を長さ2048サンプル、間隔1024サンプルのフレームに分割する。取得部101は、例えばハニング窓またはハミング窓を使用してフレームを分割する。次に、取得部101は、各時刻tのフレームから周波数に関する特徴量Ztを取得する。特徴量Ztは、各フレームの音響信号をフーリエ変換して得られるスペクトルXtだけでなく、LPCケプストラムおよびMFCCなどのケプストラム系の特徴量を用いることができる。また、異なる方式で算出された複数の特徴量を統合した特徴量を用いることもできる。
算出部102は、例えばNMFにより、取得部101で取得された過去の複数フレームの特徴量から、背景音を表現する基底行列(背景音基底行列H2)を推定する。算出部102は、声を表現する基底行列(声基底行列H1)と、背景音基底行列H2を統合(連結)することにより、基底行列H3を求める。後述するように、声基底行列H1は、事前に求めて記憶部202や外部記憶部203に記憶しておく。算出部102は、基底行列H3と係数ベクトルUtとの積が、現在のフレームの特徴量に近似値となるような係数ベクトルUtを求める。
なお、各フレームの特徴量がD次元のベクトルであるとき、声基底行列H1は行数D、列数Mの行列、背景音基底行列H2は行数D、列数Nの行列、係数ベクトルUtはM+N次元のベクトルとなる。
第1背景音推定部103は、背景音基底行列H2に対応する係数ベクトルUtの要素を抽出する。上記例の場合、背景音基底行列H2に対応する係数ベクトルUtの要素とは、M+N次元の係数ベクトルUtの要素のうち、M+1次元からN次元までのN個の要素となる。すなわち、背景音基底行列H2に対応する係数ベクトル(以下、係数ベクトルUbtとする)はN次元のベクトルとなる。第1背景音推定部103は、背景音基底行列H2と、抽出した係数ベクトルUbtとの積で表現されたベクトルB1tを第1背景音成分とする。
Dは取得した特徴量の次元数と同じになる。複数の周波数に関する特徴量を統合した特徴量を用いてもよいため、Dは任意の数(例えば32)になり得る。また、MとNは例えば32と64など任意の数に設定でき、異なる値でもよいし同じ値でもよい。
声基底行列H1は、例えば以下のようにして求めることができる。まず、別途用意した声の音響信号から取得した複数の特徴量を、基底行列Hと係数行列Uとの積で近似する。基底行列Hと係数行列Uの導出は、基底行列Hと係数行列Uの積と、複数の特徴量で構成される行列Zとの二乗誤差を基準とした反復法により行う。
この際、基底行列Hおよび係数行列Uの初期行列にはランダム値を用いることができる。次に、導出した基底行列Hに対して正規化等の後処理が行われ、声基底行列H1として記憶部202や外部記憶部203に記憶される。なお、係数ベクトルUtの導出は、基底行列H3は固定した状態で、声基底行列H1を求める際に行った反復法を適用すればよい。
算出部102は、現在のフレームの時刻tが更新時刻T1を超えた際に、一定時間T2分の過去のフレームの特徴量を背景音基底行列H2の推定に用いる。ここで、更新時刻T1は一定時間T3ごとに設定してもよい。また、更新時刻T1は、雑音重畳音、音楽重畳音といった音の種類やシーンの変化を検出した時刻として設定してもよい(例えば、非特許文献2参照)。
処理の重複を回避するため、更新時刻T1と前回の更新時刻T1’の間隔は一定時間T4(例えば1秒)以上とすることが望ましい。また、一定時間T2は、更新時刻T1と前回の更新時刻T1’に対し、T2<T1−T1’を満たせば、任意の時間を設定できる。例えば、一定時間T3=5秒、T2=0.3秒と設定できる。
算出部102は、背景音基底行列H2の推定に反復法を適用する際、時刻t(>T1)のフレームを処理する時だけでなく、時刻(t+1)〜時刻(t+k)においても反復法を適用して背景音基底行列H2を更新できる。このとき、算出部102は、時刻(t+k)での処理後に得られた背景音基底行列H2をそれまで使用していた各フレームの背景音基底行列H2と入れ替える。これにより、背景音基底行例H2の更新に必要な計算コストを分散させることができる。各時刻に行う反復法の適用回数をr(例えば1)とすると、背景音基底行列H2の更新が完了するまでの反復法の適用回数Rはr×k回となる。なお、時刻(t+1)と時刻(t+k)の差が一定時間T4以上であれば、更新間隔となる変数kの値は、10など任意の値に設定できる。
代表成分推定部104は、第1背景音推定部103で推定した過去の第1背景音成分B1(t−1)、B1(t−2)、・・・、B1(ts)と、現在の第1背景音成分B1tと、を用いて代表成分A1tを推定する。代表成分A1tを構成する要素はそれぞれ独立に推定される。例えば、代表成分推定部104は、過去と現在を含めた一定時間内の第1背景音成分の該当要素の中の最大値を、代表成分A1tの対応する要素とする。過去の第1背景音成分は、算出部102で新たな背景音基底行列H2が設定された時刻から推定されたものを対象とする。時刻tsは、背景音基底行列H2の更新が完了し、背景音基底行列H2の入れ替え処理が行われた時刻とする。
従来の方法では、例えば、現在の第1背景音成分B1tを用いて音源分離に用いるフィルタが作成される。このような方法では、短い時間のサンプルで推定した背景音基底の影響により第1背景音成分B1tが実際の入力背景音に対して不足し、背景音成分を適切に取り除くことができない場合がある。
これに対し、本実施形態では、上述のように、過去の時刻で推定された第1背景音成分の最大値を用いて代表成分を推定する。そして、代表成分も用いてフィルタを作成し、このフィルタを用いて音源分離を行う(詳細は後述)。このため、サンプルが少ないことにより第1背景音成分が実際の入力背景音に対して不足した場合であっても、不足を補い、適切に背景音声分を取り除くことができる。
なお、代表成分の算出方法は最大値を求める方法に限られるものではない。第1背景音成分の不足を補える値であって最大値に基づいて算出される値であればどのような値を代表成分としてもよい。例えば、最大値に所定の係数を乗じた値を代表成分としてもよい。
第1声推定部105は、第1背景音推定部103にて求めた係数ベクトルUtのうち、声基底行列H1に対応する係数ベクトルの要素を抽出する。第1声推定部105は、声基底行列H1と、抽出した係数ベクトルUvtとの積で表現されたベクトルV1tを第1声成分とする。
第1フィルタ作成部106は、第1声成分V1tと代表成分A1tとを用いて、声スペクトルVtまたは背景音スペクトルBtを抽出するフィルタ(第1フィルタ)を作成する。まず、第1フィルタ作成部106は、第1声成分V1tと代表成分A1tとを、それぞれ第1声スペクトルV1’tと第1平均スペクトルA1’tとに変換する。例えば第1フィルタ作成部106は、取得部101にてスペクトルを特徴量に変換する変換処理の逆変換により、第1声成分V1tと代表成分A1tとを、第1声スペクトルV1’tと第1平均スペクトルA1’tとに変換する。スペクトル自体を特徴量とする場合は、変換および逆変換は不要である。
第1フィルタ作成部106は、次に、声スペクトルVtのi番目の要素Vtiを抽出する第1フィルタFV1tiを、以下の(1)式により求める。
FV1ti=
|V1’ti|^L/(|V1’ti|^L+|A1’ti|^L)・・・(1)
第1フィルタ作成部106は、背景音スペクトルBtのi番目の要素Btiを抽出する第1フィルタFB1tiを、以下の(2)式により求める。
FB1ti=
|A1’ti|^L/(|V1’ti|^L+|A1’ti|^L)・・・(2)
ここで、Lはパラメータ値であり、例えば2に設定できる。なお、FV1ti=1−FB1tiの関係が成り立つため、声スペクトルVtおよび背景音スペクトルBtのいずれか一方の第1フィルタ(FV1tiまたはFB1ti)を求めればよい。
第1フィルタ作成部106は、第1フィルタに対して、時間軸上での平滑化、および、要素間での平滑化などの後処理を実行してもよい。このように、第1声スペクトルを抽出するフィルタの作成に、代表成分推定部104で推定した代表成分を用いることで、背景音スペクトルが声スペクトルに残存する問題を改善することができる。
分離部107は、声スペクトルの第1フィルタFV1tまたは背景音スペクトルの第1フィルタFB1tを用いて、声スペクトルVtおよび背景音スペクトルBtを抽出する。分離部107は、まず、取得部101で取得した時刻tのスペクトルXtを用いて、声スペクトルVtのi番目の要素Vtiを以下の(3)式により求める。
Vti=Xti×FV1ti・・・(3)
次に、分離部107は、声スペクトルVtを逆フーリエ変換することで、声信号Svを求める。なお、2つのフレーム間でのオーバーラップしたサンプルの振幅値は、それぞれのフレームから逆フーリエ変換で求めた値の合計値とする。背景音信号Sbは、入力信号Sと声信号Svとの差分としてもよいし、声信号を求めた方法と同様に求めてもよい。これにより、音響信号から声信号と背景音信号とを分離することができる。すなわち、背景音の混入が少なく純度の高い声信号を聴取することができる。また、分離された声信号を後段の音声認識部(図示なし)に出力することにより、背景音信号の影響を取り除いた音声認識処理が実行できる。
次に、このように構成された信号処理装置100による信号処理について図3を用いて説明する。図3は、第1の実施形態における信号処理の一例を示すフローチャートである。
まず、取得部101は、分析対象となる音響信号の開始時刻を時刻t=0に設定する(ステップS301)。取得部101は、背景音基底行列H2の更新処理を行う更新時刻T1を設定する(ステップS302)。取得部101は、音響信号を周波数分析することにより、スペクトルXtと特徴量Ztとを取得する(ステップS303)。例えば、取得部101は、分析対象となる音響信号をフレーム単位に分割する。そして、取得部101は、時刻tに関するフレームのサンプルからスペクトルXtとスペクトルを変換した特徴量Ztとを取得する。
算出部102は、声基底行列H1と背景音基底行列H2の初期値を設定する(ステップS304)。算出部102は、例えば、別途用意した声の音響信号から作成した基底行列の値を、声基底行列H1の初期値として設定する。算出部102は、別途用意した背景音の音響信号から作成した基底行列の値を、背景音基底行列H2の初期値としてもよいし、ランダム値を背景音基底行列H2の初期値としてもよい。
算出部102は、学習特徴が取得できているか否かを判定する(ステップS305)。学習特徴とは、一定時間T2分の過去のフレームの特徴量である。学習特徴が取得できていない場合(ステップS305:No)、算出部102は、現在のフレーム(時刻t)の特徴量Ztを背景音基底行列H2の学習特徴として設定する(ステップS306)。
学習特徴が取得できている場合(ステップS305:Yes)、算出部102は、背景音基底行列H2の更新が完了しているか否かを判定する(ステップS307)。更新が完了した後である場合(ステップS307:Yes)、算出部102は、現在のフレームの時刻tが更新時刻T1より大きいか否かを判定する(ステップS308)。
更新時刻T1より大きい場合(ステップS308:Yes)、背景音基底行列H2の更新処理を再び行えるようにするため、ステップS309に進む。ステップS309では、算出部102は、背景音基底行列H2の更新に用いる学習特徴に設定している特徴をリセット(学習特徴を削除)する(ステップS309)。ステップS309を実行した後は、ステップS306に戻る。
ステップS307で更新が完了する前である場合(ステップS307:No)、算出部102は、学習特徴を用いて、反復法に基づき背景音基底行列H2の推定を行う(ステップS310)。
算出部102は、背景音基底行列H2の更新が完了したか否かを判定する(ステップS311)。例えば、算出部102は、背景音基底行列H2の更新を開始してから実行した反復法の適用回数が、完了までに必要とする適用回数Rに達したか否かを判定する。適用回数Rに達している場合(ステップS311:Yes)、算出部102は、背景音基底行列H2の更新処理を行う更新時刻T1を次回の更新処理を行う時刻に設定する(ステップS312)。
ステップS311で適用回数Rに達していないと判定された場合(ステップS311:No)、ステップS306の後、ステップS312の後、および、ステップS308で時刻tが更新時刻T1以前と判定された場合(ステップS308:No)、ステップS313に進む。
ステップS313では、算出部102は、背景音基底行列H2とステップS304で設定した声基底行列H1を用いて、現在のフレームの特徴量Ztを近似する係数ベクトルUtを導出する(ステップS313)。
第1背景音推定部103は、係数ベクトルUtから背景音基底行列H2に対応する係数ベクトルUbtを抽出し、背景音基底行列H2と係数ベクトルUbtの積で表現されたベクトルB1tを第1背景音成分として求める(ステップS314)。
第1声推定部105は、係数ベクトルUtから声基底行列H1に対応する係数ベクトルUvtを抽出し、声基底行列H1と係数ベクトルUvtの積で表現されたベクトルV1tを第1声成分として求める(ステップS315)。
代表成分推定部104は、現在のフレームの時刻tにて背景音基底行列H2の更新が完了したか否かを判定する(ステップS316)。時刻tにて更新が完了していた場合(ステップS316:Yes)、代表成分推定部104は、過去成分Zpの各要素を0に設定する(ステップS317)。過去成分Zpとは、第1背景音推定部103によって過去に推定された第1背景音成分で構成される成分を表す。これにより背景音基底行列H2の入れ替え(更新)の度に過去成分が削除され、過去成分は同一の背景音基底行列H2を用いて求められたものとなる。
ステップS317の後、および、ステップS316で時刻tにて更新が完了していなかった場合(ステップS316:No)、代表成分推定部104は、現在のフレームの第1背景音成分B1tと過去成分Zpを用いて、代表成分A1tを求める(ステップS318)。また、代表成分推定部104は、求めた代表成分A1tを過去成分Zpとして設定する。代表成分推定部104は、例えば代表成分A1tのi番目の要素A1tiを、第1背景音成分B1tのi番目の要素B1tiと過去成分Zpのi番目の要素Zpiの最大値とする。
第1フィルタ作成部106は、第1フィルタを作成する(ステップS319)。例えば、第1フィルタ作成部106は、第1声成分V1tと代表成分A1tを、第1声スペクトルV1’tと第1平均スペクトルA1’tに変換する。そして、第1フィルタ作成部106は、変換により得られた第1声スペクトルV1’tと第1平均スペクトルA1’tを用いて、上記(1)式または(2)式により、声スペクトルVtを抽出する第1フィルタFV1tまたは背景音スペクトルBtを抽出する第1フィルタFB1tを作成する。
分離部107は、声スペクトルの第1フィルタFV1tまたは背景音スペクトルの第1フィルタFB1tを用いて、声信号Svと背景音信号Sbを求める(ステップS320)。
分離部107は、取得部101にて取得した音響信号の全てのフレーム(全区間)に対して、処理を行ったか否かを判定する(ステップS321)。全区間で処理を行っていなかった場合(ステップS321:No)、分離部107は、時刻tを次のフレームの時刻に更新し(ステップS322)、ステップS303に戻る。全区間で処理を行っていた場合(ステップS321:Yes)、信号処理を完了する。
図4は、音響信号の定常性および非定常性に関する定義を示す図である。定常音(定常性の音響信号)は、平均が一定であり、分散が小さい音である。例えば、声の場合は「あー」などのような伸ばし音が定常音である。また、背景音の場合は、歓声およびエアコンの動作音などが定常音である。
非定常音(非定常性の音響信号)は、平均が一定であり、分散が大きい音である。例えば、声の場合は話し声が非定常音である。また、背景音の場合は、音楽およびシーン切替り時の音が非定常音である。
定常音に対し、非定常音は分散が大きい。声の大半が非定常音に分類される。図4では、定常音および非定常音のスペクトル値の例が示されている。
図5および図6は、話し声と定常的な背景音が混合した音に対する分離を行った際の本実施形態による効果を説明するための図である。図5では、入力混合音成分501が、入力背景音成分502と、第1背景音成分503とを含むことが示されている。少ないサンプルで背景音基底行列H2を推定すると、例えば図5の矢印で示す差分504に対応する時刻では、入力背景音成分502に対して第1背景音成分503が不足する。このため、例えば第1背景音成分503を用いて作成したフィルタを用いる方法では、声に背景音が残存する場合がある。
本実施形態では、図6に示すように、過去の第1背景音成分を用いて推定した代表成分601を使用するため、声に背景音が残存する問題を改善できる。
図7〜図9は、第1の実施形態による客観評価実験の結果の一例を説明するための図である。図7は、実験に使用した声と背景音に関する情報の例を示す。例えば、声として4種類の音源(映画2種類、アニメ1種類、ニュース1種類)を用い、背景音として20種類(クラシック、インストルメント、サウンドトラック、歓声がそれぞれ5種類)の音源を用いることが示されている。音源は、例えばそれぞれ20秒の音を用いる。
図8および図9に示すように、実験では、声に対して、背景音を4つの条件(SNR0、SNR5、SNR10、SNR15)のいずれかで混入した混合音を用いた。そして、この混合音を声信号と背景音信号とに分離した。それぞれの条件での平均精度を図8および図9に示す。なお、図8および図9中の従来1は、第1背景音成分503を用いて作成したフィルタで抽出した声信号の評価結果である。
図8は、SNR改善度に基づく評価結果を示す図である。SNR改善度は、背景音の抑制精度を評価できる。評価値は、例えば非特許文献3に記載の方法を用いて求めればよい。
図9は、PESQ改善度に基づく評価結果を示す図である。PESQは、抽出した声信号の劣化度合いを評価できる。PESQは、例えば非特許文献4に記載の方法を用いて求めればよい。図7および図8より、本実施形態による改善効果が確認できる。
このように、本実施形態の信号処理装置は、過去に推定した第1背景音成分で構成される過去成分Zpを用いて推定した代表成分A1tにより声信号Svおよび背景音信号Sbを抽出する。これにより、時刻tに推定した第1背景音成分B1tが実際の入力背景音に対して不足しても、代表成分A1tを用いることにより不足分を補うことができる。その結果、声信号の抽出精度を向上させることができる。
(第2の実施形態)
次に、第2の実施形態にかかる信号処理装置について説明する。図10は、第2の実施形態にかかる信号処理装置200の構成の一例を示すブロック図である。図10に示すように、信号処理装置200は、取得部101と、算出部102と、第1背景音推定部103と、代表成分推定部104と、第1声推定部105と、第1フィルタ作成部106と、第2背景音推定部401と、第2声推定部402と、第2フィルタ作成部403と、第3フィルタ作成部404と、分離部405と、を備える。
第2の実施形態では、第2背景音推定部401、第2声推定部402、第2フィルタ作成部403、および、第3フィルタ作成部404を追加したことと、分離部405の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる信号処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
第2背景音推定部401は、取得部101で取得された特徴量から定常性を持つ第2背景音成分を推定する。第2声推定部402は、第1背景音推定部103で推定された第1背景音成分と第2背景音成分とから、第2声成分を推定する。第2フィルタ作成部403は、第2背景音成分と第2声成分とから、声のスペクトルまたは背景音のスペクトルを抽出する第2フィルタを作成する。第3フィルタ作成部404は、第1フィルタと第2フィルタとを統合した第3フィルタを作成する。
分離部405は、第3フィルタと音響信号のスペクトルとを用いて、音響信号を声信号および背景音信号に分離する。
本実施形態の信号処理装置200のハードウェアは、第1の実施形態の信号処理装置100のハードウェア構成を示す図2と同様であるため説明を省略する。以下、本実施形態の信号処理装置200の各構成部の機能の詳細についてさらに説明する。
第2背景音推定部401は、取得部101で取得された過去の複数フレームの特徴量を用いて第2背景音成分B2を推定する。具体的には、第2背景音推定部401は、過去の複数フレームの特徴量の平均値(平均特徴)を第2背景音成分B2として求める。なお、第2背景音成分B2を求める際に利用する特徴量は、算出部102で背景音基底行列H2の更新に用いた学習特徴を用いることができる。
第2声推定部402は、取得部101で取得された現在のフレームの特徴量Ztと第1背景音推定部103で推定した第1背景音成分B1tと第2背景音成分B2とを用いて、第2声成分V2tを推定する。例えば、第2声推定部402は、特徴量Ztから第1背景音成分B1tと第2背景音成分B2の最大値を差し引いた成分を、第2声成分V2tとして求める。このとき、第2声成分V2tのi番目の要素V2tiは、Zti−max(B1ti,B2i)となる。
なお、B1tiは第1背景音成分B1tのi番目の要素、B2iは第2背景音成分B2のi番目の要素である。また、max(a,b)は、値aと値bの最大値を取る関数である。このように、非定常成分を表現する第1背景音と定常成分を表現する第2背景音との両方を用いるため、定常性であるか非定常性であるかによらず、背景音を高精度に抑制して声成分を推定できる(後述の図14、第2フィルタ効果参照)。
第2フィルタ作成部403は、第2声推定部402で推定された第2声成分V2tと、第2背景音推定部401で推定された第2背景音成分B2と、を用いて、声スペクトルVtまたは背景音スペクトルBtを抽出するフィルタ(第2フィルタ)を作成する。第2フィルタ作成部403は、まず、第2声成分V2tと第2背景音成分B2を、第2声スペクトルV2’tと第2背景音スペクトルB2’に変換する。例えば第2フィルタ作成部403は、取得部101にてスペクトルを特徴量に変換する変換処理の逆変換により、第2声成分V2tと第2背景音成分B2を、第2声スペクトルV2’tと第2背景音スペクトルB2’に変換する。
第2フィルタ作成部403は、次に、声スペクトルVtのi番目の要素Vtiを抽出する第2フィルタFV2tiを以下の(4)式により求める。
FV2ti=
|V2’ti|^L/(|V2’ti|^L+|B2’i|^L)・・・(4)
また、第2フィルタ作成部403は、背景音スペクトルBtのi番目の要素Btiを抽出する第2フィルタFB2tiを以下の(5)式により求める。ここで、Lはパラメータ値であり、第1フィルタ作成部106と同様に設定できる。
FB2ti=
|B2’i|^L/(|V2’ti|^L+|B2’i|^L)・・・(5)
第3フィルタ作成部404は、第1フィルタ作成部106で作成した第1フィルタと、第2フィルタ作成部403で作成した第2フィルタと、を用いて、声スペクトルVtまたは背景音スペクトルBtを抽出するフィルタを作成する。例えば、第3フィルタ作成部404は、声スペクトルVtのi番目の要素Vtiを抽出する第3フィルタFV3tiを、以下の(6)式により求める。
FV3ti=α×FV1ti+(1−α)×FV2ti・・・(6)
ここでαはブレンド率である。αは、0≦α≦1の範囲で任意の値に設定すればよく、例えば0.1に設定できる。このように第3フィルタ作成部404は、第1フィルタおよび第2フィルタのαを重みとする重み付き加算により第3フィルタを作成する。なお、第3フィルタの作成方法はこれに限られるものではない。
また、第3フィルタ作成部404は、背景音スペクトルBtのi番目の要素Btiを抽出する第3フィルタFB3tiを、以下の(7)式または(8)式により求める。
FB3ti=α×FB1ti+(1−α)×FB2ti・・・(7)
FB3ti=1−FV3ti・・・(8)
第3フィルタ作成部404は、第1フィルタおよび第2フィルタを作成する際に用いた構成要素値を用いて第3フィルタの要素値を算出してもよい。例えば、以下の(9)式で表される変数V3ti、および、以下の(10)式で表される変数B3tiを用いて、第3フィルタFV3tiを以下の(11)式により求めてもよい。
V3ti=
α×|V1’ti|^L+(1−α)×|V2’ti|^L・・・(9)
B3ti=
α×|B1’ti|^L+(1−α)×|B2’i|^L・・・(10)
FV3ti=
|V3ti|^L/(|V3ti|^L+|B3ti|^L)・・・(11)
声は背景音に比べ非定常性が強く、声の非定常成分を推定している第1フィルタでは、第2フィルタに比べ声成分を抽出しやすい。その結果、第3フィルタは、声成分を抽出しやすい第1フィルタの特性と、背景音の抑制精度の高い第2フィルタの特性を生かすことができ、さらに高精度な分離が可能となる(後述の図14、第3フィルタ効果、図15および図16参照)。
分離部405は、第3フィルタ作成部404で作成された、声スペクトルの第3フィルタFV3tまたは背景音スペクトルの第3フィルタFB3tを用いて、声スペクトルVtおよび背景音スペクトルBtを抽出する。分離部405は、まず、取得部101で取得した時刻tのスペクトルXtを用いて、声スペクトルVtのi番目の要素Vtiを以下の(12)式により求める。
Vti=Xti×FV1ti・・・(12)
次に、分離部405は、声スペクトルVtを逆フーリエ変換することで、声信号Svを求める。これにより、音響信号から声信号と背景音信号を分離することができる。すなわち、背景音の混入が少なく純度の高い声信号を聴取することができる。
次に、このように構成された信号処理装置200による信号処理について図11を用いて説明する。図11は、第2の実施形態における信号処理の一例を示すフローチャートである。
ステップS301からステップS310は、第1の実施形態の図3のフローチャートにおけるステップS301からステップS310と同様であるので同一の符号を付し説明を省略する。
ステップS310の後、算出部102は、背景音基底行列H2の推定を開始してから実行した反復法の適用回数が、完了までに必要とする適用回数Rに達したか否かを判定する(ステップS501)。適用回数Rに達していない場合(ステップS501:No)、ステップS313に進む。適用回数Rに達している場合(ステップS501:Yes)、ステップS502に進む。
ステップS502では、第2背景音推定部401は、背景音基底行列H2の更新に用いる学習特徴の平均値である平均特徴を第2背景音成分B2として求める(ステップS502)。ステップS502の後、ステップS312に進む。
以下、ステップS312からS319は、第1の実施形態の図3のフローチャートにおけるステップS312からS319と同様であるので同一の符号を付し説明を省略する。
ステップS319の後、第2声推定部402は、取得した現在のフレームの特徴量Ztから、第1背景音成分B1tと第2背景音成分B2の最大成分を差し引いて、第2声成分V2tを求める(ステップS503)。
第2フィルタ作成部403は、第2フィルタを作成する(ステップS504)。例えば、第2フィルタ作成部403は、第2声成分V2tと第2背景音成分B2を第2声スペクトルV2’tと第2背景音スペクトルB2’に変換する。そして、第2フィルタ作成部403は、変換により得られた第2声スペクトルV2’tと第2背景音スペクトルB2’を用いて、上記(4)式または(5)式により、声スペクトルVtを抽出する第2フィルタFV2tまたは背景音スペクトルBtを抽出する第2フィルタFB2tを作成する。
第3フィルタ作成部404は、第1フィルタと第2フィルタをパラメータαに基づき統合し、声スペクトルVtを抽出する第3フィルタFV3tまたは背景音スペクトルBtを抽出する第3フィルタFB3tを作成する(ステップS505)。
分離部405は、声スペクトルの第3フィルタFV3tまたは背景音スペクトルの第3フィルタFB3tを用いて、声信号Svと背景音信号Sbを求める(ステップS506)。
以下、ステップS321およびS322は、第1の実施形態の図3のフローチャートにおけるステップS321およびS322と同様であるので同一の符号を付し説明を省略する。
図12から図14は、話し声と非定常な背景音が混合した音に対する分離を行った際の本実施形態による効果を説明するための図である。図12では、入力混合音成分1201、入力背景音成分1202、および、第2背景音成分1203のスペクトル値の例が示されている。入力混合音成分1201と入力背景音成分1202との差分が、入力声成分1211である。
学習特徴の平均スペクトルである第2背景音成分1203では、入力背景音の非定常成分が考慮できない。このため、混合音と背景音(第2背景音成分1203)の差分で推定した声成分1221には、背景音が残存する場合がある。図12の下部には、入力声成分1222および推定された声成分1221のスペクトル値の例が示されている。この例のように、第2背景音成分1203を用いる場合は、入力声成分1222と推定される声成分1221との差分が大きくなる(背景音が残存する)。
一方、本実施形態では、図13に示すように、第2声成分を推定するために加工した背景音成分1301を用いる。例えば、第2背景音成分1302と第1背景音成分1303のうち最大値を背景音成分1301として用いる。図13の下部には、入力声成分1322および推定された第2声成分1321のスペクトル値の例が示されている。この例のように、本実施形態によれば、入力声成分1322と推定される第2声成分1321との差分を小さくすることができる。すなわち、非定常性(第1背景音成分)も考慮した背景音の抑制が実現できる。
図14は、混合音を、第1フィルタ、第2フィルタおよび第3フィルタそれぞれで分離した場合の結果の例を示す図である。混合音は、背景音に対応するスペクトル1401と、セリフに対応するスペクトル1402と、を含んでいる。セリフに対応するスペクトル1402は可能な限り損失せずに、背景音に対応するスペクトル1401を抑制することが望ましい。
第1フィルタのみを用いる場合、セリフの損失は少ないが(スペクトル1403)、背景音に対応するスペクトルの抑制効果は相対的に小さい。第2フィルタのみを用いる場合、背景音に対応するスペクトル1404の抑制効果は相対的に大きい。両者を考慮した第3フィルタを用いれば、セリフの損失が少なく(スペクトル1405)、背景音に対応するスペクトル1406の抑制効果も大きくすることができる。
図15および図16は、第2の実施形態による客観評価実験の結果の一例を説明するための図である。図15および図16の実験に用いた声、背景音、および混合音は図8および図9の客観評価実験に用いたもの(図7)と同じである。図15は、SNR改善度に基づく評価結果を示す図である。図16は、PESQ改善度に基づく評価結果を示す図である。図15および図16により、本実施形態による改善効果が確認できる。なお、図15および図16中の従来2は、図12の1221に示したように、混合音と第2背景音成分との差分から推定して求めた声信号の評価結果である。
このように、第2の実施形態にかかる信号処理装置では、定常性のある背景音および非定常性のある背景音の両方を考慮して音響信号を分離できる。
(第3の実施形態)
次に、第3の実施形態にかかる信号処理装置について説明する。図17は、第3の実施形態にかかる信号処理装置300の構成の一例を示すブロック図である。図17に示すように、信号処理装置300は、取得部101と、算出部102と、第1背景音推定部103と、代表成分推定部104と、第1声推定部105と、第1フィルタ作成部106と、第2背景音推定部401と、第2声推定部402と、第2フィルタ作成部403と、第3フィルタ作成部404と、分離部405と、混合率取得部601と、混合部602と、を備える。
第3の実施形態では、混合率取得部601および混合率602を追加したことが第2の実施形態と異なっている。その他の構成および機能は、第2の実施形態にかかる信号処理装置200のブロック図である図10と同様であるので、同一符号を付し、ここでの説明は省略する。
混合率取得部601は、分離部405または外部入力から声信号および背景音信号の混合率を取得する。混合率取得部601は、分離部405で取得した信号から新たに抽出した特徴量に基づき混合率を取得する。
例えば、混合率取得部601は、振幅の2乗値として求めたパワーの平均値に関して、声信号の方が背景音信号を上回るように混合率を設定し取得できる。または、混合率取得部601は、パワーや周波数解析で求めた特徴量の強度に応じて、声信号または背景音信号をさらに強調するように混合率を設定し取得してもよい。また、混合率取得部601は、外部入力としてユーザが設定した混合率を取得してもよい。
混合部602は、分離部405で分離した声信号および背景音信号を、混合率取得部601で取得した混合率に従い混合し、混合信号(混合音)を生成する。
このように、取得した混合率に応じて声信号および背景音信号を混合することで、例えばスポーツ実況に関する音声に対しては、会場の雰囲気を楽しめるように背景音の混合率を高めに設定することが可能になる。また、コンテンツのジャンルに応じて声の混合率および背景音の混合率を制御すれば、ドラマでは声を重視し、音楽では背景音を重視するといったコンテンツの特徴を強調した音声の提供が可能になる。さらに、声が聴き取りにくユーザが、背景音の混合率を下げ、声の混合率を上げる混合率を設定すれば、声が聴き取りにくいという不満を改善することも可能になり、個人の好みに対応することができる。
以上説明したとおり、第1〜第3の実施形態によれば、声と背景音の分離性能を向上させることができる。
第1〜第3の実施形態にかかる信号処理装置で実行されるプログラムは、記憶部202等に予め組み込まれて提供される。
第1〜第3の実施形態にかかる信号処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1〜第3の実施形態にかかる信号処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第3の実施形態にかかる信号処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1〜第3の実施形態にかかる信号処理装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、CPUがコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 信号処理装置
101 取得部
102 算出部
103 第1背景音推定部
104 代表成分推定部
105 第1声推定部
106 第1フィルタ作成部
107 分離部
200 信号処理装置
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
207 バス
401 第2背景音推定部
402 第2声推定部
403 第2フィルタ作成部
404 第2フィルタ作成部
405 分離部

Claims (12)

  1. 音響信号を周波数分析して得られる前記音響信号の特徴量を取得する取得部と、
    前記特徴量から、前記特徴量の背景音成分のうち非定常性を持つ第1背景音成分を推定する第1背景音推定部と、
    一定時間に取得された1以上の前記特徴量から推定された前記第1背景音成分の最大値に基づいて、前記一定時間内の前記第1背景音成分を代表する代表成分を推定する代表成分推定部と、
    前記特徴量から、前記特徴量の声成分である第1声成分を推定する第1声推定部と、
    前記第1声成分と前記代表成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第1フィルタを作成する第1フィルタ作成部と、
    前記第1フィルタを用いて、前記音響信号を声信号および背景音信号に分離する分離部と、
    を備える信号処理装置。
  2. 前記特徴量から、前記特徴量の背景音成分のうち定常性を持つ第2背景音成分を推定する第2背景音推定部と、
    前記特徴量と前記第1背景音成分と前記第2背景音成分を用いて、前記特徴量の声成分である第2声成分を推定する第2声推定部と、
    前記第2声成分と前記第2背景音成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第2フィルタを作成する第2フィルタ作成部と、
    前記第1フィルタと前記第2フィルタを統合した第3フィルタを作成する第3フィルタ作成部と、をさらに備え、
    前記分離部は、前記第3フィルタを用いて、前記音響信号を声信号および背景音信号に分離する、
    請求項1に記載の信号処理装置。
  3. 分離された前記声信号および前記背景音信号の混合率を取得する混合率取得部と、
    前記混合率に基づいて前記声信号および前記背景音信号を混合した混合音を作成する混合部と、をさらに備える、
    請求項2に記載の信号処理装置。
  4. 前記第2背景音推定部は、前記一定時間分の前記特徴量の平均値を前記第2背景音成分として推定する、
    請求項2に記載の信号処理装置。
  5. 前記第2声推定部は、前記第1背景音成分および前記第2背景音成分のうち最大値を前記特徴量から減算した値を前記第2声成分として推定する、
    請求項2に記載の信号処理装置。
  6. 前記第3フィルタ作成部は、前記第1フィルタと前記第2フィルタとの重み付き加算により前記第3フィルタを作成する、
    請求項2に記載の信号処理装置。
  7. 前記第1背景音推定部は、前記一定時間に取得される前記特徴量から前記第1背景音成分を推定する、
    請求項1に記載の信号処理装置。
  8. 前記一定時間に取得される前記特徴量を用いて、非負行列因子分解により背景音を表す背景音基底行列を算出する算出部をさらに備え、
    前記第1背景音推定部は、声を表す声基底行列と前記背景音基底行列とを用いて前記第1背景音成分を推定する、
    請求項7に記載の信号処理装置。
  9. 前記代表成分推定部は、前記一定時間に取得された前記特徴量の最大値を前記代表成分として推定する、
    請求項1に記載の信号処理装置。
  10. 前記一定時間に取得される前記特徴量を用いて、非負行列因子分解により背景音を表す背景音基底行列を算出する算出部をさらに備え、
    前記第1声推定部は、声を表す声基底行列と前記背景音基底行列とを用いて前記第1声成分を推定する、
    請求項1に記載の信号処理装置。
  11. 音響信号を周波数分析して得られる前記音響信号の特徴量を取得する取得ステップと、
    前記特徴量から、前記特徴量の背景音成分のうち非定常性を持つ第1背景音成分を推定する第1背景音推定ステップと、
    一定時間に取得された1以上の前記特徴量から推定された前記第1背景音成分の最大値に基づいて、前記一定時間内の前記第1背景音成分を代表する代表成分を推定する代表成分推定ステップと、
    前記特徴量から、前記特徴量の声成分である第1声成分を推定する第1声推定ステップと、
    前記第1声成分と前記代表成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第1フィルタを作成する第1フィルタ作成ステップと、
    前記第1フィルタを用いて、前記音響信号を声信号および背景音信号に分離する分離ステップと、
    を含む信号処理方法。
  12. コンピュータを、
    音響信号を周波数分析して得られる前記音響信号の特徴量を取得する取得部と、
    前記特徴量から、前記特徴量の背景音成分のうち非定常性を持つ第1背景音成分を推定する第1背景音推定部と、
    一定時間に取得された1以上の前記特徴量から推定された前記第1背景音成分の最大値に基づいて、前記一定時間内の前記第1背景音成分を代表する代表成分を推定する代表成分推定部と、
    前記特徴量から、前記特徴量の声成分である第1声成分を推定する第1声推定部と、
    前記第1声成分と前記代表成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第1フィルタを作成する第1フィルタ作成部と、
    前記第1フィルタを用いて、前記音響信号を声信号および背景音信号に分離する分離部、
    として機能させるためのプログラム。
JP2012240669A 2012-10-31 2012-10-31 信号処理装置、方法およびプログラム Active JP6054142B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012240669A JP6054142B2 (ja) 2012-10-31 2012-10-31 信号処理装置、方法およびプログラム
US14/058,829 US9478232B2 (en) 2012-10-31 2013-10-21 Signal processing apparatus, signal processing method and computer program product for separating acoustic signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012240669A JP6054142B2 (ja) 2012-10-31 2012-10-31 信号処理装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2014089420A true JP2014089420A (ja) 2014-05-15
JP6054142B2 JP6054142B2 (ja) 2016-12-27

Family

ID=50548149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012240669A Active JP6054142B2 (ja) 2012-10-31 2012-10-31 信号処理装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US9478232B2 (ja)
JP (1) JP6054142B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10109291B2 (en) 2016-01-05 2018-10-23 Kabushiki Kaisha Toshiba Noise suppression device, noise suppression method, and computer program product
JP2019203798A (ja) * 2018-05-23 2019-11-28 株式会社リコー 状態識別装置、状態識別方法および状態識別プログラム
JP2021113888A (ja) * 2020-01-17 2021-08-05 Tvs Regza株式会社 環境音出力装置、システム、方法およびプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015118361A (ja) * 2013-11-15 2015-06-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP6371516B2 (ja) * 2013-11-15 2018-08-08 キヤノン株式会社 音響信号処理装置および方法
CN105976829B (zh) * 2015-03-10 2021-08-20 松下知识产权经营株式会社 声音处理装置、声音处理方法
US9837100B2 (en) 2015-05-05 2017-12-05 Getgo, Inc. Ambient sound rendering for online meetings
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US10325588B2 (en) 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal
WO2019133732A1 (en) * 2017-12-28 2019-07-04 Knowles Electronics, Llc Content-based audio stream separation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263189A (ja) * 2002-03-11 2003-09-19 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置およびその方法、信号分離プログラム並びにそのプログラムを記録した記録媒体
JP2011186384A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
DE69428119T2 (de) * 1993-07-07 2002-03-21 Picturetel Corp Verringerung des hintergrundrauschens zur sprachverbesserung
US6920424B2 (en) * 2000-04-20 2005-07-19 International Business Machines Corporation Determination and use of spectral peak information and incremental information in pattern recognition
JP2002221988A (ja) * 2001-01-25 2002-08-09 Toshiba Corp 音声信号の雑音抑圧方法と装置及び音声認識装置
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
US7492814B1 (en) * 2005-06-09 2009-02-17 The U.S. Government As Represented By The Director Of The National Security Agency Method of removing noise and interference from signal using peak picking
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4952979B2 (ja) * 2006-04-27 2012-06-13 独立行政法人理化学研究所 信号分離装置、信号分離方法、ならびに、プログラム
JP4234746B2 (ja) * 2006-09-25 2009-03-04 株式会社東芝 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
EP2210427B1 (en) * 2007-09-26 2015-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for extracting an ambient signal
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
US20090248411A1 (en) * 2008-03-28 2009-10-01 Alon Konchitsky Front-End Noise Reduction for Speech Recognition Engine
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
US20100082339A1 (en) * 2008-09-30 2010-04-01 Alon Konchitsky Wind Noise Reduction
KR20100111499A (ko) * 2009-04-07 2010-10-15 삼성전자주식회사 목적음 추출 장치 및 방법
US8787591B2 (en) * 2009-09-11 2014-07-22 Texas Instruments Incorporated Method and system for interference suppression using blind source separation
US8874441B2 (en) * 2011-01-19 2014-10-28 Broadcom Corporation Noise suppression using multiple sensors of a communication device
JP5662276B2 (ja) 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
JP2013171089A (ja) 2012-02-17 2013-09-02 Toshiba Corp 音声補正装置、方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263189A (ja) * 2002-03-11 2003-09-19 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置およびその方法、信号分離プログラム並びにそのプログラムを記録した記録媒体
JP2011186384A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10109291B2 (en) 2016-01-05 2018-10-23 Kabushiki Kaisha Toshiba Noise suppression device, noise suppression method, and computer program product
JP2019203798A (ja) * 2018-05-23 2019-11-28 株式会社リコー 状態識別装置、状態識別方法および状態識別プログラム
JP7000991B2 (ja) 2018-05-23 2022-01-19 株式会社リコー 状態識別装置、状態識別方法および状態識別プログラム
JP2021113888A (ja) * 2020-01-17 2021-08-05 Tvs Regza株式会社 環境音出力装置、システム、方法およびプログラム

Also Published As

Publication number Publication date
US20140122068A1 (en) 2014-05-01
JP6054142B2 (ja) 2016-12-27
US9478232B2 (en) 2016-10-25

Similar Documents

Publication Publication Date Title
JP6054142B2 (ja) 信号処理装置、方法およびプログラム
AU2016253695B2 (en) Frequency band extending device and method, encoding device and method, decoding device and method, and program
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
JP2019216408A (ja) 情報を出力するための方法、及び装置
JP6482173B2 (ja) 音響信号処理装置およびその方法
US10152986B2 (en) Acoustic processing apparatus, acoustic processing method, and computer program product
JP2010224321A (ja) 信号処理装置
US9412391B2 (en) Signal processing device, signal processing method, and computer program product
CN111128214A (zh) 音频降噪方法、装置、电子设备及介质
KR102206546B1 (ko) 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법
US9767846B2 (en) Systems and methods for analyzing audio characteristics and generating a uniform soundtrack from multiple sources
Westhausen et al. Reduction of subjective listening effort for TV broadcast signals with recurrent neural networks
US9601124B2 (en) Acoustic matching and splicing of sound tracks
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
JP5443547B2 (ja) 信号処理装置
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
US9648411B2 (en) Sound processing apparatus and sound processing method
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
US9398387B2 (en) Sound processing device, sound processing method, and program
US9930466B2 (en) Method and apparatus for processing audio content
US20230117603A1 (en) Quality estimation models for various signal characteristics
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
KR102113542B1 (ko) 심층신경망을 이용하여 음향 신호를 정규화하는 방법
JP7159767B2 (ja) 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
JP7156084B2 (ja) 音信号処理プログラム、音信号処理方法及び音信号処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150904

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161130

R151 Written notification of patent or utility model registration

Ref document number: 6054142

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350