JP2014139658A - 信号処理装置、信号処理方法およびプログラム - Google Patents

信号処理装置、信号処理方法およびプログラム Download PDF

Info

Publication number
JP2014139658A
JP2014139658A JP2013235396A JP2013235396A JP2014139658A JP 2014139658 A JP2014139658 A JP 2014139658A JP 2013235396 A JP2013235396 A JP 2013235396A JP 2013235396 A JP2013235396 A JP 2013235396A JP 2014139658 A JP2014139658 A JP 2014139658A
Authority
JP
Japan
Prior art keywords
signal
background sound
similarity
unit
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013235396A
Other languages
English (en)
Other versions
JP6203003B2 (ja
Inventor
Toshiyuki Ono
利幸 小野
Makoto Hirohata
誠 広畑
Masashi Nishiyama
正志 西山
Toru Taniguchi
徹 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013235396A priority Critical patent/JP6203003B2/ja
Priority to US14/135,806 priority patent/US9412391B2/en
Publication of JP2014139658A publication Critical patent/JP2014139658A/ja
Application granted granted Critical
Publication of JP6203003B2 publication Critical patent/JP6203003B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/021Background music, e.g. for video sequences, elevator music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】多様な入力信号に対して適切に背景音を出力する。
【解決手段】信号処理装置は、第1背景音算出部と第1信号生成部と抽出部と類似度算出部と混合部とを備える。第1背景音算出部は、第1音響信号と第2音響信号とに基づいて音声信号を除去した第1背景音信号を算出する。第1信号生成部は、第1音響信号と第2音響信号から第1参照信号を生成する。抽出部は、第1参照信号から音声信号を除去した第2背景音信号を抽出する。類似度算出部は、第1背景音信号の特徴データと第2背景音信号の特徴データとが類似する度合いを表す第1類似度を算出する。混合部は、第1類似度が高いほど第1背景音信号に大きい重みを付与し、第1類似度が低いほど第2背景音信号に大きい重みを付与し、第1背景音信号と第2背景音信号の加重和を算出する。
【選択図】図1

Description

本発明の実施形態は、信号処理装置、信号処理方法およびプログラムに関する。
音響信号から音声信号(人の声など)を除去する技術は、音声にかき消され聞き取りづらい背景音を聞き取り易くしたり、音楽のコンテンツから歌手の声を除去することにより楽曲をカラオケ演奏したりすることに利用できる。例えば、右信号と左信号の2チャネルの音響信号から音声信号を除去する技術が知られている。
ところで、2チャネルの音響信号の信号間の関係性には様々なものが存在する。2チャネルの信号を、それぞれ左信号Lおよび右信号Rとすると、それらは次のようにモデル化される。
L=B+C+e
R=B+C+e
ここで、BおよびBは、それぞれ左信号および右信号に含まれる背景音信号である。また、CおよびCは、それぞれ左信号および右信号に含まれる音声信号である。また、eおよびeは、それぞれ左信号および右信号に含まれるノイズである。ノイズは、マイクノイズや符号化ノイズを含む。多くのコンテンツは、左信号および右信号に音声信号が等しく含まれるように作成されている。従って、左信号および右信号の条件として、背景音とノイズがそれぞれ等しいか否かの組み合わせにより、以下の4通りの条件が存在する。
条件1:B≠B、e=e
条件2:B≠B、e≠e
条件3:B=B、e=e
条件4:B=B、e≠e
条件1および条件2は、背景音が左信号と右信号とで異なる場合である。例えばステレオ信号が、条件1および条件2に該当する。条件3および条件4は、背景音が左信号と右信号とで等しい場合である。例えばモノラル信号が2チャネル信号として入力された場合が、条件3および条件4に該当する。
テレビ放送の音響信号は条件1であることが多い。一部のDVDに収録されている音響信号は条件3である。インターネット上の動画の音響信号などのその他の音響信号は、様々な条件の信号が存在し、予めいずれの条件の音響信号であるかを知ることはできない。また、条件3は、左信号および右信号が完全に一致するため特定が容易である。しかし、条件4は、ノイズの影響のため、入力された音響信号から条件1や条件2と弁別することは一般に困難である。
特許第3381062号公報 特許第3670562号公報
上述のように、音響信号には様々な条件の信号が存在する。しかしながら、2チャネルの音響信号から音声信号を除去する従来の技術は、条件1および条件2の音響信号に対してのみ有効であり、条件3および条件4の音響信号に対しては、適切に音声を除去することができなかった。例えば、モノラル信号から音声を除去することができなかった。
実施形態の信号処理装置は、第1背景音算出部と第1信号生成部と抽出部と類似度算出部と混合部とを備える。第1背景音算出部は、第1音響信号と第2音響信号とに基づいて音声信号を除去した第1背景音信号を算出する。第1信号生成部は、第1音響信号と第2音響信号から第1参照信号を生成する。抽出部は、第1参照信号から音声信号を除去した第2背景音信号を抽出する。類似度算出部は、第1背景音信号の特徴データと第2背景音信号の特徴データとが類似する度合いを表す第1類似度を算出する。混合部は、第1類似度が高いほど第1背景音信号に大きい重みを付与し、第1類似度が低いほど第2背景音信号に大きい重みを付与し、第1背景音信号と第2背景音信号の加重和を算出する。
第1の実施形態の信号処理装置のブロック図。 第1の実施形態の信号処理装置の動作を示すフローチャート。 類似度算出部の構成の一例を示す図。 類似度算出部の動作の一例を示すフローチャート。 類似度生成部の構成の一例のブロック図。 類似度生成部の動作の一例を示すフローチャート。 類似度算出部の構成の一例を示す図。 類似度算出部の動作の一例を示すフローチャート。 類似度算出部の構成の一例を示す図。 第2の実施形態の信号処理装置のブロック図。 第2の実施形態の信号処理装置の動作を示すフローチャート。 第2の実施形態の応用例を示した模式図。 第3の実施形態の信号処理装置のブロック図。 第3の実施形態の信号処理装置の動作を示すフローチャート。 第4の実施形態の信号処理装置のブロック図。 混合部における各信号の重みの関係を示す図。 第4の実施形態の信号処理装置の動作を示すフローチャート。 第1から第4の実施形態にかかる信号処理装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる信号処理装置の好適な実施形態を詳細に説明する。
(第1の実施形態)
第1の実施形態にかかる信号処理装置は、まず2チャネルの音響信号から音声信号を除去した背景音信号(例えば差信号)を算出する。次に、音響信号から音声信号を除去した参照信号を生成する。次に、背景音信号と参照信号との類似度を算出し、その類似度に応じた重みで背景音信号と参照信号との加重和を算出する。これにより、2チャネルの音響信号に含まれる背景音信号が等しい条件下でも、音響信号から音声信号を除去した背景音信号を生成する。
図1は、第1の実施形態の信号処理装置100の構成例を示すブロック図である。信号処理装置100は、取得部101と、第1背景音算出部102と、第1信号生成部103と、抽出部104と、類似度算出部105と、混合部106と、を備えている。
取得部101、第1背景音算出部102、第1信号生成部103、抽出部104、類似度算出部105、および、混合部106は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
取得部101は、第1音響信号と第2音響信号との2チャネルの音響信号を取得する。
第1背景音算出部102は、第1音響信号と第2音響信号とから、音声信号を除去した第1背景音信号を算出する。第1背景音算出部102は、例えば、第1音響信号と第2音響信号との差である差信号を第1背景音信号として算出する。以下では、第1背景音信号として差信号を用いる場合を例に説明する。なお、第1背景音信号の算出方法はこれに限られるものではなく、第1音響信号と第2音響信号とをステレオ信号として背景音信号を算出できる方法であれば、従来から用いられているあらゆる方法を適用できる。例えば、複数に分割した周波数帯域ごとに左右の信号の類似度を算出し、類似度が高いほど当該周波数帯域の信号を抑制することで、音声を含む中央定位する信号を抑制した背景音信号を算出する方法を用いてもよい。
第1信号生成部103は、第1音響信号と第2音響信号との少なくとも1つから第1参照信号を生成する。抽出部104は、第1参照信号から、音声信号を除去した第2背景音信号を抽出する。類似度算出部105は、差信号と第2背景音信号とが類似する度合いを表す第1類似度を算出する。混合部106は、第1類似度により定める重みに応じて差信号と第2背景音信号の加重和を算出する。
次に、図1および図2を用いて、信号処理装置100の動作について説明する。図2は、第1の実施形態の信号処理装置100の動作の一例を示すフローチャートである。
まず取得部101は、第1音響信号と第2音響信号とを取得する(ステップS11)。取得部101は、2チャネルの音響信号である第1音響信号と第2音響信号を取得してもよいし、音響信号を含む動画像データから第1音響信号と第2音響信号を抽出(取得)してもよい。また、取得部101は、例えば5.1チャネルの音響信号のように、より多チャネルの音響信号から2チャネルの信号を選択したり、多チャネルの音響信号を所定の係数でダウンミックスしたりして、第1音響信号と第2音響信号とを取得してもよい。本実施形態では第1音響信号は2チャネルの音響信号の左信号、第2音響信号は右信号であるとする。
次に、第1背景音算出部102は、第1音響信号と第2音響信号との差である差信号を算出する(ステップS12)。第1音響信号をL、第2音響信号をRとして、差信号は次の(1)式で算出される。
S=(L−R)/2 ・・・(1)
次に、第1信号生成部103は、第1音響信号、第2音響信号、および、第1音響信号と第2音響信号との加重和のうち1つを第1参照信号として生成する(ステップS13)。以下では、第1音響信号と第2音響信号との加重和を第1参照信号とする。第1参照信号は、例えば次の(2)式で算出される。なお、重みは(2)式の例(1/2)に限られるものではない。
M=(L+R)/2 ・・・(2)
次に、抽出部104は、第1参照信号から音声信号を除去した第2背景音信号を抽出する(ステップS14)。抽出部104は、例えば、非負行列因子分解(NMF)を用いた音源分離により、第1参照信号から第2背景音信号を抽出する。以下に、非負行列因子分解を用いた場合の抽出方法の例について説明する。
まず、抽出部104は、時刻tから時刻t+N−1の第1参照信号をフーリエ変換して第1参照信号の振幅スペクトルと位相スペクトルを得る。ここでNはフーリエ変換の対象となるサンプル数であり、例えば2048である。次に、抽出部104は、音声信号の振幅スペクトルを表現するための基底の集合と、背景音信号の振幅スペクトルを表現するための基底の集合と、を読み込む。これらの基底は、音声信号や背景音信号を用いて、予め学習し準備しておくことができる。例えば、抽出部104は、20個の基底を用いる。音声信号の振幅スペクトルを表現するための基底の集合を行列表現したものをEとする。また、背景音信号の振幅スペクトルを表現するための基底の集合を行列表現したものをEとする。次に、抽出部104は、非負行列因子分解を用いて、第1参照信号の振幅スペクトルを、読み込んだ基底と係数との形式に分解することにより、係数の値を求める。この計算は、第1参照信号の振幅スペクトルを示すベクトルをp、求めるべき係数のベクトルをw、EとEを並べた行列をE(=[E])とすると、以下の(3)式の値を最小化するwを求める計算となる。
Figure 2014139658
具体的には、抽出部104は、次の(4)式の計算を行う。
Figure 2014139658
ただし、「・」はベクトルのx番目の成分を示し、「・x,y」は行列のx行y列の成分を示す。またw (n)はwの算出の、n回目の反復時の値を示す。抽出部104は、wの値が反復により予め定めた値以下の変動しかしなくなるか、予め定めた反復回数を行うまで、(3)式を反復して計算する。なお、w (n)の反復の初期値には0以外の任意の値を利用できる。例えば、0以外の値をとる乱数が初期値として用いられる。
なお、Eに係る係数をw、Eに係る係数をwとする。すなわち、以下の(5)式の関係が成り立つ。
Figure 2014139658
次に、抽出部104は、求めた係数を用いて第2背景音信号の振幅スペクトルを算出する。第2背景音信号の振幅スペクトルは、Eにより算出される。抽出部104は、音声信号の振幅スペクトルを算出し、音声信号の振幅スペクトルを第1参照信号の振幅から減算することにより、第2背景音信号の振幅スペクトルを算出してもよい。すなわち、抽出部104は、p−Eにより第2背景音信号の振幅スペクトルを算出してもよい。
最後に、抽出部104は、算出した第2背景音信号の振幅スペクトルと第1参照信号の位相スペクトルとを用いて逆フーリエ変換することにより第2背景音信号を得る。
なお、第2背景音信号の抽出方法は上述した手法に限らない。他にも、音声を減衰するようなバンドパスフィルタを使って、第1参照信号から第2背景音信号を抽出することができる。
第2背景音信号の抽出は、時刻tから時刻t+N−1の処理が終わったら、処理対象の時刻を変え、繰り返し実行される。
次に、類似度算出部105は、差信号の特徴データと第2背景音信号の特徴データとの類似度である第1類似度を算出する(ステップS15)。類似度算出部105の動作を図3および図4を用いて説明する。図3は、類似度算出部105の構成の一例を示すブロック図である。図4は、類似度算出部105の動作の一例を示すフローチャートである。
図3に示すように、類似度算出部105は、類似度生成部1001と、非信頼度算出部1002と、類似度取得部1003と、補正部1004と、を備えている。類似度生成部1001は、差信号と第2背景音信号との類似度である第1類似度、および、差信号と第1参照信号との類似度である第2類似度を生成する。非信頼度算出部1002は、差信号がノイズらしい度合いを示す非信頼度を算出する。類似度取得部1003は、前の時刻で既に算出済の第1類似度である算出済類似度を取得する。補正部1004は、第2類似度と非信頼度との少なくとも一方に応じて第1類似度を補正する。
図4に示すように、まず、類似度生成部1001は、差信号の特徴データと第2背景音信号の特徴データとの類似度である第1類似度、および、差信号の特徴データと第1参照信号の特徴データとの類似度である第2類似度を算出(生成)する(ステップS111)。
図5は、類似度生成部1001の構成の一例を示すブロック図である。図5に示すように、類似度生成部1001は、レベル算出部1201と、生成部1202と、を備えている。レベル算出部1201は、差信号、第1参照信号および第2背景音信号の特徴データとして単位時間内の信号の大きさ(レベル)を算出する。生成部1202は、各信号のレベルを用いて第1類似度と第2類似度とを生成する。
図6は、類似度生成部1001の動作の一例を示すフローチャートである。まず、レベル算出部1201は、差信号の単位時間内の信号の大きさである差信号レベルを算出する(ステップS131)。単位時間をNとすると、例えば時刻tから時刻t+N−1の差信号レベルは、時刻tから時刻t+N−1の差信号の信号値の二乗の平均値、または、信号値の絶対値の平均値を用いることができる。また、差信号レベルは、差信号をフーリエ変換した係数の二乗の平均値、および、係数の絶対値の平均値を用いることができる。
次に、レベル算出部1201は、第1参照信号の単位時間内の信号の大きさである第1参照信号レベルをS131と同様にして算出する(ステップS132)。次に、レベル算出部1201は、第2背景音信号の単位時間内の信号の大きさである第2背景音信号レベルをS131と同様にして算出する(ステップS133)。
次に、生成部1202は、差信号レベルと第2背景音信号レベルとから第1類似度を算出する(ステップS134)。第1類似度は、例えば0から1までの値である。生成部1202は、まず、差信号レベルLev(S)と第2背景音信号レベルLev(A)の比Rateを、以下の(6)式により算出する。
Rate=Lev(S)/Lev(A) ・・・(6)
次に、生成部1202は、Rateを利用して、第1類似度を算出する。単純には、生成部1202は、Rateの値が1に近いほど大きい値となるように第1類似度を算出する。生成部1202は、例えば次の(7)式により第1類似度Simを算出する。ただし、βは正数のパラメータであり、例えば0.5を用いる。
Figure 2014139658
Rateの値が一定の水準よりも小さい場合は、差信号がノイズであると考えられる。一方、Rateの値が1を上回る場合には、第2背景音信号の抽出精度の不足等の影響で第2背景音信号が実際の背景音の大きさよりも小さくなったために、差信号レベルが第2背景音信号レベルよりも大きくなったと考えることができる。そこで、Rateが1を上回った場合には、第1類似度の値を1にするようにしてもよい。すなわち、第1類似度を次の(8)式で算出する。
Figure 2014139658
ここでは差信号と第2背景音信号の特徴データとして信号の大きさを利用する場合を説明した。信号の大きさ以外の特徴データと、その特徴データ間の近さZの算出方法と、の組み合わせを用いて、第1類似度を算出することもできる。例えば生成部1202は、特徴データとして信号値を直接用いて、各信号の信号値の近さをZとして算出し、近さZに基づいて第1類似度を算出してもよい。例えば生成部1202は、次の(9)式でZを算出し、算出したZを用いて次の(10)式によりSimを算出する。
Figure 2014139658
ここで、Aは第2背景音信号であり、「・(i)」は時刻iの信号値であり、Σは単位時間内の時刻iについての和である。また、生成部1202は、信号値のパターンの類似度によりSimを算出してもよい。例えば生成部1202は、SとAの相関を算出し、その逆数をZとしてSimを算出する。また、信号値以外にも、信号値をフーリエ変換した係数のパターンの類似度を用いてSimを算出することもできる。例えば生成部1202は、差信号および第2背景音信号をそれぞれフーリエ変換した複数の係数間の相関を算出し、その逆数をZとすることができる。また、生成部1202は、差信号の振幅スペクトルと第2背景音信号の振幅スペクトルとの間の相関を算出し、その逆数をZとすることができる。
上述した方法では、特徴データをスカラー値としその類似度により第1類似度を算出した。信号の特徴を示す2つ以上のスカラー値からなるベクトルを特徴データとして、その類似度により第1類似度を算出してもよい。例えば生成部1202は、式(6)と式(9)の2つのスカラー値をもつベクトルを特徴データとし、第1類似度を式(8)と式(10)の加重和により算出することができる。
次に、差信号レベルと第1参照信号レベルを用いて、ステップS134と同様の手順で、第2類似度を算出する(ステップS135)。第2類似度をSim2とする。
図4に戻る。次に、非信頼度算出部1002は、非信頼度を算出する(ステップS112)。非信頼度算出部1002は、例えば、単位時間内の差信号の信号値の絶対値の平均値が小さいほど低くなるように非信頼度を算出する。これは、単位時間内の差信号の信号値の絶対値の平均値が小さい場合には、差信号がノイズであると考えられるからである。非信頼度算出部1002は、例えば、ある閾値を設定し、この閾値よりも平均値が大きければ非信頼度を1にし、閾値よりも平均値が小さければ非信頼度を0にする。また、非信頼度算出部1002は、差信号をフーリエ変換して得られた振幅スペクトルを解析し、全ての帯域にほぼ等しい振幅スペクトルが得られている場合に非信頼度を低く算出してもよい。この場合も、差信号がノイズであると考えられるからである。この非信頼度をBelと表記する。
次に、類似度取得部1003は、前の時刻の動作で既に算出されている第1類似度である算出済類似度を取得する(ステップS113)。算出済類似度は、事前に音響信号に付与されていたメタデータ、および、動画像コンテンツに含まれるメタデータなどのメタデータを用いて得られる事前情報により代替することもできる。例えば、動画像コンテンツがステレオ放送であるという情報が付与されていれば、算出済類似度を1として動作させることができる。
次に、補正部1004は、第2類似度と非信頼度とにより、第1類似度を補正する(ステップS114)。第2類似度および非信頼度が低いときは、差信号がノイズらしいと判別される場合であり、差信号は第2背景音信号に類似しにくいと考えられる。逆に、第2類似度や非信頼度が高いときは、差信号はノイズではないため、差信号は第2背景音信号に類似しやすいと考えられる。そこで、第2類似度と非信頼度の高さにより第1類似度を補正する。例えば、補正部1004は、第2類似度と非信頼度による補正量を調節するパラメータをa、bとして、次の(11)式の値で第1類似度を補正して置き換える。
Sim+a(Sim2−0.5)+b(Bel−0.5)・・・(11)
なお、補正部1004は、第2類似度と非信頼度の少なくとも一方により第1類似度を補正してもよい。この場合、例えば、aおよびbのいずれかを0として、(11)式により第1類似度を算出すればよい。また、補正部1004は、第1類似度を、次の(12)式で与えられる第1類似度、第2類似度および非信頼度の加重和により置き換えてもよい。ただし、d、d、dは総和が1になる重み係数である。
Sim+dSim2+dBel ・・・(12)
また、補正量を調節するパラメータ(a,b)や重みの係数(d、d、d)は、算出済類似度により制御することができる。算出済類似度が低い場合(すなわち、差信号に占めるノイズの割合が多い場合)、かつ、ノイズが第1参照信号の大きさに比例する場合には、第2類似度による補正量を大きくすることが好ましい。すなわち、算出済類似度が低いほどaやdを大きくし、算出済類似度が大きいほどaやdを小さくする。
上述した方法で、時刻tから時刻t+N−1の第1類似度を算出することができる。類似度算出部105は、時刻をsずつずらしながら、全ての時刻について第1類似度を算出する。例えば、類似度算出部105は、時刻tから時刻t+N−1を算出した後は、時刻t+sから時刻t+N−1+s(ただしs<N)について第1類似度を算出する。
s<Nであるため、第1類似度を算出する時刻の範囲が重なり合う。類似度算出部105は、このように重なり合った範囲の時刻については、既に算出された第1類似度と、今回算出した第1類似度との平均値を、当該時刻の第1類似度としてもよい。
また、第1類似度は時間方向に平滑化してもよい。すなわち、例えば類似度算出部105は、時刻t+sから時刻t+N−1+sの第1類似度を、時刻tから時刻t+N−1の第1類似度とαブレンドすることで算出する。これにより、第1類似度の時間変化が滑らかになり、本実施形態により出力される第1出力信号と第2出力信号へのノイズの発生を回避したり、音のふらつきを抑制したりする効果がある。
類似度算出部の変形例(類似度算出部105−2)を図7および図8を用いて説明する。図7は、類似度算出部105−2の構成例を示すブロック図である。図8は、類似度算出部105−2の動作の一例を示すフローチャートである。図7に示すように、類似度算出部105−2は、第2信号生成部301と、レベル算出部302と、類似度生成部303と、を備えている。
第2信号生成部301は、第1参照信号と第2背景音信号とから、第3参照信号を生成する。レベル算出部302は、差信号および第3参照信号それぞれの特徴データとして、差信号レベルおよび第3参照信号レベルを算出する。類似度生成部303は、差信号レベルと第3参照信号レベルとから第1類似度を生成する。
図8のフローチャートについて説明する。まず、第2信号生成部301は、例えば第1参照信号と第2背景音信号との加重和により第3参照信号を生成する(ステップS21)。第3参照信号は、第1参照信号でもよいし、第2背景音信号でもよい。さらに加重和の重みは、事前に定める任意の値を用いることができる。
また、前の時刻で既に算出済の第1類似度である算出済類似度により重みを制御してもよい。図9は、このように制御する場合の類似度算出部105−3の構成例を示すブロック図である。類似度算出部105−3は、図7の構成に加えて類似度取得部504を備える。類似度取得部504は、前の時刻で算出済の算出済類似度を取得する。
算出済類似度が高いとき第2背景音信号に付与する重みを大きくし、算出済類似度が低いとき第1参照信号に付与する重みを大きくすることが望ましい。算出済類似度が低いときは、差信号中に占めるノイズの割合が大きい信号であると予測される。このため、第1参照信号の特徴データと差信号の特徴データを比較することにより差信号のノイズらしさを判定し、第1類似度の算出精度の向上が期待できるためである。
図8に戻る。次に、レベル算出部302は、差信号および第3参照信号それぞれの特徴データとして、単位時間内の差信号の大きさである差信号レベルと、単位時間内の第3参照信号の大きさである第3参照信号レベルとを、S131と同様の手順で算出する(ステップS22およびステップS23)。
次に、類似度生成部303は、差信号レベルと第3参照信号レベルとから、S134と同様の手順で第1類似度を算出する(ステップS24)。
なお、差信号と第3参照信号から第1類似度を求める場合も、その特徴データと第1類似度の算出方法は上述した方法に限られない。信号値のパターン、信号値をフーリエ変換した係数、および、その係数のパターンからなるスカラー値やベクトル値を特徴データとして用い、その特徴データの類似度により第1類似度を算出することができる。
図2に戻る。次に、混合部106は、第1類似度に応じて差信号と第2背景音信号との加重和を算出することにより第1出力信号と第2出力信号を算出する(ステップS16)。第1出力信号は、本実施形態の信号処理装置100から出力される左信号であり、第2出力信号は本実施形態の信号処理装置100から出力される右信号である。差信号に付与する重みをαとすると、第1出力信号LOUTと第2出力信号ROUTは、それぞれ次の(13)式および(14)式で算出される。ただし、Bは第2背景音信号である。
OUT=αS+(1−α)B ・・・(13)
OUT=αS+(1−α)B ・・・(14)
差信号に付与する重みαは、第1類似度が大きいほど大きくなるように制御される。例えば、αとして第1類似度の値をそのまま用いることができる。すなわち、次の(15)式でαが生成される。
α=Sim ・・・(15)
より第1類似度が1に近いときのみαが大きくなるように、次の(16)式で算出してもよい。ただし、γは正数のパラメータである。またSimに対応するαの値をテーブルで保持しておいてもよい。
Figure 2014139658
αの値の取る範囲は、0から1の間が望ましい。また、Simに対応するαの上限値を1以下に設定してもよい。例えば、αはSimの値に応じて0から0.5の値を取るようにしてもよい。
なお、式(13)および式(14)に記した第1出力信号と第2出力信号の算出方法の他に、第1出力信号と第2出力信号の一方に対して、差信号を逆相にして加算してもよい。すなわち、次の(17)式および(18)式で第1出力信号と第2出力信号を算出してもよい。これにより、音のステレオ感が増す効果がある。
OUT=αS+(1−α)B ・・・(17)
OUT=α(−S)+(1−α)B ・・・(18)
混合部106は、第1出力信号および第2出力信号を、外部装置や記憶装置などに出力する。混合部106は、第1出力信号および第2出力信号の両方を出力してもよいし、第1出力信号および第2出力信号のうちいずれか一方のみを出力してもよい。
このように、第1の実施形態の信号処理装置によれば、差信号の特徴データと第2背景音信号の特徴データとの類似度に応じて差信号と第2背景音信号の加重和を算出する。これにより、多様な入力信号に対して適切に背景音を出力することが可能となる。
なお、音声信号は、例えば人の声であるが、これに限られるものではなく、背景音信号と分離しうる信号であればどのような信号であってもよい。例えば非負行列因子分解等を適用する場合は、学習に用いる音声信号および背景音信号を適宜変更することにより、任意の信号を音声信号として分離することができる。
(第2の実施形態)
図10は、第2の実施形態の信号処理装置200の構成例を示すブロック図である。第2の実施形態の信号処理装置200は、取得部101と、第1背景音算出部102と、第1信号生成部103と、抽出部604と、類似度算出部105と、混合部606と、を備えている。
第2の実施形態では、抽出部604および混合部606の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる信号処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
抽出部604は、第1参照信号から、音声信号を除去した第2背景音信号と音声信号とを抽出する。混合部606は、第1類似度により定める重みに応じて差信号と第2背景音信号と音声信号との加重和を算出する。
次に図10および図11を用いて、第2の実施形態の信号処理装置200の動作について説明する。なお、図11は、第2の実施形態の信号処理装置200の動作例を示すフローチャートである。
図11では、ステップS75が追加されたこと、および、ステップS77の処理が、第1の実施形態の信号処理装置100の動作例を示す図2と異なっている。ステップS71〜ステップS74、および、ステップS76は、それぞれ図2のステップS11〜ステップS14、および、ステップS15と同様であるため、その説明を省略する。
ステップS75では、抽出部604は、第1参照信号から音声信号を抽出する(ステップS75)。音声信号は、第1参照信号から第2背景音信号を減算することで得られる。抽出部604は、ステップS14と同じ手順でEを算出することで音声信号を算出してもよい。
ステップS77では、混合部606は、差信号と第2背景音信号と音声信号との加重和を算出し、第1出力信号と第2出力信号を生成する(ステップS77)。まず、混合部606は、差信号と第2背景音信号の重みの比を決定するための係数αを、ステップS16で説明した方法により第1類似度に基づいて算出する。次に混合部606は、背景音信号の大きさを決定するための係数λと、音声信号の大きさを決定するための係数μとを取得する。λとμは、0以上の値であり、所定の効果を得られるように予め定めておくことができる。例えば、音声信号を聞こえやすくするためには、μの値をλの値よりも大きく設定しておけばよい。また、スポーツ番組等で会場の雰囲気をより楽しめるようにするためには、実況の声を小さくして背景音が大きくなるように、μの値をλの値よりも小さく設定しておけばよい。
また、ユーザが指定する設定値を受け取る係数取得部などを設けることで、λとμの値を取得してもよい。また、λとμの値は、それぞれ直接指定するように構成してもよいし、λとμの比と平均的な大きさにより指定してもよい。
混合部606は、第1出力信号と第2出力信号を次の(19)式および(20)式で算出する。ただし、音声信号をVとする。
OUT=λ(αS+(1−α)B)+μV ・・・(19)
OUT=λ(αS+(1−α)B)+μV ・・・(20)
図12は、第2の実施形態の応用例を示した模式図である。図12は、タブレット等の情報端末801の例を示している。情報端末801は、例えば液晶で作られたディスプレイ802を備えている。ディスプレイ802は、ユーザからのタッチ入力を受け付ける。ディスプレイ802には、例えば、映像表示ウィンドウ803、再生ボタン804、停止ボタン805、表示バー806、および、表示バー807が表示される。
映像表示ウィンドウ803は、動画像の映像を表示するウィンドウである。再生ボタン804は、動画像の再生を開始するためのボタンである。停止ボタン805は、動画像の再生を停止するためのボタンである。表示バー806は、音声信号の混合率を表示するための表示バーである。表示バー807は、背景音信号の混合率を表示するための表示バーである。
表示バー806は、現在指定されている音声信号の混合率を表示するための指定ボタン806−aを備えている。表示バー807は、現在指定されている背景音信号の混合率を表示するための指定ボタン807−aを備えている。
ユーザは指定ボタン806−aにタッチし、表示バー806に沿って横方向にスライドさせることにより、音声信号の混合率を指定することができる。また、同様に、ユーザは指定ボタン807−aにより背景音信号の混合率を指定することができる。音声信号の混合率と背景音信号の混合率は、それぞれ、ステップS77におけるμとλに対応する。すなわち、ユーザは、混合部606が使用する係数λおよび係数μを、図12のような画面を介して設定することができる。
指定ボタン806−aは、表示バー806の左端に位置する時に、予め定めたμの最小値であるμMINを表し、右端に位置する時に、予め定めたμの最大値であるμMAXを表し、その中間位置にある時は、中間の値を表すようになっている。指定ボタン807−aも指定ボタン806−aと同様に、λの最小値λMINから最大値λMAXの間の値に対応している。
ユーザは映像を見ながら、指定ボタン806−aと指定ボタン807−aとを移動させることで、音声信号と背景音信号の混合量を自由に設定することができる。これにより、動画像のシーンやコンテンツに合わせて、好みの音響信号を楽しむことができる。
このように、第2の実施形態の信号処理装置200は、差信号の特徴データと第2背景音信号の特徴データの類似度に応じた重みで算出した差信号と第2背景音信号の加重和の信号と音声信号との加重和を算出する。これにより、多様な入力信号に対して背景音と音声を任意の割合で混合した信号を出力することが可能となる。
以上説明したとおり、第1から第2の実施形態によれば、ステレオ信号だけでなく、モノラル信号などのように音響信号に含まれる背景音信号が等しい場合であっても、音響信号から音声信号を除去した背景音信号を適切に生成することができる。
(第3の実施形態)
図13は、第3の実施形態の信号処理装置300の構成例を示すブロック図である。第3の実施形態の信号処理装置300は、取得部101と、第1背景音算出部102と、第1信号生成部103と、抽出部604と、類似度算出部105と、混合部706と、第3背景音生成部707と、を備えている。
第3の実施形態では、混合部706の機能と第3背景音生成部707が追加された点が第2の実施形態と異なっている。その他の構成および機能は、第2の実施形態にかかる信号処理装置200のブロック図である図10と同様であるので、同一符号を付し、ここでの説明は省略する。
多くのコンテンツでは、左信号および右信号に音声信号が等しく含まれるように作成されている。しかし、アマチュアが撮影したホームビデオやステレオマイクによる録音など、左右から話者が発言するケースでは、差信号に音声信号が含まれる場合がある。そこで、第3背景音生成部707が、差信号に含まれる音声信号を除去する。
第3背景音生成部707は、第1背景音信号(差信号など)から、音声信号をさらに除去した第3背景音信号を生成する。第3背景音信号の生成は、例えば抽出部104による第1参照信号からの第2背景音信号の抽出と同様に行うことができる。
次に、図13および図14を用いて、第3の実施形態の信号処理装置300の動作について説明する。なお、図14は、第3の実施形態の信号処理装置300の動作例を示すフローチャートである。
図14では、ステップS87が追加されたこと、および、ステップS88の処理が、第2の実施形態の信号処理装置200の動作例を示す図11と異なっている。ステップS81〜ステップS86は、それぞれ図11のステップS71〜ステップS76と同様であるため、その説明を省略する。
ステップS87では、第3背景音生成部707は、第1背景音信号から第3背景音信号を生成する(ステップS87)。
ステップS88では、混合部706は、第3背景音信号と第2背景音信号と音声信号との加重和を算出し、第1出力信号と第2出力信号を生成する(ステップS88)。
まず、混合部706は、第3背景音信号と第2背景音信号の重みの比を決定するための係数αを、ステップS16で説明した方法により第1類似度に基づいて算出する。次に混合部706は、背景音信号の大きさを決定するための係数λと、音声信号の大きさを決定するための係数μとを取得する。
混合部706は、第3背景音信号を用いて、第1出力信号と第2出力信号を次の(21)式および(22)式で算出する。ただし、第3背景音信号をB’とする。
OUT=λ(αB’+(1−α)B)+μV ・・・(21)
OUT=λ(αB’+(1−α)B)+μV ・・・(22)
このように、第3の実施形態の信号処理装置300は、差信号から、音声信号をさらに除去した第3背景音信号を用いることで、より多くのコンテンツにおいて、音声を除去することが可能になる。
(第4の実施形態)
図15は、第4の実施形態の信号処理装置400の構成例を示すブロック図である。第4の実施形態の信号処理装置400は、取得部101と、第1背景音算出部102と、第1信号生成部103と、抽出部904と、類似度算出部905と、混合部906と、第3背景音生成部907と、設定部908を備えている。
第4の実施形態では、抽出部904、類似度算出部905、混合部906および第3背景音生成部907の機能と、設定部908が追加された点が第3の実施形態と異なっている。その他の構成および機能は、第3の実施形態にかかる信号処理装置300のブロック図である図13と同様であるので、同一符号を付し、ここでの説明は省略する。
第3背景音生成部707を追加した、第3の実施形態では、出力信号の生成が背景音信号を重視している場合は効果的であるが、出力信号の生成が音声信号を重視している場合は活用できず、計算コストも増える。そこで第4の実施形態では、出力信号の生成で重視する音源に応じて、抽出部904の処理を簡易化するか否か、および、第3背景音生成部907の処理を簡易化するか否かを制御し、出力信号の精度を保ちながら、計算コストを削減する。
図16は、混合部906における第3背景音信号、第2背景音信号および音声信号の重みの関係を示す図である。「大」「小」は、例えば、各信号(第3背景音信号、第2背景音信号および音声信号)に対する重みの相対的な大きさを表す。上記(21)式および(22)式の例では、λ×α、λ×(1−α)、および、μが、それぞれ第3背景音信号、第2背景音信号および音声信号に対する重みに相当する。例えば、条件1の場合(出力が背景音信号を重視する、かつ、第1類似度が高い)、混合部906は、第3背景音信号の重みを、第2背景音信号および音声信号それぞれの重みより大きくして、各信号の加重和を算出する。
抽出部904および第3背景音生成部907の処理を簡易化するか否かは、図16の各条件に応じて制御してもよい。例えば、第2背景音信号および音声信号の抽出に関わる抽出部904は、出力が背景音信号を重視する、かつ、第1類似度が高い場合のみ(図16の例では条件1の場合)、処理を簡略化する。第3背景音信号の生成に関わる第3背景音生成部907は、出力が音声信号を重視する、または、第1類似度が低い場合(図16の例では条件2〜4の場合)に、処理を簡略化する。
図15に戻り、設定部908は、出力する音源情報(出力音源)を設定する。音源情報は、例えば背景音信号の出力を重視するか、音声信号の出力を重視するかを示す情報である。以下では、係数λおよびμを用いて音源情報を設定する例を説明する。まず、設定部908は、第1出力信号と第2出力信号を算出するために定めた、背景音信号の大きさを決定するための係数λと、音声信号の大きさを決定するための係数μに基づき、出力したい音源が背景音信号か否かを設定する。
設定部908は、係数μが0に設定された場合、または、λ−μが閾値λTH以上の場合、出力信号の生成は背景音信号を重視していると判断し、出力音源を背景音信号とする。ここで閾値λTHは、例えば最大値λMAXの半分など、正の値であれば任意に設定できる。設定部908は、係数μが0ではなく、λ−μが閾値λTH未満の場合、出力音源は音声信号とする。また、設定部908は、出力する音源情報を、背景音信号に対する近さを表す一次元の値として設定してもよい。この場合、音源情報の値は、一定値を最大として、λ−μまたはλ/μに比例するように設定する。
次に、図15および図17を用いて、第4の実施形態の信号処理装置400の動作について説明する。なお、図17は、第4の実施形態の信号処理装置400の動作例を示すフローチャートである。
図17では、ステップS94およびステップS95が追加されたこと、および、ステップS96〜ステップS100の処理が、第3の実施形態の信号処理装置300の動作例を示す図14と異なっている。ステップS91〜ステップS93は、それぞれ図14のステップS81〜ステップS83と同様であるため、その説明を省略する。
ステップS94では、類似度算出部905は、第1類似度を初期化する。初期化の値としては例えば0に設定できる(ステップS94)。
次に、ステップS95では、設定部908は、出力信号の生成時に用いる係数λおよび係数μの値を用いて、出力音源を設定する(ステップS95)。
ステップS96では、抽出部904は、出力音源が背景音信号であるか否か、または背景音信号に対する近さを表す値の高さと、第1類似度の大きさに応じて、第1参照信号から、第2背景音信号を抽出する(ステップS96)。例えば、抽出部904は、第1類似度の大きさと出力音源の背景音信号に対する近さの重み付き線形和が高いときほど、処理を簡易化する。抽出部904は、例えば、(3)式の反復回数を削減することで処理を簡易化する。また、抽出部904は、音声を削減するようなバンドパスフィルタを用いることで処理を簡易化しても良い。
なお抽出部904は、例えば処理対象の時刻より前の時刻で算出された第1類似度(算出済類似度など)を用いて、処理を簡易化するか否かを制御する。
次いで、ステップS97では、抽出部904は、第1参照信号から音声信号を抽出する(ステップS97)。抽出部904は、抽出部604と同様の方法で音声信号を抽出すればよい。
ステップS98では、類似度算出部905は、差信号の特徴データ、第2背景音信号の特徴データおよび第1参照信号の特徴データを用いて第1類似度を算出する(ステップS98)。類似度算出部905は、類似度算出部105と同様の方法にて類似度を算出することができる。抽出部904、混合部906および第3背景音生成部907は、類似度算出部905が算出した最新の類似度を参照してそれぞれの処理を行う。
ステップS99では、第3背景音生成部907は、出力音源が背景音信号であるか否か、または背景音信号に対する近さを表す値の高さと、第1類似度の大きさに応じて、第1背景音信号から第3背景音信号を生成する(ステップS99)。例えば第3背景音生成部907は、第1類似度の大きさと出力音源の背景音信号に対する近さの重み付き線形和が低いときほど、処理を簡易化する。第3背景音生成部907は、第2背景音信号の抽出と同様の処理を行い、例えば、(3)式の反復回数を削減することで処理を簡易化する。また、第3背景音生成部907は、音声を削減するようなバンドパスフィルタを用いることで処理を簡易化しても良い。第3背景音生成部907は、差信号をそのまま第3背景音信号として出力することで処理を簡略化することもできる。
最後に、ステップS100では、混合部906は、第3背景音信号と第2背景音信号と音声信号との加重和を算出し、第1出力信号と第2出力信号を生成する(ステップS100)。混合部906は、設定部908にて使用した背景音信号の大きさを決定するための係数λと、音声信号の大きさを決定するための係数μを用いて、混合部706と同様に第1出力信号と第2出力信号を(21)式および(22)式で算出する。
このように、第4の実施形態の信号処理装置400は、出力信号に関わる、第3背景音信号、第2背景音信号および音声信号のうち、重みが高い信号の生成または抽出に関連する処理を優先することで、精度を保ちながら計算コストを削減することができる。
次に、第1から第4の実施形態にかかる信号処理装置のハードウェア構成について図18を用いて説明する。図18は、第1から第4の実施形態にかかる信号処理装置のハードウェア構成を示す説明図である。
第1から第4の実施形態にかかる信号処理装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1から第4の実施形態にかかる信号処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1から第4の実施形態にかかる信号処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1から第4の実施形態にかかる信号処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1から第4の実施形態にかかる信号処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1から第4の実施形態にかかる信号処理装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、200、300、400 信号処理装置
101 取得部
102 第1背景音算出部
103 第1信号生成部
104、604、904 抽出部
105、905 類似度算出部
106、606、706、906 混合部
301 第2信号生成部
302 レベル算出部
303 類似度生成部
504 類似度取得部
707、907 第3背景音生成部
908 設定部

Claims (18)

  1. 第1音響信号と第2音響信号とを取得する取得部と、
    前記第1音響信号と前記第2音響信号とに基づいて音声信号を除去した第1背景音信号を算出する第1背景音算出部と、
    前記第1音響信号と前記第2音響信号との少なくとも1つから第1参照信号を生成する第1信号生成部と、
    前記第1参照信号から音声信号を除去した第2背景音信号を抽出する抽出部と、
    前記第1背景音信号の特徴データと前記第2背景音信号の特徴データとが類似する度合いを表す第1類似度を算出する類似度算出部と、
    前記第1類似度が高いほど前記第1背景音信号に大きい重みを付与し、前記第1類似度が低いほど前記第2背景音信号に大きい重みを付与し、前記第1背景音信号と前記第2背景音信号の加重和を算出する混合部と、
    を備える信号処理装置。
  2. 前記第1背景音算出部は、前記第1音響信号と前記第2音響信号との差信号である第1背景音信号を算出する、
    請求項1に記載の信号処理装置。
  3. 前記第1信号生成部は、前記第1音響信号、前記第2音響信号、および、前記第1音響信号と前記第2音響信号との加重和、のうち1つである第1参照信号を生成する、
    請求項1又は2に記載の信号処理装置。
  4. 前記抽出部は、前記第1参照信号から音声信号をさらに抽出し、
    前記混合部は、前記第1背景音信号、前記第2背景音信号、および、抽出された音声信号の加重和を算出する、
    請求項1から3のいずれか一項に記載の信号処理装置。
  5. 前記第1背景音信号から音声信号をさらに除去した第3背景音信号を生成する第3背景音生成部をさらに備え、
    前記混合部は、前記第3背景音信号、前記第2背景音信号、および、抽出された音声信号の加重和を算出する、
    請求項4に記載の信号処理装置。
  6. 出力を重視する音源を示す音源情報を設定する設定部をさらに備え、
    前記抽出部は、前記音源情報と前記第1類似度に応じて、前記第1参照信号から音声信号を抽出し、
    前記第3背景音生成部は、前記第1類似度と前記音源情報に応じて、前記第3背景音信号を生成し、
    前記混合部は、前記音源情報が音声を重視することを示す場合に前記抽出された音声信号に大きい重みを付与し、前記音源情報が背景音を重視することを示す場合に前記第3背景音信号および前記第2背景音信号に大きい重みを付与する、
    請求項5に記載の信号処理装置。
  7. 前記抽出部は、前記音源情報が背景音を重視することを示し、かつ、前記第1類似度が閾値以上の場合に簡易な処理に切り替える、
    請求項6に記載の信号処理装置。
  8. 前記第3背景音生成部は、前記音源情報が音声を重視することを示す、または、前記第1類似度が閾値未満の場合に簡易な処理に切り替える、
    請求項6に記載の信号処理装置。
  9. 前記第3背景音生成部は、前記音源情報が音声を重視することを示す、または、前記第1類似度が閾値未満の場合に前記第1背景音信号を前記第3背景音信号として生成する、
    請求項6に記載の信号処理装置。
  10. 前記類似度算出部は、前記第1背景音信号の特徴データと前記第1参照信号の特徴データとが類似する度合いを表す第2類似度をさらに算出し、
    前記第2類似度に応じて前記第1類似度を補正する補正部を備える、
    請求項1に記載の信号処理装置。
  11. 前記類似度算出部は、第1時刻に算出された前記第1類似度である算出済類似度を取得する類似度取得部をさらに備え、
    前記補正部は、前記第1時刻より後の第2時刻に算出された前記第1類似度を補正する量を、前記算出済類似度が低いほど大きくする、
    請求項10に記載の信号処理装置。
  12. 前記類似度算出部は、
    前記第1背景音信号がノイズらしい度合いを示す非信頼度を算出する非信頼度算出部と、
    前記非信頼度に応じて前記第1類似度を補正する補正部と、を備える、
    請求項1に記載の信号処理装置。
  13. 前記類似度算出部は、
    単位時間内における前記第1背景音信号の大きさである第1背景音信号レベルと、前記単位時間内における前記第2背景音信号の大きさである第2背景音信号レベルと、を算出するレベル算出部と、
    前記第2背景音信号レベルに対する前記第1背景音信号レベルの比が大きいほど前記第1類似度を高く算出する類似度生成部と、を備える、
    請求項1に記載の信号処理装置。
  14. 前記類似度算出部は、前記第1参照信号と前記第2背景音信号との加重和である第3参照信号を生成する第2信号生成部を備え、
    前記類似度算出部は、前記第1背景音信号の特徴データと前記第3参照信号の特徴データとの類似度により前記第1類似度を算出する、
    請求項1に記載の信号処理装置。
  15. 前記類似度算出部は、第1時刻に算出された前記第1類似度である算出済類似度を取得する類似度取得部をさらに備え、
    前記第2信号生成部は、前記算出済類似度が大きいほど前記第2背景音信号に付与する重みを大きくする、
    請求項14に記載の信号処理装置。
  16. 前記類似度算出部は、
    単位時間内における前記第1背景音信号の大きさである第1背景音信号レベルと、前記単位時間内における前記第3参照信号の大きさである第3参照信号レベルと、を算出するレベル算出部と、
    前記第3参照信号レベルに対する前記第1背景音信号レベルの比が大きいほど前記第1類似度を高く算出する類似度生成部と、を備える、
    請求項14に記載の信号処理装置。
  17. 第1音響信号と第2音響信号とを取得する取得ステップと、
    前記第1音響信号と前記第2音響信号とに基づいて音声信号を除去した第1背景音信号を算出する第1背景音算出ステップと、
    前記第1音響信号と前記第2音響信号との少なくとも1つから第1参照信号を生成する第1信号生成ステップと、
    前記第1参照信号から音声信号を除去した第2背景音信号を抽出する抽出ステップと、
    前記第1背景音信号の特徴データと前記第2背景音信号の特徴データとが類似する度合いを表す第1類似度を算出する類似度算出ステップと、
    前記第1類似度が高いほど前記第1背景音信号に大きい重みを付与し、前記第1類似度が低いほど前記第2背景音信号に大きい重みを付与し、前記第1背景音信号と前記第2背景音信号の加重和を算出する混合ステップと、
    を含む信号処理方法。
  18. コンピュータを、
    第1音響信号と第2音響信号とを取得する取得部と、
    前記第1音響信号と前記第2音響信号とに基づいて音声信号を除去した第1背景音信号を算出する第1背景音算出部と、
    前記第1音響信号と前記第2音響信号との少なくとも1つから第1参照信号を生成する第1信号生成部と、
    前記第1参照信号から音声信号を除去した第2背景音信号を抽出する抽出部と、
    前記第1背景音信号の特徴データと前記第2背景音信号の特徴データとが類似する度合いを表す第1類似度を算出する類似度算出部と、
    前記第1類似度が高いほど前記第1背景音信号に大きい重みを付与し、前記第1類似度が低いほど前記第2背景音信号に大きい重みを付与し、前記第1背景音信号と前記第2背景音信号の加重和を算出する混合部、
    として機能させるためのプログラム。
JP2013235396A 2012-12-20 2013-11-13 信号処理装置、信号処理方法およびプログラム Active JP6203003B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013235396A JP6203003B2 (ja) 2012-12-20 2013-11-13 信号処理装置、信号処理方法およびプログラム
US14/135,806 US9412391B2 (en) 2012-12-20 2013-12-20 Signal processing device, signal processing method, and computer program product

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012277999 2012-12-20
JP2012277999 2012-12-20
JP2013235396A JP6203003B2 (ja) 2012-12-20 2013-11-13 信号処理装置、信号処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2014139658A true JP2014139658A (ja) 2014-07-31
JP6203003B2 JP6203003B2 (ja) 2017-09-27

Family

ID=50975667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013235396A Active JP6203003B2 (ja) 2012-12-20 2013-11-13 信号処理装置、信号処理方法およびプログラム

Country Status (2)

Country Link
US (1) US9412391B2 (ja)
JP (1) JP6203003B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105788609B (zh) * 2014-12-25 2019-08-09 福建凯米网络科技有限公司 多路音源的关联方法和装置及评定方法和系统
US10032475B2 (en) * 2015-12-28 2018-07-24 Koninklijke Kpn N.V. Enhancing an audio recording
JP6559576B2 (ja) * 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム
ITUA20164762A1 (it) * 2016-06-29 2017-12-29 Univ Politecnica Delle Marche Procedimento per la separazione e cancellazione di una componente vocale da un segnale audio.
CN106486128B (zh) * 2016-09-27 2021-10-22 腾讯科技(深圳)有限公司 一种双音源音频数据的处理方法及装置
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
CN108109619B (zh) * 2017-11-15 2021-07-06 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
JP7140542B2 (ja) * 2018-05-09 2022-09-21 キヤノン株式会社 信号処理装置、信号処理方法、およびプログラム
CN113571084B (zh) * 2021-07-08 2024-03-22 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07311585A (ja) * 1994-05-17 1995-11-28 Sony Corp ボーカルキャンセル回路
JP2002358087A (ja) * 2001-05-31 2002-12-13 Sony Corp 録音装置
JP2005308771A (ja) * 2004-04-16 2005-11-04 Nec Corp 雑音除去方法、雑音除去装置とシステム及び雑音除去用プログラム
US20070147623A1 (en) * 2005-12-22 2007-06-28 Samsung Electronics Co., Ltd. Apparatus to generate multi-channel audio signals and method thereof
WO2009038013A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 雑音除去システム、雑音除去方法および雑音除去プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6163608A (en) * 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
JP3381062B2 (ja) 1999-06-22 2003-02-24 日本マランツ株式会社 ステレオ信号処理装置
JP3670562B2 (ja) 2000-09-05 2005-07-13 日本電信電話株式会社 ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
JP5662276B2 (ja) 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07311585A (ja) * 1994-05-17 1995-11-28 Sony Corp ボーカルキャンセル回路
JP2002358087A (ja) * 2001-05-31 2002-12-13 Sony Corp 録音装置
JP2005308771A (ja) * 2004-04-16 2005-11-04 Nec Corp 雑音除去方法、雑音除去装置とシステム及び雑音除去用プログラム
US20070147623A1 (en) * 2005-12-22 2007-06-28 Samsung Electronics Co., Ltd. Apparatus to generate multi-channel audio signals and method thereof
WO2009038013A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 雑音除去システム、雑音除去方法および雑音除去プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中西 功: "変形DFT対に基づく逐次スペクトル検出を用いた音声重畳雑音除去", 信号処理, vol. VOL.16 NO.2, JPN6017028228, 27 March 2012 (2012-03-27) *

Also Published As

Publication number Publication date
US9412391B2 (en) 2016-08-09
US20140180685A1 (en) 2014-06-26
JP6203003B2 (ja) 2017-09-27

Similar Documents

Publication Publication Date Title
JP6203003B2 (ja) 信号処理装置、信号処理方法およびプログラム
CN109478400B (zh) 现场音乐表演的多媒体内容的基于网络的处理及分布
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
GB2543275A (en) Distributed audio capture and mixing
JP6054142B2 (ja) 信号処理装置、方法およびプログラム
KR102212225B1 (ko) 오디오 보정 장치 및 이의 오디오 보정 방법
US11146907B2 (en) Audio contribution identification system and method
CN114067827A (zh) 一种音频处理方法、装置及存储介质
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
JP2022130736A (ja) データ処理装置、及びデータ処理方法。
CN110739006B (zh) 音频处理方法、装置、存储介质及电子设备
US11716586B2 (en) Information processing device, method, and program
JP6233625B2 (ja) 音声処理装置および方法、並びにプログラム
EP3920049A1 (en) Techniques for audio track analysis to support audio personalization
Lee et al. Real-Time Sound Synthesis of Audience Applause
US20230353800A1 (en) Cheering support method, cheering support apparatus, and program
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
US10602301B2 (en) Audio processing method and audio processing device
JP7499459B2 (ja) 制御装置、制御方法、および、プログラム
Hilmkil et al. Perceiving music quality with gans
EP3613043A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
CN108932953A (zh) 一种音频均衡函数确定方法、音频均衡方法及设备
JP2023116109A (ja) 情報処理装置、情報処理システムおよび情報処理方法
JP2001236084A (ja) 音響信号処理装置及びそれに用いられる信号分離装置
CN117222364A (zh) 用于听力训练的方法和设备

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170829

R151 Written notification of patent or utility model registration

Ref document number: 6203003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350