JP2012019454A - 音声信号処理装置、方法、プログラム、及び記録媒体 - Google Patents

音声信号処理装置、方法、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP2012019454A
JP2012019454A JP2010156787A JP2010156787A JP2012019454A JP 2012019454 A JP2012019454 A JP 2012019454A JP 2010156787 A JP2010156787 A JP 2010156787A JP 2010156787 A JP2010156787 A JP 2010156787A JP 2012019454 A JP2012019454 A JP 2012019454A
Authority
JP
Japan
Prior art keywords
signal
uncorrelated
audio signal
unit
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010156787A
Other languages
English (en)
Other versions
JP5307770B2 (ja
Inventor
Sumio Sato
純生 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2010156787A priority Critical patent/JP5307770B2/ja
Priority to US13/808,167 priority patent/US9071215B2/en
Priority to PCT/JP2011/063043 priority patent/WO2012005074A1/ja
Publication of JP2012019454A publication Critical patent/JP2012019454A/ja
Application granted granted Critical
Publication of JP5307770B2 publication Critical patent/JP5307770B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Abstract

【課題】2チャネル分の音声信号から、臨場感を高める音声信号成分を分離して減圧または増圧することが可能な音声信号処理装置を提供する。
【解決手段】音声信号処理装置(音声信号処理部20で例示)は、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する信号抽出部(信号分離抽出部23で例示)と、信号抽出部で抽出された信号を増加または減少させる無相関信号増減部(ゲイン調整部25a,25bで例示)と、無相関信号増減部で増加または減少させた信号を、入力音声信号に加算する音声信号加算部とを備える。
【選択図】図2

Description

本発明は、複数のスピーカで再生するための音声信号を処理する音声信号処理装置、方法、プログラム、及び記録媒体に関する。
従来から、音楽の再生時において臨場感を高めるための音響信号処理方法が提案されている(例えば、特許文献1を参照)。
特許文献1に記載の技術は、残響成分を人工的に生成してそれを付加することによって、残響音の割合を大きくしている。この技術により、音楽コンテンツによっては、例えばホールで聴いているかのような残響感が付加されることによって、臨場感を高めることができる。
特開平6−43890号公報
特許文献1に記載の技術を、テレビ番組の視聴に適用することを考える。テレビ番組のコンテンツの種類は、音楽番組だけでなく、スポーツ番組やニュース番組、ドラマ、映画など多岐に亘る。それらのテレビ番組のコンテンツに対し、残響音を生成し付加したとしても臨場感は高まらないことは、例えば屋外スポーツに残響音が付加されることを考えても明らかである。すなわち、特許文献1に代表されるような残響生成付加による技術は、テレビ番組の視聴において臨場感を高める手段としては非常に限定的な効果しか奏しない。
また、従来から提案されている音響再生方式には、ステレオ(2ch)方式、5.1chサラウンド方式(ITU−R BS.775−1)、7.1ch、9.1ch、22.2chなどがあるが、現在、音声や楽音コンテンツとして最も普及しているチャネル数は2ch(ステレオ)方式であって、一般的に、テレビコンテンツの音声信号もステレオ(2ch)である場合が殆どである。そして、残響成分や、あるいはそのほかの臨場感を高める要素としての音声信号は、ステレオ音声信号の中に混ざって入っている。
本発明は、上述のような実状に鑑みてなされたものであり、その目的は、ステレオ記録された音声または楽音コンテンツなどに含まれる2チャネル分の音声信号から、臨場感を高める音声信号成分を分離して減圧または増圧することが可能な音声信号処理装置、方法、プログラム、及び記録媒体を提供することにある。
上述したような課題を解決するために、本発明の第1の技術手段は、2つのチャネルの無相関信号を増減させる音声信号処理装置であって、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する信号抽出部と、該信号抽出部で抽出された無相関信号を増加または減少させる無相関信号増減部と、該無相関信号増減部で増加または減少させた信号を、前記入力音声信号に加算する音声信号加算部とを備えたことを特徴としたものである。
第2の技術手段は、第1の技術手段において、前記無相関信号増減部における増加または減少の度合いを変更するユーザ操作を受け付けるためのユーザインタフェースと、該ユーザインタフェースで受け付けられたユーザ操作に従って、前記増加または減少の度合いを示すパラメータを変更するパラメータ制御部とをさらに備えたことを特徴としたものである。
第3の技術手段は、第2の技術手段において、前記ユーザインタフェースは、前記無相関信号増減部における減少の度合いを負の値で表現し、増加の度合いを正の値で表現することを特徴としたものである。
第4の技術手段は、2つのチャネルの無相関信号を増減させる音声信号処理方法であって、信号抽出部が、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する抽出ステップと、無相関信号増減部が、前記抽出ステップで抽出された無相関信号を増加または減少させる増減ステップと、音声信号加算部が、前記増減ステップで増加または減少させた信号を、前記入力音声信号に加算する加算ステップと、を有することを特徴としたものである。
第5の技術手段は、コンピュータに、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する抽出ステップと、該抽出ステップで抽出された無相関信号を増加または減少させる増減ステップと、該増減ステップで増加または減少させた信号を、前記入力音声信号に加算する加算ステップと、を実行させるためのプログラムである。
第6の技術手段は、第5の技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、ステレオ記録された音声または楽音コンテンツなどに含まれる2チャネル分の音声信号から、臨場感を高める音声信号成分を分離して減圧または増圧することが可能になる。
本発明に係る音声信号処理装置を備えた音声データ再生装置の一構成例を示すブロック図である。 図1の音声データ再生装置における音声信号処理部の一構成例を示すブロック図である。 図2の音声信号処理部において音声データをバッファに蓄える様子を示す図である。 図1のユーザインタフェース制御部により表示デバイスに表示させるグラフィカルユーザインタフェース(GUI)画面の一例を示す図である。 図2の後処理部に入力される音声信号の波形の一部を拡大した図である。 左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。 図2の後処理部で施される不連続点除去処理の一例を説明するための模式図である。 図5の音声信号に対し、図7の不連続点除去処理を施した結果を示す図である。
本発明に係る音声信号処理装置は、相関がない信号が臨場感を表していることを利用し、2つの音声信号中の無相関信号を抽出して増加または減少させる装置であって、音声データ再生装置に組み込むことができる。なお、音声信号とは、当然、いわゆる音声を記録した信号に限ったものではなく、音響信号とも呼べる。
以下、図面を参照しながら、本発明に係る音声信号処理装置の構成例及び処理例について説明する。図1は、本発明に係る音声信号処理装置を備えた音声データ再生装置の一構成例を示すブロック図で、図2は、図1の音声データ再生装置における音声信号処理部の一構成例を示すブロック図である。また、図3は、図2の音声信号処理部において音声データをバッファに蓄える様子を示す図である。
図1で例示する音声データ再生装置10は、デコーダ11、音声信号抽出部12、音声信号処理部13、D/Aコンバータ14、増幅器15、スピーカ16、パラメータ制御部17、ユーザインタフェース制御部18、表示デバイス19a、及び入力デバイス19bから構成される。本発明に係る音声信号処理装置は、主に音声信号処理部13で構成され、好ましい構成例ではパラメータ制御部17、ユーザインタフェース制御部18、表示デバイス19a、及び入力デバイス19bを備える。
デコーダ11は、音声のみあるいは音声付き映像のコンテンツを復号化し、信号処理可能な形式に変換し音声信号抽出部12に出力する。そのコンテンツは、放送局から送信されたデジタル放送のコンテンツや、ネットワークを介してディジタルコンテンツを配信するサーバからインターネットからダウンロードしたり、あるいは外部記憶装置等の記録媒体から読み込んだりすることによって取得する。このように、図1では図示しないが、音声データ再生装置10は、マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部を備える。デコーダ11は、ここで入力されたディジタルコンテンツを復号化することになる。音声信号抽出部12では、得られた信号から音声信号を分離、抽出する。ここではそれは2chステレオ信号とする。その2チャネル分の信号を音声信号処理部13に出力する。
ユーザインタフェース制御部18では、ユーザが例えば表示デバイス19aに表示するGUI(Graphical User Interface)を介し、入力デバイス19bであるマウスやキーボード、リモートコントローラ、タッチパネル、あるいはボタン操作などによって入力した入力信号を取得し、パラメータ制御部17に出力する。パラメータ制御部17では入力された信号を、音声信号処理部13での処理に関するパラメータ群に変換し、それらを音声信号処理部13に出力する。
音声信号処理部13では、2チャネル信号から無相関信号を抽出し、その無相関信号について、パラメータ制御部17から入力されたパラメータを用いて、無相関信号の増圧または減圧(抑圧)の度合いを調整する。なお、増圧(または減圧)の度合いとは、無相関信号を増加(または減少)させる度合いを指す。
そして、(I)無相関信号に対して増圧または減圧を実行した結果として得られた音声信号に、元の入力音声信号を加算して、D/Aコンバータ14に出力するようにしてもよい。同等の処理として、(II)無相関信号に対して増圧または減圧を実行した結果として得られた音声信号に、抽出(分離)により残った信号(つまり相関信号)を加算して、D/Aコンバータ14に出力するようにしてもよい。また、同等の処理として、(III)無相関信号への増圧または減圧する分(増圧分または減圧分)の音声信号に、元の入力音声信号を加算して、D/Aコンバータ14に出力してもよい。
上記(I)の例では、加算する入力音声信号に元々無相関信号が含まれることを考慮して、増圧または減圧しておけばよい。以下の説明では上記(I)の処理を採用した例を示すが、上記(I)〜(III)の処理は、いずれも、増圧または抑圧を元の入力音声信号に反映させており、単にパラメータの値が違うだけとも言えるため、同義である。
D/Aコンバータ14では得られた信号をアナログ信号に変換し、左右それぞれの信号を増幅器15に出力する。各増幅器15では入力されたアナログ信号を拡声し各スピーカ16に伝送し、各スピーカ16から空間中に音として出力される。
図1における音声信号処理部13の詳細な構成を、図2を参照しながら説明する。本発明に係る音声信号処理装置は、2つのチャネルの無相関信号を増減させる装置である。そのために、本発明に係る音声信号処理装置(音声信号処理部20で例示)は、次の信号抽出部及び無相関信号増減部を備える。図2で例示する音声信号処理部20は、前処理部21、離散フーリエ変換部22、信号分離抽出部23、ゲイン調整部25a,25b、合成部26、離散フーリエ逆変換部(逆離散フーリエ変換部)27、そして後処理部28から構成される。
前処理部21では音声データを読み込み、窓関数演算を行う。離散フーリエ変換部22ではその信号を時間領域の表現から周波数領域の表現に変換する。上述した信号抽出部は、2つのチャネルの入力音声信号から2つのチャネル間の無相関信号を分離する部位であり、無相関信号抽出部とも言え、信号分離抽出部23で例示できる。信号分離抽出部23では、音声信号を相関信号と左右チャネルそれぞれから分離される無相関信号に分離する。ゲイン調整部25a,25bは、左チャネル無相関信号、右チャネル無相関信号それぞれについてスケーリング処理(ゲイン係数乗算処理)を行う。この例ではゲイン調整部25a,25bは、増加または減少させた結果を出力する。ゲイン調整部25a,25bは上述の無相関信号増減部の一例である。
合成部26は、ゲイン調整部25a,25b及び離散フーリエ変換部22からの出力を、チャネル毎に全て合成し、チャネル毎の再割り当て後の信号として、離散フーリエ逆変換部27に出力する。なお、合成部26は、3つの音声信号を加算処理(つまり重ね合わせ処理)するため、加算部あるいは重ね合わせ部とも言える。離散フーリエ逆変換部27は、入力されたスケーリング後の音声信号を再び時間領域に戻し、後処理部28へ出力する。後処理部28は、ノイズ除去を施して信号を図1のD/Aコンバータ14に出力する。
以下、音声信号処理部20における各部について、具体的な処理例を説明する。
まず、前処理部21は、1セグメントの半分の長さの音声データを、図1における音声信号抽出部12から読み出す。ここで、音声データとは、例えば48kHzなどの標本化周波数で標本化された2チャネルの離散音声信号波形を指すものとする。そして、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとする。その値は例えば1024とする。この例では、1セグメントの半分の長さである512点の音声データが読み出し対象となる。
読み出した512点の音声データは図3で例示するようなバッファ30に蓄えられる。このバッファは、直前の1セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の半セグメント分のデータと最新の半セグメント分のデータを繋げて1セグメント分の音声データを作成し、その信号に対し、窓関数演算を行う。すなわち、全ての標本データは窓関数演算に2回読み込まれることになる。
窓関数演算では、従来提案されている次のHann窓を1セグメント分の音声データに乗算する。
Figure 2012019454
ここで、mは自然数、Mは1セグメント長で偶数とする。ステレオの入力信号をそれぞれx(m)、x(m)とすると、窓関数乗算後の音声信号x′(m)、x′(m)は、
x′(m)=w(m)x(m) 、
x′(m)=w(m)x(m) (2)
と計算される。このHann窓を用いると、例えば標本点m(ただし、M/2≦m<M)の入力信号x(m)にはsin((m/M)π)が乗算される。そして、その次の回の読み込みではその同じ標本点がm−M/2として読み込まれるので、
Figure 2012019454
が乗算される。ここで、sin((m/M)π)+cos((m/M)π)=1であるから、もし、何も修正を加えずに読み込んだ信号を半セグメントずつずらして加算すれば、元の信号が完全に復元されることになる。
離散フーリエ変換部22について説明する。離散フーリエ変換部22は、そうして得られた音声データを次の数式(3)のように離散フーリエ変換し、周波数領域の音声データを得る。ここで、DFTは離散フーリエ変換を表し、kは自然数で、0≦k<Mである。X(k)、X(k)は複素数となる。
(k)=DFT(x′(n)) 、
(k)=DFT(x′(n)) (3)
次に、信号分離抽出部23での処理について説明する。まず、得られた周波数領域の音声データを小さい帯域に分割する。分割方法についてはEquivalent Rectangular Bandwidth(ERB)を用い、ERBの帯域幅で0Hzから標本化周波数の1/2の周波数までの間を分割する。ここで、ERBにより、与えられた周波数の上限fmax[Hz]までをいくつに分割するか、すなわちERBで分割した各帯域の索引の最大値Iは次式によって与えられる。
I=floor(21.4log10(0.00437fmax+1)) (4)
ただし、floor(a)はフロア関数で、実数aを越えない整数の最大値を表す。
そして、それぞれのERB幅の帯域(以下、小帯域)の中心周波数F (i)(1≦i≦I)[Hz]は次式によって与えられる。
Figure 2012019454
また、その時のERBの帯域幅b(i)[Hz]は次式によって求められる。
(i)=24.7(0.00437F (i)+1) (6)
よって、その中心周波数から低域側と高域側にそれぞれERB/2の周波数幅だけシフトすることによりi番目の小帯域の両側の境界周波数F (i)、F (i)を求めることができる。したがって、i番目の小帯域には、K (i)番目の線スペクトルからK (i)番目の線スペクトルが含まれる。ここで、K (i)、K (i)はそれぞれ次の数式(7)、(8)で表される。
(i)=ceil(21.4log10(0.00437F (i)+1)) (7)
(i)=floor(21.4log10(0.00437F (i)+1)) (8)
ただし、ceil(a)は天井関数で、実数aより小さくならない整数の最小値を表す。また、離散フーリエ変換した後の線スペクトルは、直流成分すなわち例えばX(0)を除いて、M/2(ただし、Mは偶数)を境に対称となっている。すなわち、X(k)とX(M−k)は0<k<M/2の範囲で複素共役の関係になる。したがって、以下ではK (i)≦M/2の範囲を分析の対象として考え、k>M/2の範囲については複素共役の関係にある対称の線スペクトルと同じ扱いとする。
これらの具体例を示す。例えば、標本化周波数が48000Hzの場合、I=49となり、49の小帯域に分割することとなる。ただし、直流成分は分割の対象とせず、どの小帯域にも含まないこととする。なぜならば、以下の方式では左右チャネルの正規化相関係数を求めるが、直流成分は複素数の実部しか持たないために正規化相関係数が1となるため、左右チャネルの直流成分が全て相関係数に割り当てられるという不適当な処理になってしまうからである。また、最も高い小帯域区間よりもさらに上の周波数に相当する線スペクトル成分も存在するが、それらは聴感上の影響も殆ど無く、さらに通常は値が微小であるため、それらは最も高い小帯域区間に含めることとして差し支えない。
次に、このようにして決定される各小帯域において、左チャネルと右チャネルの正規化相関係数を次式で求めることで、相関係数を取得する。
Figure 2012019454
この正規化相関係数d(i)は左右のチャネルの音声信号にどれだけ相関があるかを表すものであり、0から1の間の実数の値をとる。全く同じ信号同士であれば1、そして全く無相関の信号同士であれば0となる。ここで、左右のチャネルの音声信号の電力P (i)とP (i)の両方が0である場合、その小帯域に関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の小帯域の処理に移ることとする。また、P (i)とP (i)のいずれか片方が0である場合、数式(9)では演算不可能であるが、正規化相関係数d(i)=0とし、その小帯域の処理を続行する。
次に、信号分離抽出部23は、この正規化相関係数d(i)を用いて、左右チャネルの音声信号から左右の無相関信号を分離抽出するための変換係数を求め、それぞれの変換係数を用いて、左右チャネルの音声信号から無相関信号を分離抽出する。無相関信号は、いずれも推定した音声信号として抽出すればよい。
ここで、左右チャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については左右から同じ信号が出力されるものとするモデルを採用する。そして、左右から出力される相関信号によって合成される音像は、その相関信号の左右それぞれの音圧のバランスによって方向が決定されるものとする。そのモデルに従うと、入力信号x(n)、x(n)は、
(m)= s(m)+n(m)、
(m)=αs(m)+n(m) (13)
と表される。ここで、s(m)は左右の相関信号、n(m)は左チャネルの音声信号から相関信号s(m)を減算したものであって(左チャネルの)無相関信号として定義できるもの、n(m)は右チャネルの音声信号から相関信号s(m)を減算したものであって(右チャネルの)無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。
数式(13)により、数式(2)で前述した窓関数乗算後の音声信号x′(m)、x′(m)は、次の数式(14)で表される。ただし、s′(m)、n′(m)、n′(m)はそれぞれs(m)、n(m)、n(m)に窓関数を乗算したものである。
x′(m)=w(m){ s(m)+n(m)}= s′(m)+n′(m)、
x′(m)=w(m){αs(m)+n(m)}=αs′(m)+n′(m)
(14)
数式(14)を離散フーリエ変換することによって、次の数式(15)を得る。ただし、S(k)、N(k)、N(k)はそれぞれs′(m)、n′(m)、n′(m)を離散フーリエ変換したものである。
(k)= S(k)+N(k)、
(k)=αS(k)+N(k) (15)
したがって、i番目の小帯域における音声信号X (i)(k)、X (i)(k)は、
(i)(k)= S(i)(k)+N (i)(k)、
(i)(k)=α(i)(i)(k)+N (i)(k)
ただし、K (i)≦k≦K (i) (16)
と表現される。ここで、α(i)はi番目の小帯域におけるαを表す。以後、i番目の小帯域における相関信号S(i)(k)、無相関信号N (i)(k)、N (i)(k)をそれぞれ、
(i)(k)=S(k)、
(i)(k)=N(k)、
(i)(k)=N(k)
ただし、K (i)≦k≦K (i) (17)
とおくこととする。
数式(16)から、数式(12)の音圧P (i)とP (i)は、
(i)=P (i)+P (i)
(i)=[α(i) (i)+P (i) (18)
と表される。ここで、P (i)、P (i)はi番目の小帯域におけるそれぞれ相関信号、無相関信号の電力であり、
Figure 2012019454
と表される。ここで、左右の無相関信号の音圧は等しいと仮定している。
また、数式(10)〜(12)より、数式(9)は、
Figure 2012019454
と表すことができる。ただし、この算出においてはS(k)、N(k)、N(k)が互いに直交し、かけ合わされたときの電力は0と仮定している。
数式(18)と数式(20)を解くことにより、次の式が得られる。
Figure 2012019454
これらの値を用いて、各小帯域における無相関信号を推定する。i番目の小帯域における左チャネルの無相関信号N (i)(k)に対する推定値est(N (i)(k))を、媒介変数μ、μを用いて、
est(N (i)(k))=μ (i)(k)+μ (i)(k) (23)
とおくと、推定誤差εは、
ε=est(N (i)(k))−N (i)(k) (24)
と表される。ここで、est(A)はAの推定値を表すものとする。そして二乗誤差εが最少になるとき、εとX (i)(k)、X (i)(k)はそれぞれ直交するという性質を利用すると、
E[ε・X (i)(k)]=0 、 E[ε・X (i)(k)]=0 (25)
という関係が成り立つ。数式(16)、(19)、(21)〜(24)を利用すると、数式(25)から次の連立方程式が導出できる。
(μ+μα(i))P (i)+(μ−1)P (i)=0
α(i)(μ+μα(i))P (i)+μ (i)=0
(26)
この数式(26)を解くことによって、各媒介変数が次のように求まる。
Figure 2012019454
さらに、i番目の小帯域における右チャネルの無相関信号N (i)(k)に対する推定値est(N (i)(k))も、媒介変数μ、μを用いて、
est(N (i)(k))=μ (i)(k)+μ (i)(k) (28)
とおくことができ、媒介変数μ、μは、媒介変数μ、μと同様にして次のように求まる。
Figure 2012019454
ここで、このようにして求まる推定値est(N (i)(k))、est(N (i)(k))について、電力Pest(N) (i)が、数式(23)、(28)の両辺を二乗して求まる次の式
est(N) (i)=(μ+α(i)μ (i)+(μ +μ )P (i)
=(μ+α(i)μ (i)+(μ +μ )P (i) (30)
を満たす必要があるため、これらの式から推定値を次式のようにスケーリングする。なお、est′(A)はAの推定値をスケーリングしたものを表す。
Figure 2012019454
以上のように、信号分離抽出部23は、上記変換係数として、数式(27)、(29)で示した各媒介変数μ〜μ及び数式(31)、(32)で示したスケーリングの係数で構成される変換係数を用いて、演算(数式(23)、(28))により推定することで、右チャネルの無相関信号、左チャネルの無相関信号を分離し、出力する。出力について具体的に説明すると、信号分離抽出部23は、左チャネルより分離された無相関信号est′(N (i)(k))を左チャネル用のゲイン調整部25aに出力し、右チャネルより分離された無相関信号est′(N (i)(k))を右チャネル用のゲイン調整部25bに出力する。
ゲイン調整部25a,25bにおける増減の処理は、デフォルト値に基づく増減処理であってもよいが、ユーザインタフェースによるユーザ操作に基づいて設定したパラメータを用いた処理と同様であり、後述するユーザ操作に基づいた具体例を援用すれば理解できるため、デフォルト値に基づく増減処理についての説明は省略する。
以下、デフォルト値の代わりに、より好ましい例として、無相関信号が増圧または減圧すべき信号であるかどうかを、ユーザが入力した値に基づいて判断する場合を挙げて説明する。
まず、図1におけるユーザインタフェースとパラメータ制御部17について、図4を参照しながら詳細に説明する。図4は、図1のユーザインタフェース制御部18により表示デバイス19aに表示させるグラフィカルユーザインタフェース(GUI)画面の一例を示す図である。以下に説明するユーザインタフェースは、表示デバイス19a、入力デバイス19b、及びユーザインタフェース制御部18でなり、以下に説明するようなユーザインターフェースの各種処理は、ユーザインタフェース制御部18が表示デバイス19a及び/または入力デバイス19bを制御することで施される。
図4で例示するGUI画面40は、ユーザインタフェース制御部18が、表示デバイス19aに表示する画面の一例を示したものである。GUI画面40は、例えばユーザが設定メニューから音質調整の項目を、リモコンなどを操作することによって選択した際に表示されるものとする。GUI画面40は、高音を調整するためのスライダ41、低音を調整するためのスライダ42、左右のバランスを調整するためのスライダ43、及び背景効果音の増減を調整するためのスライダ44を含んでいる。各スライダ41,42,43,44にはそれぞれ調整用のツマミ41a,42a,43a,44aが移動可能に表示されている。
ユーザはリモコンなどの上下キーを操作することによって、背景効果音のスライダ44をハイライト表示させ、その際に同じくリモコンなどの左右キーを操作することのよって、ツマミ44aを左右に移動させる。この例ではその可変段階を−15から15までの31段階としており、背景効果音の下には現在設定されている数字が表示される。その数字を上げるほど、すなわちツマミ44aを右側に移動するほど上述の無相関信号成分を増加させる。逆にその数字を下げるほど、すなわちツマミ44bを左側に移動するほど無相関信号成分を減少させる。
このように、ユーザインタフェースは、無相関信号増減部における減少の度合いを負の値で表現し、増加の度合いを正の値で表現することが好ましい。GUI画面40では、スライダ41〜43も含めた例を示したが、当然これらのスライダ41〜43がなくてもよい。また、GUI画面40のスライダ44において、左右両端の数字は単に調整ステップの段階数を表しているものであるが、デシベル表示などを用いてもよい。
このようにして入力されたツマミ44aの値を、音声信号処理部13(20)で使用する、無相関信号の増減の程度を表すためのゲイン値に変換する。ツマミの値をrとし、変換後のゲイン値をr′とすると、例えばツマミの上下を聴感上の音量の程度に比例させるために、次式を採用してもよい。ここで、κは自然数でここでは例えば15である。
Figure 2012019454
このようにして、gを求める。パラメータ制御部17は以上のように、音声信号処理部13に必要なパラメータを算出し、音声信号処理部13に出力する。
音声信号処理部13では、左右チャネルの信号を生成する。数式(33)で求めたgを無相関信号の割り当てゲインとし、次式のようにi番目の小帯域における出力音声信号Y (i)(k)、Y (i)(k)を求める。
(i)(k)=X (i)(k)+g (i)(k)
(i)(k)=X (i)(k)+g (i)(k) (34)
これから分かるように、ゲインgの値に応じて左右チャネルの音声信号に対し、無相関信号が増減される。数式(33)を用いる場合、ゲインgの値の範囲は−1≦g≦1となるので、数式(16)から無相関信号成分の項がそれぞれ0≦g (i)(k)≦2N (i)(k)、0≦g (i)(k)≦2N (i)(k)の範囲をとる。すなわち、ツマミ54aの値によって、無相関信号が0まで減圧されるところから、2倍に増圧されるところまで変化させることが可能となる。なお、数式(34)では、X (i)(k)にN (i)(k)が、X (i)(k)にN (i)(k)がそれぞれ値として含まれているため、0〜2倍になる。
以上のようにして、i番目の小帯域における、左右チャネルの無相関信号の増圧処理または抑圧処理後の再割り当てが行われる。これを全ての小帯域について行う。この再割り当ては、左チャネルについて、ゲイン調整部25aによりゲインとスケーリング係数が乗算されることで割り当てられた信号と元の左チャネルの信号である離散フーリエ変換部22からの出力信号とを合成部26で合成し、右チャネルについて、ゲイン調整部25bによりゲインとスケーリング係数が乗算されることで割り当てられた信号と元の右チャネルの信号である離散フーリエ変換部22からの出力信号とを合成部26で合成することでなされる。その結果、両チャネルそれぞれについて小帯域ごとの音声信号を加算することによって、左右チャネルに対する周波数領域の出力音声信号Y(k)、Y(k)が求まり、合成部26はそれらの信号を離散フーリエ逆変換部27に出力する。
そして、離散フーリエ逆変換部27において、各チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号y′(m)、y′(m)が求まる。ここで、DFT−1は離散フーリエ逆変換(逆離散フーリエ変換)を表す。
y′(m)=DFT−1(Y(k))
y′(m)=DFT−1(Y(k)) (35)
ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号y′(m)、y′(m)も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述した通り、1つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。
次に、後処理部28について説明する。後処理部28はノイズ除去処理を行う。図5を参照して、ノイズ除去の対象となるノイズについて説明する。図5は、図2の後処理部28に入力される音声信号の波形の一部を拡大した図である。図5に示す音声信号50は、中央付近51にあるように不連続点が生じている。このような不連続点は、信号分離抽出部23を経ることにより後処理部28に入力されるデータに多数含まれてしまうため、それらが再生時に耳障りなノイズとして知覚されてしまうことになる。このような不連続点は、この音声信号処理方式が直流成分を無視して処理するため、すなわち直流成分の線スペクトルを考慮しないために生じる。
図6はそれを模式的に示した波形のグラフである。より詳細には、図6は、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。図6に示すグラフ60において、横軸は時間を表しており、例えば(M−2)(l)という記号は、l番目のセグメントのM−2番目の標本点であることを示している。グラフ60の縦軸は、それらの標本点に対する出力信号の値である。このグラフ60から分かるように、l番目のセグメントの最後から(l+1)番目のセグメントの最初にかけての部分で不連続点が生じてしまう。
この問題に対し、ノイズ除去処理を行う。この処理は、波形の不連続点をなくすことによってノイズを除去できる方法であればどのようなものでもよいが、ここでは図7及び図8を参照して、図6で説明したような問題を解決するためのこのような処理の一例について具体的に説明する。図7は、図2の後処理部28で施される不連続点除去処理の一例を説明するための模式図で、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。また、図8は、図5の音声信号に対し、図7の不連続点除去処理を施した結果を示す図である。
後処理部28で施される不連続点除去処理の例では、図7のグラフ70で図6のグラフ60に対する除去例を示すように、l番目のセグメントの最後の波形の微分値と(l+1)番目のセグメントの先頭の微分値が一致するようにする。具体的には後処理部28が、l番目のセグメントの最後の2点による傾きが維持されるような(l+1)番目のセグメントの先頭の値となるよう、(l+1)番目のセグメントの波形に直流成分(バイアス)を加える。その結果、処理後の出力音声信号y″(m)は、
y″(m)=y′(m)+B (36)
となる。Bはバイアスを表す定数であり、1回前の出力音声信号と今回の処理の出力音声信号が出力バッファで加算された後、図7のグラフ70のように波形が連続するように決定される。
このように、後処理部28は、処理セグメントの境界において波形の微分値を維持させるように離散フーリエ逆変換後の音声信号に直流成分を加算することで、不連続点を除去することが好ましい。なお、この例ではマイナスのバイアスをかけているが、当然、上記微分値を一致させるためにはプラスのバイアスをかける場合もある。また、後処理部28で処理対象となる離散フーリエ逆変換後の音声信号は、各数式で例示したように、無相関信号に対して、時間領域あるいは周波数領域においてスケーリング処理を行い、そのスケーリング処理後の音声信号とする。つまり、無相関信号に対しスケーリング処理を施し、スケーリング処理後の無相関信号に対し、不連続点の除去を行う。
また、図7で説明した不連続点除去処理のみでは、バイアス成分が蓄積してしまい、波形の振幅がオーバフローしてしまうことがある。
したがって、次式のように、加算するバイアス成分(直流成分)の振幅の大きさを時間的に減少させることにより収束させることが好ましい。なお、「時間的に減少させる」とは、加算時点からの経過時間、例えば処理セグメント毎の開始点や不連続点の開始点からの経過時間に比例して減少させることを意味する。
y″(m)=y′(m)+B×((M−mσ)/M) (37)
ただし、σはその減少の程度を調整するパラメータであり、例えば0.5などとする。なお、減少のためにはB,σはいずれも正とする。さらに、加算用に求めたバイアスの値の絶対値がある一定以上となった場合には、その値に応じてσを動的に増減させるなどしてもよい。増減させるタイミングは次の処理セグメントでよい。これに限らず、減少させるための比例定数に相当するσを、バイアス値の絶対値(直流成分の振幅の大きさ)に応じて変更する(変化させる)ようにしておけば、フィードバック機能が働き、同様の効果が得られる。ただ、これらの方法では音声波形の振幅がオーバフローしないことを保障するものではない。
よって、例えばバイアス値がある一定(所定値)以上の値になった場合には、数式(37)の第二項のバイアス項を加算しないようにする処理を安全弁の機能として加えてもよい。つまり、後処理部28は、加算するために求めた直流成分の振幅が所定値未満である場合のみ、直流成分の加算を実行する(不連続点の除去を実行する)ことが好ましい。この方法を採用することにより、バイアス成分が蓄積しないようになる。
また、例えば音声の子音部分など、音声信号がホワイトノイズに近いような場合、音声信号波形の変化が激しく元の波形が既に不連続に近いような状態になっているものがある。このような音声信号に上述した不連続点除去処理を適用すると、逆に波形を歪ませてしまう場合もある。つまり、元の波形が不連続に近いような状態の音声信号に対し、上述した不連続点除去処理を適用すると、この処理がそのような元々不連続の状態に近い波形を無理矢理連続にしようとするため、逆に波形を歪ませてしまう可能性がある。
この問題を解消するために、後処理部28では次に示す方法で不連続点除去処理(ノイズ除去処理)を行うことが好ましい。それは、音声の子音部分など信号がホワイトノイズに近いような場合、入力音声信号の波形が所定時間内(例えば処理セグメント内やその半分内)で0を交差する回数が、その他の部分に比べて極端に増加することを利用する。なお、0をどこに採るようにするかは任意に決めておけば済む。よって、出力音声信号(少なくとも離散フーリエ逆変換後の音声信号)が半セグメント長の中で0を交差する回数をカウントし、それが一定の値(所定回数)以上である場合には、その次のセグメントを所定回数以上存在する箇所とみなし、その次のセグメント処理において、数式(36)や数式(37)における右辺第二項のバイアス項を加算しないこととする。つまり、それ以外の箇所でのみ不連続点除去処理を実行する。なお、カウントは、セグメント境界とは関係なく一定時間の音声波形について実行してもよいし、複数のセグメント処理分の音声波形について実行してもよく、いずれの場合にもそのカウント結果から次のセグメント処理でバイアス項を加算するか否かを決めればよい。
図5の音声信号50における不連続点の箇所(中央付近51)は、上述したようなノイズ除去処理により、図8の音声信号80で示す通り、不連続点が解消され連続になっていることが分かる。このように不連続点を無くし、ノイズを除去できる。
また、放送コンテンツや音楽コンテンツにおいて、本発明を用いて抽出される無相関信号は通常、残響音や背景音成分であることが多い。この性質を利用して、上述のように無相関信号の抽出レベルを相対的に相関信号の抽出レベルよりも上げることによって、例えばスポーツ番組の観客の声援を強調し、臨場感を向上させて番組を視聴することが可能となる。この調整方法を、プリセット機能の1つとしてテレビに搭載することにより、テレビに臨場感向上機能を付加することができる。そして、リモコン操作によってツマミを水平方向にずらすと、その位置に応じて無相関信号のレベルを増圧または減圧するように制御するなどすればよい。
以上説明したように、本発明によれば、ステレオ記録された音声または楽音コンテンツなどに含まれる2チャネル分の音声信号から、臨場感を高める音声信号成分を分離して減圧または増圧することが可能になる。そして、無相関信号を増加及び/または減少させることにより、放送コンテンツや音楽コンテンツの臨場感をユーザの好みに応じて向上させることができる。
以上、本発明に係る音声信号処理装置における処理について説明したが、次に、上述した各例にさらに適用可能な応用例について説明する。
上述した各例においては、このようにして本発明により増圧または抑圧が施された音声信号を左右のスピーカだけで再生させることを前提に説明したが、マルチチャネル再生方式より広いスイートスポットが得られる波面合成再生方式で再生することが、増圧または抑圧の効果が狭い聴取エリアに限られず広がることから好ましい。なお、波面合成再生方式とは、直線状または面状に並べたスピーカ群によって音の波面を合成する再生方式であり、例えばWave Field Synthesis(WFS)方式は直線状に並べたスピーカ群(スピーカアレイ)を用いる現実的な実装方法の1つとして近年盛んに研究されている。WFS方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方に仮想的に存在する音源(仮想音源)から放射されているかのような感覚を受ける。したがって、このような方式では、広い聴取エリアで本発明に係る増圧または抑圧の効果を享受でき、例えば横に並んだ複数の聴取者が同時に増圧または抑圧の効果を享受できる。本発明に係る音声信号処理は、マルチチャネル再生方式での再生であっても波面合成再生方式での再生であっても基本的に同じである。
上述した各例では、本発明に係る音声信号処理について、入力音声信号が2chの音声信号である場合、つまりステレオで記録されているコンテンツについてのみ説明したが、より多くのチャネルをもつマルチチャネルの音声信号であっても適用可能である。ステレオ以外に普及している方式としては、5.1ch、7.1ch、9.1ch、22.2chなどがある。これらの方式も全て複数のスピーカによる組み合わせで合成音像を作る方式であるため、本発明に係る無相関信号の増圧処理または抑圧処理が適用できる。
具体的にマルチチャネルの音声信号への適用について説明すると、着目するチャネルを2つ選び、その2つに対して上述したような増圧処理または抑圧処理を行う。これらの方式では、前方の左チャネルと右チャネル間に相関の高い信号が割り当てられることが多いため、その相関を強調するまたは目立たなくするために前方の左チャネルと右チャネルに本発明に係る抑圧処理または増圧処理を適用して出力し、前方センターチャネルはそのまま出力(ここでもゲイン調整してもよい)すればよい。
また、例えば5.1chの入力音声信号である場合には、前方左右の2チャネルのみから音源抽出を行って無相関信号の増減を行って出力し、後方左右の2チャンネルのみから音源抽出を行って無相関信号の増減を行って出力し、センターチャネルについてはそのまま出力することもできる。
また、上述した各例においては、無相関信号の分離について離散フーリエ空間で行う例を挙げたが、これに限ったものではなく、本発明では分離が可能であればよい。本発明の主たる特徴は無相関信号を抽出してその無相関信号について増加または減少させることで増圧または抑圧することにある。
次に、本発明に係る音声信号処理装置の実装について説明する。
本発明に係る音声信号処理装置は、例えばパーソナルコンピュータ(PC)や光ディスク再生装置、音楽再生機能付きの携帯情報端末、テレビ装置、プロジェクタ、あるいは小型の音声処理専用装置など、音声データ再生装置や音声データ再生装置付きの装置に利用できる。PCでは入力デバイスはマウスなどとなるが、携帯情報端末ではボタン操作やタッチパッドなどとなる。また、光ディスク再生装置や小型の処理専用装置では、本体に設置してあるボタン操作や、あるいはGUI画面をモニタ装置やテレビ装置などの表示デバイスに出力させるとともにリモートコントローラなどによって操作してもよい。また、この音声データ再生装置は、音声のみを取り扱う装置として構成することができるだけでなく、テレビ装置やプロジェクタ等で例示したように、映像の伴う装置に組み込むこともできる。
また、例えば図2で例示した音声信号処理部20における各構成要素など、本発明に係る音声信号処理装置の各構成要素やその装置を備えた音声データ再生装置の各構成要素は、例えばマイクロプロセッサ(またはDSP:Digital Signal Processor)、メモリ、バス、インターフェイス、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路/IC(Integrated Circuit)チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路/ICチップセットとして搭載することも可能である。
また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、音声信号処理装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはDSPによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体(外部記録媒体や内部記憶装置)であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばCD−ROMまたはDVD−ROMなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。
以上、本発明に係る音声信号処理装置について説明したが、処理の流れを説明したように、本発明は、2つのチャネルの無相関信号を増減させる音声信号処理方法としての形態も採り得る。この音声信号処理方法は、次の抽出ステップ、増減ステップ、及び加算ステップを有する。抽出ステップは、信号抽出部が、2つのチャネルの入力音声信号から信号間の無相関信号を抽出するステップである。増減ステップは、無相関信号増減部が、抽出ステップで抽出された無相関信号を増加または減少させるステップである。加算ステップは、音声信号加算部が、増減ステップで増加または減少させた信号を、入力音声信号に加算するステップである。その他の応用例については、音声信号処理装置について説明した通りであり、その説明を省略する。
なお、上記プログラムコード自体は、換言すると、この音声信号処理方法をコンピュータに実行させるためのプログラムである。すなわち、このプログラムは、コンピュータに、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する抽出ステップと、抽出ステップで抽出された無相関信号を増加または減少させる増減ステップと、増減ステップで増加または減少させた信号を、入力音声信号に加算する加算ステップと、を実行させるためのプログラムである。その他の応用例については、音声信号処理装置について説明した通りであり、その説明を省略する。
10…音声データ再生装置、11…デコーダ、12…音声信号抽出部、13,20…音声信号処理部、14…D/Aコンバータ、15…増幅器、16…スピーカ、17…パラメータ制御部、18…ユーザインタフェース制御部、19a…表示デバイス、19b…入力デバイス、21…前処理部、22…離散フーリエ変換部、23…信号分離抽出部、25a,25b…ゲイン調整部、26…合成部、27…離散フーリエ逆変換部、28…後処理部。
上述したような課題を解決するために、本発明の第1の技術手段は、2つのチャネルの無相関信号を増減させる音声信号処理装置であって、2つのチャネルの入力音声信号から信号間の相関信号を抽出し、一方のチャネルの入力音声信号から前記相関信号を差し引くことで一方のチャネルの無相関信号を抽出し、他方のチャネルの入力音声信号から前記相関信号に2つのチャネルの音圧バランスの程度を表す正の実数を乗算したものを差し引くことで他方のチャネルの無相関信号を抽出する信号抽出部と、該信号抽出部で抽出された各チャネルの無相関信号を増加または減少させる無相関信号増減部と、チャネル毎に、前記無相関信号増減部で増加または減少させた信号を前記入力音声信号に加算する音声信号加算部とを備えたことを特徴としたものである。
第4の技術手段は、2つのチャネルの無相関信号を増減させる音声信号処理方法であって、信号抽出部が、2つのチャネルの入力音声信号から信号間の相関信号を抽出し、一方のチャネルの入力音声信号から前記相関信号を差し引くことで一方のチャネルの無相関信号を抽出し、他方のチャネルの入力音声信号から前記相関信号に2つのチャネルの音圧バランスの程度を表す正の実数を乗算したものを差し引くことで他方のチャネルの無相関信号を抽出する抽出ステップと、無相関信号増減部が、前記抽出ステップで抽出された各チャネルの無相関信号を増加または減少させる増減ステップと、音声信号加算部が、チャネル毎に、前記増減ステップで増加または減少させた信号を前記入力音声信号に加算する加算ステップと、を有することを特徴としたものである。
第5の技術手段は、コンピュータに、2つのチャネルの入力音声信号から信号間の相関信号を抽出し、一方のチャネルの入力音声信号から前記相関信号を差し引くことで一方のチャネルの無相関信号を抽出し、他方のチャネルの入力音声信号から前記相関信号に2つのチャネルの音圧バランスの程度を表す正の実数を乗算したものを差し引くことで他方のチャネルの無相関信号を抽出する抽出ステップと、該抽出ステップで抽出された各チャネルの無相関信号を増加または減少させる増減ステップと、チャネル毎に、前記増減ステップで増加または減少させた信号を前記入力音声信号に加算する加算ステップと、を実行させるためのプログラムである。
第6の技術手段は、第5の技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
ここで、左右チャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については左右から同じ信号が出力されるものとするモデルを採用する。そして、左右から出力される相関信号によって合成される音像は、その相関信号の左右それぞれの音圧のバランスによって方向が決定されるものとする。そのモデルに従うと、入力信号x(n)、x(n)は、
(m)= s(m)+n(m)、
(m)=αs(m)+n(m) (13)
と表される。ここで、s(m)は左右の相関信号、n(m)は左チャネルの音声信号から相関信号s(m)を減算したものであって(左チャネルの)無相関信号として定義できるもの、n(m)は右チャネルの音声信号から相関信号s(m)にαを乗算したものを減算したものであって(右チャネルの)無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。
このようにして入力されたツマミ44aの値を、音声信号処理部13(20)で使用する、無相関信号の増減の程度を表すためのゲイン値に変換する。ツマミの値をrとし、変換後のゲイン値を とすると、例えばツマミの上下を聴感上の音量の程度に比例させるために、次式を採用してもよい。ここで、κは自然数でここでは例えば15である。

Claims (6)

  1. 2つのチャネルの無相関信号を増減させる音声信号処理装置であって、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する信号抽出部と、該信号抽出部で抽出された無相関信号を増加または減少させる無相関信号増減部と、該無相関信号増減部で増加または減少させた信号を、前記入力音声信号に加算する音声信号加算部とを備えたことを特徴とする音声信号処理装置。
  2. 前記無相関信号増減部における増加または減少の度合いを変更するユーザ操作を受け付けるためのユーザインタフェースと、該ユーザインタフェースで受け付けられたユーザ操作に従って、前記増加または減少の度合いを示すパラメータを変更するパラメータ制御部とをさらに備えたことを特徴とする請求項1に記載の音声信号処理装置。
  3. 前記ユーザインタフェースは、前記無相関信号増減部における減少の度合いを負の値で表現し、増加の度合いを正の値で表現することを特徴とする請求項2に記載の音声信号処理装置。
  4. 2つのチャネルの無相関信号を増減させる音声信号処理方法であって、
    信号抽出部が、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する抽出ステップと、
    無相関信号増減部が、前記抽出ステップで抽出された無相関信号を増加または減少させる増減ステップと、
    音声信号加算部が、前記増減ステップで増加または減少させた信号を、前記入力音声信号に加算する加算ステップと、
    を有することを特徴とする音声信号処理方法。
  5. コンピュータに、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する抽出ステップと、該抽出ステップで抽出された無相関信号を増加または減少させる増減ステップと、該増減ステップで増加または減少させた信号を、前記入力音声信号に加算する加算ステップと、を実行させるためのプログラム。
  6. 請求項5に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2010156787A 2010-07-09 2010-07-09 音声信号処理装置、方法、プログラム、及び記録媒体 Expired - Fee Related JP5307770B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010156787A JP5307770B2 (ja) 2010-07-09 2010-07-09 音声信号処理装置、方法、プログラム、及び記録媒体
US13/808,167 US9071215B2 (en) 2010-07-09 2011-06-07 Audio signal processing device, method, program, and recording medium for processing audio signal to be reproduced by plurality of speakers
PCT/JP2011/063043 WO2012005074A1 (ja) 2010-07-09 2011-06-07 音声信号処理装置、方法、プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010156787A JP5307770B2 (ja) 2010-07-09 2010-07-09 音声信号処理装置、方法、プログラム、及び記録媒体

Publications (2)

Publication Number Publication Date
JP2012019454A true JP2012019454A (ja) 2012-01-26
JP5307770B2 JP5307770B2 (ja) 2013-10-02

Family

ID=45441060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010156787A Expired - Fee Related JP5307770B2 (ja) 2010-07-09 2010-07-09 音声信号処理装置、方法、プログラム、及び記録媒体

Country Status (3)

Country Link
US (1) US9071215B2 (ja)
JP (1) JP5307770B2 (ja)
WO (1) WO2012005074A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013176073A1 (ja) * 2012-05-23 2013-11-28 シャープ株式会社 音声信号変換装置、方法、プログラム、及び記録媒体
WO2014097893A1 (ja) * 2012-12-19 2014-06-26 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2015206874A (ja) * 2014-04-18 2015-11-19 富士通株式会社 信号処理装置、信号処理方法、及び、プログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
WO2012153537A1 (ja) * 2011-05-11 2012-11-15 パナソニック株式会社 映像表示装置
BR112017002758B1 (pt) * 2015-06-17 2022-12-20 Sony Corporation Dispositivo e método de transmissão, e, dispositivo e método de recepção

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006303799A (ja) * 2005-04-19 2006-11-02 Mitsubishi Electric Corp 音響信号再生装置
JP2007088568A (ja) * 2005-09-20 2007-04-05 Alpine Electronics Inc オーディオ装置
JP2007193035A (ja) * 2006-01-18 2007-08-02 Sony Corp 音声信号分離装置及び方法
JP2007228033A (ja) * 2006-02-21 2007-09-06 Alpine Electronics Inc サラウンド生成装置
JP2008048324A (ja) * 2006-08-21 2008-02-28 Pioneer Electronic Corp パンニング自動調整装置及びパンニング自動調整方法
JP2009025500A (ja) * 2007-07-18 2009-02-05 Dimagic:Kk ナレーション音声制御装置並びに制御方法
WO2009031871A2 (en) * 2007-09-06 2009-03-12 Lg Electronics Inc. A method and an apparatus of decoding an audio signal
JP2009194877A (ja) * 2008-02-18 2009-08-27 Sharp Corp 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2688371B1 (fr) 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
US5479522A (en) * 1993-09-17 1995-12-26 Audiologic, Inc. Binaural hearing aid
US5666430A (en) * 1995-01-09 1997-09-09 Matsushita Electric Corporation Of America Method and apparatus for leveling audio output
DE19547093A1 (de) * 1995-12-16 1997-06-19 Nokia Deutschland Gmbh Schaltungsanordnung zur Verbesserung des Störabstandes
US7016501B1 (en) * 1997-02-07 2006-03-21 Bose Corporation Directional decoding
US8452023B2 (en) * 2007-05-25 2013-05-28 Aliphcom Wind suppression/replacement component for use with electronic systems
US7548854B2 (en) * 2002-01-31 2009-06-16 Awi Licensing Company Architectural sound enhancement with pre-filtered masking sound
US8098844B2 (en) * 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
DE102006017280A1 (de) * 2006-04-12 2007-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals
US8149332B2 (en) * 2007-05-10 2012-04-03 Broadcom Corporation Method and system for using a subset of receive operations for detecting digital and analog television signals
US8238563B2 (en) * 2008-03-20 2012-08-07 University of Surrey-H4 System, devices and methods for predicting the perceived spatial quality of sound processing and reproducing equipment
EP2216774B1 (en) * 2009-01-30 2015-09-16 Harman Becker Automotive Systems GmbH Adaptive noise control system and method
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
JP2011239036A (ja) 2010-05-06 2011-11-24 Sharp Corp 音声信号変換装置、方法、プログラム、及び記録媒体
JP5736124B2 (ja) 2010-05-18 2015-06-17 シャープ株式会社 音声信号処理装置、方法、プログラム、及び記録媒体
JP5690082B2 (ja) 2010-05-18 2015-03-25 シャープ株式会社 音声信号処理装置、方法、プログラム、及び記録媒体
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
US8804984B2 (en) * 2011-04-18 2014-08-12 Microsoft Corporation Spectral shaping for audio mixing

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006303799A (ja) * 2005-04-19 2006-11-02 Mitsubishi Electric Corp 音響信号再生装置
JP2007088568A (ja) * 2005-09-20 2007-04-05 Alpine Electronics Inc オーディオ装置
JP2007193035A (ja) * 2006-01-18 2007-08-02 Sony Corp 音声信号分離装置及び方法
JP2007228033A (ja) * 2006-02-21 2007-09-06 Alpine Electronics Inc サラウンド生成装置
JP2008048324A (ja) * 2006-08-21 2008-02-28 Pioneer Electronic Corp パンニング自動調整装置及びパンニング自動調整方法
JP2009025500A (ja) * 2007-07-18 2009-02-05 Dimagic:Kk ナレーション音声制御装置並びに制御方法
WO2009031871A2 (en) * 2007-09-06 2009-03-12 Lg Electronics Inc. A method and an apparatus of decoding an audio signal
JP2009194877A (ja) * 2008-02-18 2009-08-27 Sharp Corp 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013176073A1 (ja) * 2012-05-23 2013-11-28 シャープ株式会社 音声信号変換装置、方法、プログラム、及び記録媒体
WO2014097893A1 (ja) * 2012-12-19 2014-06-26 ソニー株式会社 音声処理装置および方法、並びにプログラム
JPWO2014097893A1 (ja) * 2012-12-19 2017-01-12 ソニー株式会社 音声処理装置および方法、並びにプログラム
CN104871565B (zh) * 2012-12-19 2017-03-08 索尼公司 音频处理装置和方法
US9653065B2 (en) 2012-12-19 2017-05-16 Sony Corporation Audio processing device, method, and program
JP2015206874A (ja) * 2014-04-18 2015-11-19 富士通株式会社 信号処理装置、信号処理方法、及び、プログラム

Also Published As

Publication number Publication date
JP5307770B2 (ja) 2013-10-02
US20130108079A1 (en) 2013-05-02
US9071215B2 (en) 2015-06-30
WO2012005074A1 (ja) 2012-01-12

Similar Documents

Publication Publication Date Title
KR101569032B1 (ko) 오디오 신호의 디코딩 방법 및 장치
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
EP2194733B1 (en) Sound volume correcting device, sound volume correcting method, sound volume correcting program, and electronic apparatus.
JP6377249B2 (ja) オーディオ信号の強化のための装置と方法及び音響強化システム
WO2001024577A1 (en) Process for removing voice from stereo recordings
JP5307770B2 (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
TW200837718A (en) Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program
JP2007135046A (ja) 音声信号処理装置、音声信号処理方法、プログラム
JP2009533910A (ja) アンビエンス信号を生成するための装置および方法
KR20180102596A (ko) 몰입형 오디오 재생을 위한 신호의 합성
JP4840421B2 (ja) 音声信号処理装置、音声信号処理方法、プログラム
EP2484127B1 (en) Method, computer program and apparatus for processing audio signals
JP5690082B2 (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
JP5736124B2 (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
JP4810621B1 (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
JP5058844B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP5202021B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP2002247699A (ja) ステレオ音響信号処理方法及び装置並びにプログラム及び記録媒体
JP5316560B2 (ja) 音量補正装置、音量補正方法および音量補正プログラム
JP4392040B2 (ja) 音響信号処理装置、音響信号処理方法、音響信号処理プログラムおよびコンピュータに読み取り可能な記録媒体
US8767969B1 (en) Process for removing voice from stereo recordings
JP2013055439A (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
JP2011239036A (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
JP2012027101A (ja) 音声再生装置、音声再生方法、プログラム、及び、記録媒体
US8086448B1 (en) Dynamic modification of a high-order perceptual attribute of an audio signal

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130627

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5307770

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees