JP7480629B2

JP7480629B2 - 音信号処理装置及び音信号処理方法

Info

Publication number: JP7480629B2
Application number: JP2020134704A
Authority: JP
Inventors: 開小林; 剛史藤田; 修二宮阪
Original assignee: Socionext Inc
Current assignee: Socionext Inc
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2024-05-10
Anticipated expiration: 2040-08-07
Also published as: US11496853B2; JP2022030589A; US20220046377A1; CN114093378A

Description

本開示は、音信号処理装置及び音信号処理方法に関する。

従来、音信号を再生する際、音に立体感又は奥行き感を出すために、音信号にサラウンド効果を付加する技術が知られている。また、サラウンド効果を付加するためのサラウンド信号処理が行われる音信号には、台詞、歌詞等のボーカル成分（音声成分）が含まれていないことが望まれる。特許文献１には、バンドエリミネートフィルタを用いてボーカル成分が除去された音信号に対してサラウンド信号処理を行う音信号処理装置が開示されている。

特開平９－８４１９８号公報

しかしながら、特許文献１に記載の技術では、サラウンド効果を適切に付加できないことがある。

そこで、サラウンド効果を適切に付加することができる音信号処理装置等を提供する。

本開示の一態様に係る音信号処理装置は、第１チャネルの音信号及び第２チャネルの音信号と、除去するボーカル帯域を示す第１の係数とに基づいて、ボーカル成分が除去された第１の出力信号を生成する除去部と、前記第１の出力信号にサラウンド効果を付加することで第２の出力信号を生成するサラウンド処理部と、前記除去部の前段もしくは前記除去部と前記サラウンド処理部との間に接続される、又は、前記除去部もしくは前記サラウンド処理部の一部として構成される、入力された信号を第２の係数に基づく増幅率で増幅する増幅部と、前記第２の出力信号と、前記第１チャネルの音信号及び前記第２チャネルの音信号の一方とを合成する第１の合成部と、前記第２の出力信号を反転させた信号と、前記第１チャネルの音信号及び前記第２チャネルの音信号の他方とを合成する第２の合成部と、前記第１の係数及び前記第２の係数を設定する設定部とを備え、前記設定部は、前記第１の係数に基づいて除去されるボーカル帯域が第１の帯域より広い第２の帯域である場合の前記増幅率が、前記第１の帯域の場合の前記増幅率より大きくなるように前記第２の係数を設定する。

本開示の一態様に係る音信号処理方法は、第１チャネルの音信号及び第２チャネルの音信号と、除去するボーカル帯域を示す第１の係数とに基づいて、ボーカル成分が除去された第１の出力信号を生成する除去ステップと、前記第１の出力信号にサラウンド効果を付加することで第２の出力信号を生成するサラウンド信号処理ステップと、前記除去ステップの前段もしくは前記除去ステップと前記サラウンド信号処理ステップとの間に実行される、又は、前記除去ステップもしくは前記サラウンド信号処理ステップの一部として実行される、入力された信号を第２の係数に基づく増幅率で増幅する増幅ステップと、前記第２の出力信号と、前記第１チャネルの音信号及び前記第２チャネルの音信号の一方とを合成する第１の合成ステップと、前記第２の出力信号を反転させた信号と、前記第１チャネルの音信号及び前記第２チャネルの音信号の他方とを合成する第２の合成ステップと、前記第１の係数及び前記第２の係数を設定する設定ステップとを含み、前記設定ステップでは、前記第１の係数に基づいて除去されるボーカル帯域が第１の帯域より広い第２の帯域である場合の前記増幅率が、前記第１の帯域の場合の前記増幅率より大きくなるように前記第２の係数を設定する。

本開示の一態様に係る音信号処理装置等によれば、サラウンド効果を適切に付加することができる。

図１は、実施の形態１に係る音信号処理装置の機能構成を示すブロック図である。図２は、実施の形態１に係る音信号処理装置の機能をソフトウェアにより実現するコンピュータのハードウェア構成の一例を示す図である。図３は、実施の形態１に係るボーカル明瞭度と、カットオフ周波数及びゲイン値との相関関係の第１例を示す図である。図４は、実施の形態１に係るボーカル明瞭度と、カットオフ周波数及びゲイン値との相関関係の第２例を示す図である。図５は、実施の形態１に係るサラウンド感に対する官能実験の結果を示す図である。図６は、実施の形態１に係るボーカル明瞭度に対する官能実験の結果を示す図である。図７は、実施の形態１に係るボーカル明瞭度と、カットオフ周波数及びゲイン値との相関関係の第３例を示す図である。図８は、実施の形態１に係る音信号処理装置の動作を示すフローチャートである。図９は、実施の形態２に係る音信号処理装置の機能構成を示すブロック図である。図１０は、実施の形態２に係るボーカル明瞭度及びサラウンド感と、カットオフ周波数及びゲイン値との関係の第１例を示す図である。図１１は、実施の形態２に係るボーカル明瞭度及びサラウンド感と、カットオフ周波数及びゲイン値との関係の第２例を示す図である。

（本開示に至った経緯）
本開示の実施の形態の説明に先立ち、本開示の基礎に至った経緯について説明する。

特許文献１の技術では、Ｌチャネルの音信号及びＲチャネルの音信号を加算した加算信号に対して、バンドエリミネートフィルタを用いてボーカル成分の除去が行われる。バンドエリミネートフィルタがローパスフィルタ（ＬＰＦ）及びハイパスフィルタ（ＨＰＦ）を含んで構成される場合、ＬＰＦ及びＨＰＦのカットオフ周波数がボーカル成分を除去可能な周波数に設定されることで、加算信号からボーカル成分を除去することが可能となる。なお、Ｌチャネルの音信号とは、Ｌ側スピーカに入力される音信号であり、Ｒチャネルの音信号とは、Ｒ側スピーカに入力される音信号である。Ｌ側スピーカ及びＲ側スピーカは、同一空間における互いに異なる位置に配置されたスピーカであり、例えば、Ｌ側スピーカは基準位置に対して左側に配置されており、Ｒ側スピーカは基準位置に対して右側に配置されている。

なお、ボーカル成分を含む加算信号にサラウンド効果を付加するサラウンド信号処理が行われると、ボーカル成分にも立体感等が付加されるので不明瞭な（例えばボケた）音声が出音されてしまい、臨場感が低下する又はユーザが違和感を感じることがある。そのため、サラウンド信号処理が行われる前に、上記のようにボーカル成分を除去する処理が行われる。

ここで、ＬＰＦ及びＨＰＦを通過した加算信号は、ボーカル成分に加えて当該ボーカル成分と同じ周波数帯のボーカル成分以外の成分も除去された音信号となる。ボーカル成分をより確実に除去するためにＬＰＦのカットオフ周波数をより低く、かつ、ＨＰＦのカットオフ周波数をより高く設定するとボーカル成分以外の成分の除去量が増えるので、サラウンド信号処理される加算信号の強度（絶対量）は、ＬＰＦ及びＨＰＦを通過する前の加算信号に比べてとても小さくなり得る。そのような加算信号にサラウンド信号処理を行い、Ｌチャネルの音信号及びＲチャネルの音信号に合成しても、サラウンド信号処理された加算信号の強度がＬチャネルの音信号及びＲチャネルの音信号に比べて小さいので、付加されるサラウンド効果も小さくなる。つまり、特許文献１の技術では、サラウンド効果を適切に付加することが困難である。

なお、ボーカル成分以外の成分は、例えば、効果音、演奏音、背景音（いわゆるＢＧＭ（background music）などの音声を含まない音の成分である。

また、加算信号の強度の低下を抑制するためにＬＰＦのカットオフ周波数をより高く、かつ、ＨＰＦのカットオフ周波数をより低く設定すると、ボーカル成分が除去されにくくなるので、音声が不明瞭に聞こえてしまう。このように、特許文献１の技術では、サラウンド効果を適切に付加すること、及び、音声の不明瞭を抑制することを両立することも困難である。

そこで、本願発明者らは、Ｌチャネルの音信号及びＲチャネルの音信号に対してサラウンド効果を適切に付加することができる、さらには、サラウンド効果を適切に付加しつつ、音声の不明瞭を抑制することができる音信号処理装置等について鋭意検討を行い、以下に説明する音信号処理装置等を創案した。

これにより、音信号処理装置は、除去するボーカル帯域が広くなり第１の出力信号の強度が小さくなる場合に、増幅部による増幅率が高くなるので、第２の出力信号の強度が小さくなることを抑制することができる。つまり、音信号処理装置は、第１チャネルの音信号及び第２チャネルの音信号に対して第２の出力信号の強度が相対的に小さくなることを抑制することができるので、合成後の信号においてサラウンド効果が弱くなることを抑制することができる。よって、音信号処理装置は、除去するボーカル帯域が広くなっても増幅部の増幅率が変化しない場合に比べて、サラウンド効果を適切に付加することができる。

また、例えば、前記設定部は、前記第１の合成部及び前記第２の合成部により合成された信号に基づく音声の明瞭度合いを示すボーカル明瞭度に応じて、前記第１の係数及び前記第２の係数を設定してもよい。

これにより、音信号処理装置は、所望のボーカル明瞭度の音声を出音可能な信号を生成することができる。

また、例えば、前記除去部は、ハイパスフィルタを有し、前記設定部は、前記明瞭度合いが高いほど、前記ハイパスフィルタのカットオフ周波数が高くなるように前記第１の係数を設定し、かつ、前記増幅率が高くなるように前記第２の係数を設定してもよい。また、例えば、前記除去部は、ハイパスフィルタを有し、前記ボーカル明瞭度は、前記ハイパスフィルタのカットオフ周波数を横軸、前記増幅部の前記増幅率を縦軸としたときに単調増加のグラフで表され、前記設定部は、前記ボーカル明瞭度と、前記単調増加のグラフとに基づいて、前記第１の係数及び第２の係数を設定してもよい。

これにより、音信号処理装置は、第２の係数が第１の係数の変化によるサラウンド効果の変化を低減するように設定されるので、サラウンド効果の変化を抑制しつつ、ボーカル明瞭度に応じた音声を出音可能な信号を生成することができる。

また、例えば、前記単調増加のグラフは、対数のグラフであってもよい。

これにより、ボーカル明瞭度の変化幅に対する、出音される音声の明瞭度の変化幅を等しくすることができる。

また、例えば、前記単調増加のグラフは、直線のグラフであってもよい。

これにより、音信号処理装置は、フィルタ部（例えば、ハイパスフィルタを含むフィルタ部）のカットオフ周波数が高周波領域（例えば、２０００Ｈｚ以上）に設定され、高周波領域における信号成分の除去量が低周波領域における信号成分の除去量に比べて少ない場合に、サラウンド効果をより強くすることができる。また、より簡易な計算により第１の係数及び第２の係数を設定することができるので、音信号処理装置における処理量を低減することができる。

また、例えば、前記ボーカル明瞭度をユーザから受け付けるためのユーザインタフェースをさらに備えてもよい。

これにより、音信号処理装置は、さらにユーザが指定するボーカル明瞭度を得ることができる音声を出音可能な信号を生成することができる。

また、例えば、前記設定部は、さらに、前記サラウンド効果の付加に対するユーザの好みを示すサラウンド感に応じて、前記第２の係数を設定してもよい。

これにより、音信号処理装置は、サラウンド感に応じて、増幅部の増幅率を変化させるので、さらにサラウンド感に応じた音を出音可能な信号を生成することができる。つまり、音信号処理装置は、さらにユーザの好みの音を出音可能な信号を生成することができる。

また、例えば、前記ボーカル明瞭度及び前記サラウンド感をユーザから受け付けるためのユーザインタフェースをさらに備えてもよい。

これにより、係数決定部は、ユーザインタフェースから取得したボーカル明瞭度及びサラウンド感を用いて、第２の係数を決定することができる。つまり、音信号処理装置は、外部の装置と通信等することなく第２の係数の決定に用いるボーカル明瞭度及びサラウンド感を取得することができるので通信量の削減につながる。

また、例えば、前記除去部は、前記第１チャネルの音信号及び前記第２チャネルの音信号の差を示す差信号を生成する第１の信号生成部と、前記第１の係数に基づくボーカル帯域の周波数成分を前記差信号から除去することで前記第１の出力信号を生成するフィルタ部とを有し、前記サラウンド処理部は、前記第１の出力信号に前記サラウンド効果を付加することでサラウンド信号を生成する第２の信号生成部と、前記第２の係数に基づく増幅率で前記サラウンド信号を増幅することで前記第２の出力信号を生成する前記増幅部とを有してもよい。

これにより、第１の信号生成部、フィルタ部、第２の信号生成部及び増幅部を備える音信号処理装置において、サラウンド効果を適切に付加することができる。

これにより、上記音信号処理装置と同様の効果を奏する。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、特許請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化する。

また、本明細書において、等しい、一定、同じなどの要素間の関係性を示す用語、並びに、数値、および、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する表現である。

（実施の形態１）
［１－１．音信号処理装置の構成］
まず、本実施の形態に係る音信号処理装置の構成について、図１及び図２を参照しながら説明する。図１は、本実施の形態に係る音信号処理装置１の機能構成を示すブロック図である。音信号処理装置１は、Ｌチャネルの入力信号（音信号）及びＲチャネルの入力信号（音信号）に基づいて、サラウンド感のある音を出音するための信号を生成する装置である。また、音信号処理装置１が搭載される音響装置は、例えば、Ｌ側スピーカ及びＲ側スピーカの２つのスピーカを備える。なお、サラウンド感のある音とは、当該音を聞いているユーザ（聴取者）が音の立体感、奥行き感又は広がり感などを感じることができる音である。

図１に示すように、音信号処理装置１は、ボーカル除去部１０と、サラウンド処理部２０と、ユーザインタフェース３０（ＵＩ）と、係数決定部４０と、合成部５０と、反転部６０とを備える。

ボーカル除去部１０は、Ｌチャネルの入力信号及びＲチャネルの入力信号に基づいて、当該Ｌチャネルの入力信号及びＲチャネルの入力信号に含まれるボーカル成分を除去する処理を行う。具体的には、ボーカル除去部１０は、Ｌチャネルの入力信号及びＲチャネルの入力信号と、除去するボーカル帯域を示すフィルタ係数とに基づいて、ボーカル成分が除去されたボーカル除去信号を生成する。より具体的には、ボーカル除去部１０は、Ｌチャネルの入力信号及びＲチャネルの入力信号の差信号と、除去するボーカル帯域を示すフィルタ係数とに基づいて、差信号からボーカル成分が除去されたボーカル除去信号を生成する。ボーカル除去部１０は、ボーカル成分にも立体感等が付加されてしまい不明瞭な音声が出音されるのを抑制するために、サラウンド処理部２０によるサラウンド信号処理が行われる音信号に対して、前処理を行うとも言える。

Ｌチャネルの入力信号は、第１チャネルの音信号の一例であり、Ｒチャネルの入力信号は、第２チャネルの音信号の一例であり、ボーカル除去信号は、第１の音信号の一例である。また、ボーカル除去部１０は、除去部の一例である。

ボーカル除去部１０は、差信号生成部１１とフィルタ部１２とを有する。

差信号生成部１１は、Ｌチャネルの入力信号及びＲチャネルの入力信号が入力され、２つの入力信号の差分をとった差信号を生成する。差信号は、Ｌチャネルの入力信号及びＲチャネルの入力信号の差を示す信号である。差信号生成部１１は、第１の信号生成部の一例である。

ここで、Ｌチャネルの入力信号及びＲチャネルの入力信号は、ステレオ音を出音するための音信号である。Ｌチャネルの入力信号は、Ｌ側スピーカから出音される音（音声及び音声以外の音）を含む音信号であり、Ｒチャネルの入力信号は、Ｒ側スピーカから出音される音（音声及び音声以外の音）を含む音信号である。Ｌチャネルの入力信号及びＲチャネルの入力信号におけるボーカル成分（音声の信号成分）は、ほぼ同じである。また、Ｌチャネルの入力信号及びＲチャネルの入力信号におけるボーカル成分以外の成分は、Ｌチャネル及びＲチャネルで互いに異なる信号成分である。

差信号生成部１１がＬチャネルの入力信号及びＲチャネルの入力信号の差分をとることで、Ｌチャネルの入力信号及びＲチャネルの入力信号に共通で含まれるボーカル成分（センターの成分）をキャンセルさせることができる。よって、差信号生成部１１により生成された差信号にはボーカル成分はほとんど含まれないが、コンテンツ等によっては差信号にボーカル成分が残ることがある。例えば、Ｌチャネルの入力信号及びＲチャネルの入力信号の一方に出音タイミングを意図的にずらすための遅延（エフェクト）処理が行われている場合などには、差信号にボーカル成分が含まれることがある。

フィルタ部１２は、差信号が入力され、差信号に含まれるボーカル成分を除去することでボーカル除去信号を生成する。フィルタ部１２は、係数決定部４０が決定したフィルタ係数に基づくボーカル帯域の周波数成分を差信号から除去することでボーカル除去信号を生成する。

フィルタ部１２は、例えば、ＩＩＲ（Infinite Impulse Response）フィルタ（無限インパルス応答型フィルタ）を含んで構成されるが、これに限定されない。本実施の形態では、フィルタ部１２は、例えば、ハイパスフィルタ（ＨＰＦ）を含んで構成されるが、ローパスフィルタ（ＬＰＦ）を含んで構成されてもよいし、ＨＰＦ及びＬＰＦの両方を含んで構成されてもよい。フィルタ部１２は、例えば、低周波領域の音声にサラウンド信号処理する場合、ローパスフィルタを含んで構成されるとよい。フィルタ部１２は、差信号からボーカル成分を除去可能であれば、いかなるフィルタを含んで構成されてもよい。以下では、フィルタ部１２は、ＨＰＦを含んで構成される例について説明する。

フィルタ部１２は、係数決定部４０が決定したフィルタ係数に基づくカットオフ周波数でボーカル成分を除去する。カットオフ周波数が大きくなると、除去されるボーカル成分の帯域は広くなる。つまり、カットオフ周波数が大きくなると、ボーカル除去信号の強度は小さくなる。なお、ボーカル成分の周波数帯は、例えば、主に３００Ｈｚ～２０００Ｈｚ程度であるが、これに限定されない。また、フィルタ係数は、除去するボーカル帯域を示す第１の係数の一例である。

ボーカル除去部１０は、差信号生成部１１及びフィルタ部１２により、ほとんどのボーカル成分が除去されたボーカル除去信号を生成することができる。

サラウンド処理部２０は、ボーカル除去部１０からのボーカル除去信号にサラウンド効果を付加するためのサラウンド信号処理等を行うことで、調整信号を生成する。サラウンド処理部２０は、サラウンド信号生成部２１と増幅部２２とを有する。

サラウンド信号生成部２１は、ボーカル除去信号にサラウンド信号処理を行うことでサラウンド信号を生成する。サラウンド信号生成部２１は、ボーカル除去信号にサラウンド効果を付加することでサラウンド信号を生成するとも言える。なお、サラウンド信号処理は、ボーカル除去信号に対してサラウンド効果を付加することができれば、既知のいかなる処理が行われてもよい。サラウンド信号生成部２１は、第２の信号生成部の一例である。また、サラウンド信号は、第２の出力信号の一例である。

増幅部２２は、入力された信号を係数決定部４０が決定した増幅係数に基づくゲイン値（増幅率の一例）で増幅する。本実施の形態では、増幅部２２は、サラウンド信号生成部２１と合成部５０との間に接続されるので、サラウンド信号が入力され、サラウンド信号を増幅係数に基づくゲイン値で増幅することで調整信号を生成する。増幅部２２は、Ｌチャネルの入力信号及びＲチャネルの入力信号に合成されるサラウンド信号の強度を調整するとも言える。サラウンド信号の強度は、サラウンド効果が付加された信号の絶対量（積分値）である。また、サラウンド信号の強度は、音響装置から出音される音声以外の音の立体感、奥行き感又は広がり感などの強さであるとも言える。

増幅部２２は、係数決定部４０が決定した増幅係数に基づく増幅率でサラウンド信号を増幅する。増幅部２２は、サラウンド信号のゲイン値を係数決定部４０からの増幅係数に基づいて変更することで、サラウンド信号の強度を調整する。ゲイン値が大きくなると、サラウンド信号の強度は強くなる。

このように、本実施の形態では、サラウンド処理部２０は、ボーカル除去信号に対するサラウンド効果の付加と、サラウンド信号の強度の調整とを行う。

ユーザインタフェース３０は、ユーザから音信号処理に関する入力を受け付ける。ユーザインタフェース３０は、例えば、ユーザの好みの音質に関する情報を取得し、取得した情報を係数決定部４０に出力する。本実施の形態では、ユーザインタフェース３０は、ボーカル明瞭度の入力を受け付ける。ボーカル明瞭度は、音声の明瞭度合いを示し、本実施の形態では、Ｌ側スピーカ及びＲ側スピーカから出音される音における、音声の明瞭度合いを示す。ボーカル明瞭度は、音声におけるユーザの好みの音質を指定した度合いである。ボーカル明瞭度が高いことは、例えば、音声がハッキリ聞こえる、つまり音声が明瞭であることである。また、ボーカル明瞭度は、０～１００までの数値で表されるが、これに限定されない。

なお、ユーザインタフェース３０は、音信号処理装置１に必須の構成ではない。

係数決定部４０は、フィルタ部１２のフィルタ係数、及び、増幅部２２の増幅係数を決定する。本実施の形態では、係数決定部４０は、ユーザインタフェース３０からボーカル明瞭度を取得し、取得したボーカル明瞭度に応じてフィルタ係数及び増幅係数を決定する。係数決定部４０は、フィルタ係数と増幅係数とを関係づけて決定する。係数決定部４０は、フィルタ係数及び増幅係数を設定する設定部の一例である。

係数決定部４０は、例えば、フィルタ係数に基づくカットオフ周波数（ＨＰＦのカットオフ周波数）が大きくなるとボーカル除去信号の絶対量が小さくなり、結果的にサラウンド信号の強度も小さくなるので、ゲイン値を大きくすることでサラウンド信号の強度を増幅する。係数決定部４０は、例えば、フィルタ係数をカットオフ周波数が大きくなる値に決定した場合、増幅係数をゲイン値が大きくなる値に決定する。係数決定部４０は、例えば、フィルタ係数に基づいて除去されるボーカル帯域が第一の帯域より広い第二の帯域である場合、第二の帯域のときのゲイン値が第一の帯域のときのゲイン値より大きくなるように増幅係数を決定する。係数決定部４０は、フィルタ部１２のフィルタ処理によるボーカル除去信号の強度の変化を打ち消すような増幅率となるように第２の係数を決定する。

また、係数決定部４０は、ボーカル明瞭度に基づく音声の明瞭度合いが高いほど、ＨＰＦのカットオフ周波数が高くなるようにフィルタ係数を決定し、かつ、増幅部２２のゲイン値が高くなるように増幅係数を設定する。

係数決定部４０におけるフィルタ係数及び増幅係数の決定については、後述する。なお、係数決定部４０は、例えば、１つのコンテンツに対して１つのフィルタ係数及び増幅係数の組を決定する。つまり、係数決定部４０は、コンテンツの再生中にフィルタ係数及び増幅係数を変化させない。なお、コンテンツは、音を出力させるための音情報を含むコンテンツであれば特に限定されず、音声コンテンツであってもよいし、動画コンテンツであってもよい。

合成部５０は、サラウンド処理部２０から出力される調整信号を、Ｌチャネルの入力信号及びＲチャネルの入力信号に戻す処理を行う。合成部５０は、調整信号と、Ｌチャネルの入力信号及びＲチャネルの入力信号とを合成し、合成した信号をＬ側スピーカ及びＲ側スピーカに出力する。合成部５０は、第１の合成部５１と、第２の合成部５２とを有する。第１の合成部５１及び第２の合成部５２のそれぞれは、例えば、加算器である。

第１の合成部５１は、調整信号をＬチャネルの入力信号に合成することで、Ｌ側合成信号を生成する。Ｌ側合成信号は、例えば、Ｌチャネルの入力信号と、調整信号との和をとった信号である。第１の合成部５１は、Ｌ側合成信号をＬ側スピーカに出力する。Ｌ側合成信号は、第１の合成信号の一例である。

第２の合成部５２は、反転部６０により反転された調整信号をＲチャネルの入力信号に合成することで、Ｒ側合成信号を生成する。Ｒ側合成信号は、例えば、Ｒチャネルの入力信号と、反転された調整信号との和をとった信号である。第２の合成部５２は、Ｒ側合成信号をＲ側スピーカに出力する。Ｒ側合成信号は、第２の合成信号の一例である。

反転部６０は、入力された信号を反転して出力する。本実施の形態では、反転部６０は、サラウンド処理部２０から出力される調整信号の位相を反転させて、第２の合成部５２に出力する。反転部６０は、調整信号を周期だけ遅延させる処理を行うとも言える。

なお、反転部６０は、サラウンド処理部２０と第１の合成部５１との間、及び、サラウンド処理部２０と第２の合成部５２との間のいずれか一方に接続されていればよい。反転部６０は、Ｌチャネルの入力信号及びＲチャネルの入力信号のいずれか一方に入力される調整信号の位相を反転可能に接続されていればよい。反転部６０は、例えば、サラウンド処理部２０から出力される調整信号の位相を反転させて、第１の合成部５１に出力してもよい。

なお、上記では、増幅部２２をサラウンド処理部２０の構成要素として説明したが、これに限定されない。増幅部２２は、例えば、ボーカル除去部１０とサラウンド処理部２０との間に接続され、フィルタ部１２からのボーカル除去信号を増幅してサラウンド処理部２０に出力してもよい。また、増幅部２２は、例えば、差信号生成部１１及びフィルタ部１２の間に接続され（ボーカル除去部１０の一部として構成され）、差信号生成部１１からの差信号を増幅してフィルタ部１２に出力してもよい。また、増幅部２２は、例えば、差信号生成部１１とＬチャネルの入力信号及びＲチャネルの入力信号を伝達する信号線との間に接続され（ボーカル除去部１０の前段に接続され）、Ｌチャネルの入力信号及びＲチャネルの入力信号を増幅して差信号生成部１１に出力してもよい。このように、増幅部２２が接続される位置は、特に限定されない。

この場合、増幅部２２は、ボーカル除去信号、差信号、又は、Ｌチャネルの入力信号及びＲチャネルの入力信号のいずれかを増幅することになるが、これらの信号の増幅により結果的にサラウンド信号の強度も増幅される。このように、増幅部２２は、サラウンド信号の強度を間接的に調整してもよい。

上記の音信号処理装置１を構成する構成要素のハードウェア構成は、特に限定されないが、例えば、コンピュータで構成されてもよい。このようなハードウェア構成例について、図２を用いて説明する。図２は、本実施の形態に係る音信号処理装置１の機能をソフトウェアにより実現するコンピュータ１０００のハードウェア構成の一例を示す図である。

図２に示すように、コンピュータ１０００は、入力装置１００１と、出力装置１００２と、ＣＰＵ１００３と、内蔵ストレージ１００４と、ＲＡＭ１００５及びバス１００９とを備えるコンピュータである。入力装置１００１と、出力装置１００２と、ＣＰＵ１００３と、内蔵ストレージ１００４及びＲＡＭ１００５とは、バス１００９により接続される。

入力装置１００１は入力ボタン、タッチパッド、タッチパネルディスプレイなどといったユーザインタフェースとなる装置であり、ユーザの操作を受け付ける。なお、入力装置１００１は、ユーザの接触操作を受け付ける他、音声での操作、リモコン等での遠隔操作を受け付ける構成であってもよい。入力装置１００１は、例えば、図１に示すユーザインタフェース３０に対応する。また、入力装置１００１は、例えば、図１に示すＬチャネルの入力信号およびＲチャネルの入力信号を入力する装置に対応する。

出力装置１００２は、コンピュータ１０００からの信号を出力する装置であり、信号出力端子の他、スピーカ、ディスプレイなどといったユーザインタフェースとなる装置であってもよい。出力装置１００２は、図１に示すＬ側合成信号およびＲ側信号を出力する装置に対応する。また、出力装置１００２には、図１に示すＬ側スピーカ及びＲ側スピーカに相当するスピーカが含まれてもよい。

内蔵ストレージ１００４は、フラッシュメモリなどである。また、内蔵ストレージ１００４は、音信号処理装置１の機能を実現するためのプログラム、及び、音信号処理装置１の機能構成を利用したアプリケーションの少なくとも一方が、予め記憶されていてもよい。

ＲＡＭ１００５は、ランダムアクセスメモリ（Random Access Memory）であり、プログラム又はアプリケーションの実行に際してデータ等の記憶に利用される。

ＣＰＵ１００３は、中央演算処理装置（Central Processing Unit）であり、内蔵ストレージ１００４に記憶されたプログラム、アプリケーションをＲＡＭ１００５にコピーし、そのプログラム又はアプリケーションに含まれる命令をＲＡＭ１００５から順次読み出して実行する。

コンピュータ１０００は、例えば、デジタル信号からなる第１の音信号（例えば、Ｌチャネルの入力信号）、及び、第２の音信号（例えば、Ｒチャネルの入力信号）を、本実施の形態に係るボーカル除去部１０、サラウンド処理部２０及び係数決定部４０と同様に処理してもよい。

［１－２．係数決定部における各係数の決定］
続いて、係数決定部４０における各係数の決定について、図３～図７を参照しながら説明する。図３は、本実施の形態に係るボーカル明瞭度と、カットオフ周波数（Ｆｃ）及びゲイン値との相関関係の第１例を示す図である。図３は、ボーカル明瞭度の値に対するカットオフ周波数（Ｆｃ）及びゲイン値の対応関係を示すとも言える。

図３に示すように、ボーカル明瞭度の値に対するカットオフ周波数及びゲイン値は、線形な相関関係を有していてもよい。この場合、カットオフ周波数が高くなると当該カットオフ周波数に対応するゲイン値もカットオフ周波数に比例して高くなる。また、ボーカル明瞭度が取得されると、当該ボーカル明瞭度に応じたカットオフ周波数及びゲイン値が一意に決定可能である。

なお、図３に示すボーカル明瞭度がＤｒｙとは、ボーカル明瞭度が高い（例えば、１００に近い）ことを示しており、ＨＰＦのカットオフ周波数が高い値に決定され、それに伴いゲイン値も高い値に決定される。これにより、フィルタ部１２のフィルタリング処理によりサラウンド信号の強度が小さくなる場合に、増幅部２２によりサラウンド信号の強度を大きくすることができる。よって、ボーカル明瞭度を高くするようなフィルタ係数が決定された場合に、サラウンド信号の強度が小さくなることによりサラウンド感が弱くなることが抑制され得る。

また、図３に示すボーカル明瞭度がＷｅｔとは、ボーカル明瞭度が低い（例えば、０に近い）ことを示しており、ＨＰＦのカットオフ周波数が低い値に決定され、それに伴いゲイン値も低い値に決定される。

係数決定部４０は、例えば、図３に示す相関関係を示す式を用いて、カットオフ周波数及びゲイン値を決定する。係数決定部４０は、例えば、以下の式１に基づいてカットオフ周波数を算出することで、カットオフ周波数を決定する。

Ｆｃ［Ｈｚ］＝ボーカル明瞭度×Ａ＋Ｂ式（１）

Ａは傾きであり、Ｂは切片である。コンテンツなどに応じて傾きＡ及び切片Ｂは適宜決定されるが、例えば、傾きＡは４０であってもよく、切片Ｂは２００であってもよい。

また、係数決定部４０は、例えば、以下の式２に基づいてゲイン値を算出することで、ゲイン値を決定する。

ゲイン値［ｄＢ］＝（Ｆｃ［Ｈｚ］）×Ｃ＋Ｄ式（２）

Ｃは傾きであり、Ｄは切片である。コンテンツなどに応じて傾きＣ及び切片Ｄは適宜決定されるが、例えば、傾きＣは１／３５０であってもよく、切片Ｄは－１０／７であってもよい。

なお、相関関係は、線形であることに限定されない。図４は、本実施の形態に係るボーカル明瞭度と、カットオフ周波数及びゲイン値との相関関係の第２例を示す図である。

図４に示すように、ボーカル明瞭度の値に対するカットオフ周波数及びゲイン値は、非線形な相関関係を有していてもよい。相関関係は、例えば、上に凸となる関数により表されてもよい。また、カットオフ周波数とボーカル明瞭度との相関関係は、例えば、以下の式３に示すように指数関数により表されてもよい。これにより、ボーカル明瞭度の変化幅に対する音声の明瞭度の変化幅を等しくすることができる。例えば、低周波領域においてボーカル明瞭度を所定幅変化させたときの音声の明瞭度の変化幅と、高周波領域においてボーカル明瞭度を所定幅変化させたときの音声の明瞭度の変化幅とを等しくすることができる。

Ｆｃ［Ｈｚ］＝ＥＸＰ（ボーカル明瞭度×Ｅ）×Ｆ式（３）

Ｅはべき乗を算出するための係数であり、Ｆは切片である。コンテンツなどに応じて係数Ｅ及び切片Ｆは適宜決定されるが、例えば、係数Ｅは０．０３あってもよく、切片Ｆは２００であってもよい。なお、式３における底は、例えば、ネイピア数である。

また、カットオフ周波数とゲイン値との相関関係は、例えば、上に凸となる関数により表されてもよい。カットオフ周波数とゲイン値との相関関係は、例えば、以下の式４に示すように対数関数により表されてもよい。これにより、サラウンド感をより一定に保った状態で、ボーカル明瞭度を変更することができる。つまり、サラウンド感をより一定に保った状態で、ボーカル明瞭度に応じたカットオフ周波数及びゲイン値を決定することができる。

ゲイン値［ｄＢ］＝ｌｎ（Ｆｃ［Ｈｚ］）×Ｇ＋Ｈ式（４）

Ｇは真数を算出するための係数であり、Ｈは切片である。コンテンツなどに応じて係数Ｇ及び切片Ｈは適宜決定されるが、例えば、係数Ｇは３．０６８６あってもよく、切片Ｈは－１８．３２７であってもよい。なお、式４における底は、例えば、ネイピア数である。

なお、サラウンド感とは、ユーザが主観的に感じるサラウンドの効果を示す。サラウンド感が強いとは、ユーザがサラウンドの効果を強く感じている（例えば、音の立体感を強く感じている）ことを示し、サラウンド感が弱いとは、ユーザがサラウンドの効果をあまり感じていないことを示す。

図３及び図４に示すように、ボーカル明瞭度は、フィルタ部１２（例えば、ハイパスフィルタ）のカットオフ周波数を横軸、増幅部２２のゲイン値を縦軸としたときに単調増加のグラフで表されてもよい。また、単調増加のグラフは、具体的には、対数のグラフであってもよいし、直線のグラフであってもよい。係数決定部４０は、図３又は図４に示す単調増加のグラフの関係を用いることで、フィルタ係数に連動して増幅係数を決定することができる。言い換えると、係数決定部４０は、差信号から除去するボーカルの帯域に連動してサラウンド信号の強度を決定することができる。係数決定部４０は、差信号から除去される信号の除去量（例えば、除去される信号の積分値）に連動してサラウンド信号の強度を決定することができるとも言える。

ここで、式４を導出するための官能実験について、図５及び図６を参照しながら説明する。図５は、本実施の形態に係るサラウンド感に対する官能実験の結果を示す図である。図６は、本実施の形態に係るボーカル明瞭度に対する官能実験の結果を示す図である。

官能実験では、フィルタ部１２のカットオフ周波数を、２００Ｈｚ、３００Ｈｚ、４００Ｈｚ、５００Ｈｚ、８００Ｈｚ、１０００Ｈｚ、１５００Ｈｚ、２０００Ｈｚ、２５００ＨＺ、３０００Ｈｚ、４０００Ｈｚに設定し、それぞれのカットオフ周波数のときに増幅部２２のゲイン値を、－５～＋６ｄＢまで１ｄＢ間隔で変化させた、１３２パターンの条件で実験を行っている。それぞれのパターンでサラウンド感を主観的に評価した結果を図５に示しており、それぞれのパターンでボーカル明瞭度を主観的に評価した結果を図６に示している。なお、実験では、ラテン系の楽曲を音源として用いている。

図５では、サラウンド感が強すぎる条件を「×１」、サラウンド感が強い条件を「△１」、サラウンド感が良い条件を「〇」、サラウンド感が弱い条件を「△２」、サラウンド感を感じない（弱すぎる）条件を「×２」で示している。

図５に示すように、サラウンド感は、ゲイン値が低く、かつ、カットオフ周波数が高い条件において、弱く感じられる傾向があり、ゲイン値が高く、かつ、カットオフ周波数が低い条件において、強く感じられる傾向がある。

図６では、ボーカルがはっきり聞こえる条件（音声がはっきり聞こえる条件）を「〇」、ボーカルがぼんやり聞こえる条件を「△」、ボーカルが不明瞭である条件を「×」で示している。なお、ぼんやり聞こえるとは、例えば、意味が理解できる程度に音声がボケていることを示し、不明瞭であるとは、例えば、少なくとも一部の意味が理解できない程度に音声がボケていることを示す。

図６に示すように、ボーカル明瞭度は、ゲイン値が高く、かつ、カットオフ周波数が低い条件において、不明瞭となる傾向がある。

図５及び図６に示す太枠は、サラウンド感及ボーカル明瞭度が両方とも「〇」である条件を示している。係数決定部４０は、太枠内のカットオフ周波数及びゲイン値となるようにフィルタ係数及び増幅係数を決定することで、ボーカル明瞭度及びサラウンド感を両立することが可能である。

さらに、太枠内の条件において、カットオフ周波数を変更してもサラウンド感が同等に感じられるカットオフ周波数とゲイン値との組を、カットオフ周波数ごとにプロットしたものを図７に示す。図７は、本実施の形態に係るボーカル明瞭度と、カットオフ周波数及びゲイン値との相関関係の第３例を示す図である。

図７は、図５及び図６におけるカットオフ周波数が４００Ｈｚでゲイン値が０ｄＢのときのサラウンド感を基準（以降において、基準サラウンド感とも記載する）とし、４００Ｈｚのときのサラウンド感と同等となるサラウンド感を得られるゲイン値を４００Ｈｚ以外の各周波数において評価した結果をプロットした図である。例えば、カットオフ周波数３００Ｈｚでは、太枠内のうちゲイン値が－１ｄＢのときのサラウンド感が、基準サラウンド感と同等であるように感じられることを示している。また、例えば、カットオフ周波数３０００Ｈｚでは、太枠内のうちゲイン値が＋６ｄＢのときのサラウンド感が、基準サラウンド感と同等に感じられることを示している。なお、基準サラウンド感は、４００Ｈｚのときのサラウンド感に限定されない。

ここで、プロットされたデータ列を近似する近似式を算出すると、図７に示すように、以下の式５となる。

ゲイン値［ｄＢ］＝３．０６８６ｌｎ（Ｆｃ）－１８．３２７式（５）

式５は、式４における係数Ｇが３．０６８６あり、切片Ｈが－１８．３２７である関数である。この近似式を用いることで、サラウンド感をより一定に保った状態で、ボーカル明瞭度を変えることが可能となる。

なお、上記の式１～式５は、一例であり、これに限定されない。例えば、式５に示す近似式は、一例であり、音源の種類、ユーザの属性（年齢、性別など）などに応じて変化し得る。

なお、上記で説明した式のいずれかは、音信号処理装置１が有する記憶部（例えば、図２に示す内蔵ストレージ１００４）に予め記憶されている。

［１－３．音信号処理装置の動作］
続いて、上記のような音信号処理装置１の動作について、図８を参照しながら説明する。図８は、本実施の形態に係る音信号処理装置１の動作を示すフローチャートである。なお、以下では、音信号処理装置１が有する記憶部には、式３及び４が予め記憶されているとする。

図８に示すように、ユーザインタフェース３０は、ユーザからボーカル明瞭度を取得する（Ｓ１０１）。ユーザインタフェース３０は、例えば、０～１００までの数値をボーカル明瞭度として取得する。なお、ボーカル明瞭度の取得は、コンテンツを再生するときに行われてもよいし、予め取得され音信号処理装置１が有する記憶部（例えば、図２に示す内蔵ストレージ１００４）に記憶されていてもよい。ユーザインタフェース３０は、取得したボーカル明瞭度を係数決定部４０に出力する。

なお、ユーザインタフェース３０は、ボーカル明瞭度を数値ではなく「高」、「中」、「低」などのランクをユーザから取得してもよい。

次に、係数決定部４０は、ボーカル明瞭度に基づいて、フィルタ係数及びフィルタ係数に応じた増幅係数を決定する（Ｓ１０２）。係数決定部４０は、記憶部から式３を読み出し、式３にボーカル明瞭度を代入することで、ボーカル明瞭度を実現するカットオフ周波数を算出し、算出したカットオフ周波数に応じたフィルタ係数を決定する。また、係数決定部４０は、記憶部から式４を読み出し、式４に決定したフィルタ係数に対応するカットオフ周波数を代入することで、所望のサラウンド感を実現するゲイン値を算出し、算出したゲイン値に応じた増幅係数、つまりフィルタ係数に応じた増幅係数を決定する。そして、係数決定部４０は、決定したフィルタ係数をフィルタ部１２に出力し、決定した増幅係数を増幅部２２に出力する。ステップＳ１０２は、設定ステップの一例である。

次に、差信号生成部１１は、入力されたＬチャネルの入力信号及びＲチャネルの入力信号の差である差信号を生成する（Ｓ１０３）。差信号生成部１１は、生成した差信号をフィルタ部１２に出力する。

次に、フィルタ部１２は、差信号及びフィルタ係数に基づいて、ボーカル除去信号を生成する（Ｓ１０４）。フィルタ部１２は、差信号に対してフィルタ係数に基づくカットオフ周波数により、差信号から高周波成分を抽出することで、ボーカル除去信号を生成する。フィルタ部１２は、ボーカル除去信号をサラウンド信号生成部２１に出力する。ステップＳ１０４は、除去ステップの一例である。

次に、サラウンド信号生成部２１は、ボーカル除去信号に対して、サラウンド信号処理を実行する（Ｓ１０５）ことで、サラウンド信号を生成する。サラウンド信号生成部２１は、生成したサラウンド信号を増幅部２２に出力する。ステップＳ１０５は、サラウンド信号処理ステップの一例である。

次に、増幅部２２は、増幅係数及びサラウンド信号に基づいて調整信号を生成する（Ｓ１０６）。係数決定部４０により、カットオフ周波数が高い値に決定される場合、サラウンド信号の強度が小さい（サラウンド信号の絶対量が小さい）のでゲイン値が高くなるように増幅係数が決定される。これにより、増幅部２２は、フィルタ部１２のフィルタ処理により強度が小さくなったサラウンド信号の強度を大きくすることができる。ステップＳ１０６は、増幅ステップの一例である。

このように増幅部２２は、Ｌチャネルの入力信号及びＲチャネルの入力信号に合成される信号の強度を調整する。増幅部２２は、調整信号を合成部５０に向けて出力する。

次に、合成部５０は、調整信号に基づく信号を、Ｌチャネルの入力信号及びＲチャネルの入力信号に合成する（Ｓ１０７）。本実施の形態では、第１の合成部５１は、調整信号に基づく信号として、調整信号そのものをＬチャネルの入力信号に合成することでＬ側合成信号を生成する。また、第２の合成部５２は、調整信号に基づく信号として、反転部６０で位相が反転された調整信号をＲチャネルの入力信号に合成することでＲ側合成信号を生成する。第１の合成部５１は、生成したＬ側合成信号をＬ側スピーカに出力し、第２の合成部５２は、生成したＲ側合成信号をＲ側スピーカに出力する。ステップＳ１０７は、第１の合成ステップ及び第２の合成ステップの一例である。

これにより、音信号処理装置１からＬ側スピーカ及びＲ側スピーカに出力される信号はそれぞれ、所望のサラウンド効果の強さを有する信号となる。つまり、所望のサラウンド感が得られる信号となる。よって、音響装置は、所望のサラウンド再生を行うことができる。音響装置は、例えば、Ｌ側スピーカ及びＲ側スピーカの配置位置より広い領域に音像が定位するような音を出音することができる。

（実施の形態２）
［２－１．音信号処理装置の構成］
まず、本実施の形態に係る音信号処理装置の構成について、図９を参照しながら説明する。図９は、本実施の形態に係る音信号処理装置１００の機能構成を示すブロック図である。本実施の形態に係る音信号処理装置１００は、主に係数決定部１４０がさらにサラウンド感にも基づいてフィルタ係数及び増幅係数を決定する点において、実施の形態１に係る音信号処理装置１と相違する。以降において、本実施の形態に係る音信号処理装置１００について、実施の形態１に係る音信号処理装置１との相違点を中心に説明する。

以降において、実施の形態１に係る音信号処理装置１と同一又は類似の構成については、実施の形態１に係る音信号処理装置１と同一の符号を付し、説明を省略又は簡略化する。また、音信号処理装置１００を構成する構成要素のハードウェア構成は、特に限定されないが、例えば、実施の形態１において図２を用いて説明したコンピュータ１０００のハードウェア構成と同じであってもよい。

図９に示すように、音信号処理装置１００は、実施の形態１に係る音信号処理装置１の係数決定部４０に代えて、係数決定部１４０を備える。また、ユーザインタフェース３０は、ボーカル明瞭度に加えてサラウンド感の入力をユーザから受け付ける。サラウンド感は、ユーザの好みの音質の一例であり、ユーザの好みのサラウンド効果の強さを示しており、例えば、０～１００までの数値で表される。例えば、サラウンド感が１００である又は１００に近いことは、サラウンド効果が強い（例えば、音声以外の音の立体感、奥行き感又は広がり感が強い）ことを示している。また、例えば、サラウンド感が０である又は０に近いことは、サラウンド効果が弱い（例えば、音声以外の音の立体感、奥行き感又は広がり感が弱い）ことを示している。なお、サラウンド感は、数値で表されることに限定されない。

係数決定部１４０は、ボーカル明瞭度及びサラウンド感に応じてフィルタ係数及び増幅係数を決定する。係数決定部１４０は、例えば、ユーザインタフェース３０からボーカル明瞭度及びサラウンド感を取得し、取得したボーカル明瞭度に応じてフィルタ係数を決定し、取得したボーカル明瞭度及びサラウンド感に応じて増幅係数を決定する。

［２－２．係数決定部における各係数の決定］
続いて、係数決定部１４０における各係数の決定について、図１０及び図１１を参照しながら説明する。図１０は、本実施の形態に係るボーカル明瞭度及びサラウンド感と、カットオフ周波数及びゲイン値との関係の第１例を示す図である。図１０は、ボーカル明瞭度の値に対するカットオフ周波数（Ｆｃ）及びゲイン値の対応関係、及び、サラウンド感の値に対するゲイン値の対応関係を示す。

図１０に示すように、カットオフ周波数とゲイン値とは、ボーカル明瞭度に対して線形な相関関係を有しており、サラウンド感に対してゲイン値の軸と平行な相関関係を有している。つまり、ボーカル明瞭度に応じてカットオフ周波数が決定され、ボーカル明瞭度及びサラウンド感に応じてゲイン値が決定される。言い換えると、サラウンド感は、カットオフ周波数を決定することには用いられない。

なお、図１０に示すサラウンド感がＥｌｅｇａｎｔとは、サラウンド感が小さい（例えば、０に近い）ことを示しており、ゲイン値が低い値に決定される。また、サラウンド感がＡｇｇｒｅｓｉｖｅとは、サラウンド感が大きい（例えば、１００に近い）ことを示しており、ゲイン値が高い値に決定される。

係数決定部１４０は、例えば、図１０に示す相関関係を示す式を用いて、カットオフ周波数及びゲイン値を決定してもよい。係数決定部１４０は、例えば、以下の式６に基づいてゲイン値を算出することで、ゲイン値を決定してもよい。なお、係数決定部１４０がカットオフ周波数を算出する式は、実施の形態１の式１と同じであり説明を省略する。

ゲイン値［ｄＢ］＝（Ｆｃ［Ｈｚ］）×Ｃ＋Ｄ＋サラウンド感×Ｅ＋Ｆ式（６）

Ｅはサラウンド感に対する傾きであり、Ｆはサラウンド感に対する切片である。コンテンツなどに応じて、傾きＣ及びＥと、切片Ｄ及びＦとは適宜決定されるが、例えば、傾きＣは１／３５０であってもよく、切片Ｄは－１０／７であってもよく、傾きＥは１／２５であってもよく、切片Ｆは－２であってもよい。なお、ゲイン値に対する切片は、切片Ｄ及びＦを加算することで算出可能である。

なお、ボーカル明瞭度の値に対するカットオフ周波数（Ｆｃ）及びゲイン値の相関関係は、線形であることに限定されない。図１１は、本実施の形態に係るボーカル明瞭度及びサラウンド感と、カットオフ周波数及びゲイン値との関係の第２例を示す図である。

図１１に示すように、カットオフ周波数とゲイン値とは、ボーカル明瞭度に対して線非線形な相関関係を有していてもよい。カットオフ周波数とゲイン値とのボーカル明瞭度に対する相関関係は、例えば、上に凸となる関数により表されてもよい。

係数決定部１４０は、例えば、図１１に示す相関関係を示す式を用いて、カットオフ周波数及びゲイン値を決定してもよい。係数決定部１４０は、例えば、以下の式７に基づいてゲイン値を算出することで、ゲイン値を決定してもよい。なお、係数決定部１４０がカットオフ周波数を算出する式は、実施の形態１の式３と同じであり説明を省略する。

ゲイン値［ｄＢ］＝ｌｏｇ（Ｆｃ［Ｈｚ］）×Ｃ＋Ｄ
＋サラウンド感×Ｅ＋Ｆ式（７）

傾きＣ及びＥと、切片Ｄ及びＦとは、式６と同様である。

図１０及び図１１に示すように、サラウンド感は、フィルタ部１２（ハイパスフィルタ）のカットオフ周波数を横軸、増幅部２２のゲイン値を縦軸としたときにゲイン値の軸に平行なグラフで表されてもよい。

係数決定部１４０は、式３で算出されたカットオフ周波数と式７とを用いてゲイン値を決定することで、ボーカル明瞭度を一定に保ったまま、サラウンド感をユーザの好みに調整することができる。このように決定されたゲイン値に対応する増幅係数は、ボーカル明瞭度及びサラウンド感に応じて決定された増幅係数の一例である。

（その他の実施の形態）
以上、各実施の形態（以降において、実施の形態等とも記載する）について説明したが、本開示は、このような実施の形態等に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を各実施の形態に施したものや、各実施の形態における一部の構成要素を組み合わせて構築される別の形態も、本開示の範囲内に含まれる。

例えば、上記各実施の形態では、係数決定部は、ユーザインタフェースから取得したボーカル明瞭度、又は、ボーカル明瞭度及びサラウンド感に応じて、フィルタ係数及び増幅係数を決定する例について説明したが、各係数の決定方法はこれに限定されない。例えば、音信号処理装置の記憶部は、音源に関する情報又はユーザの識別情報とフィルタ係数及び増幅係数とが対応付けられたテーブルを記憶しており、現在取得した音源に関する情報又はユーザの識別情報と当該テーブルとに基づいて、取得した情報に対応するフィルタ係数及び増幅係数を決定してもよい。音源に関する情報は、音源のジャンル、音源の用途（映画用、カラオケ用など）などであるがこれに限定されない。ユーザの識別情報は、ユーザを特定するための情報である。この場合、テーブルにおいて、フィルタ係数が大きくなると増幅係数も大きくなるように、フィルタ係数及び増幅係数が対応付けられている。

また、上記実施の形態等における式２、４、６は、カットオフ周波数とゲイン値との相関関係を示す式である例について説明したがこれに限定されず、ボーカル明瞭度とゲイン値との相関関係を示す式であってもよい。

また、上記実施の形態に係る係数決定部は、Ｌチャネルの入力信号及びＲチャネルの入力信号にボーカル成分が含まれていない場合、差信号の成分を除去しないように、フィルタ係数を決定してもよい。つまり、係数決定部は、差信号をそのまま通過させるようにフィルタ係数を決定してもよい。係数決定部は、ユーザインタフェースなどを介して再生する音に関する情報を取得し、取得した情報に基づいて、再生する音にボーカル成分が含まれるか否かを判定し、判定結果に応じて、フィルタ係数を決定する処理を行ってもよい。

また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

また、上記実施の形態等のフローチャートで説明された処理の順序は、一例である。複数の処理の順序は変更されてもよいし、複数の処理は並行して実行されてもよい。

上記の音信号処理装置を構成する構成要素の一部は、１個のシステムＬＳＩ（Large Scale Integration：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。上記ＲＡＭには、コンピュータプログラムが記憶されている。上記マイクロプロセッサが、上記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

上記の音信号処理装置を構成する構成要素の一部は、各装置に脱着可能なＩＣカード又は単体のモジュールから構成されているとしてもよい。上記ＩＣカード又は上記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。上記ＩＣカード又は上記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、上記ＩＣカード又は上記モジュールは、その機能を達成する。このＩＣカード又はこのモジュールは、耐タンパ性を有するとしてもよい。

また、上記の音信号処理装置を構成する構成要素の一部は、上記コンピュータプログラム又は上記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Blu-ray（登録商標） Disc）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている上記デジタル信号であるとしてもよい。

また、上記の音信号処理装置を構成する構成要素の一部は、上記コンピュータプログラム又は上記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、上記コンピュータプログラムからなるデジタル信号であるとしてもよい。

また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムにしたがって動作するとしてもよい。

また、上記プログラム又は上記デジタル信号を上記記録媒体に記録して移送することにより、又は上記プログラム又は上記デジタル信号を、上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

また、実施の形態等をそれぞれ組み合わせるとしてもよい。

本開示は、サラウンド再生を行う音響装置などに適用可能である。

１、１００音信号処理装置
１０ボーカル除去部（除去部）
１１差信号生成部（第１の信号生成部）
１２フィルタ部
２０サラウンド処理部
２１サラウンド信号生成部（第２の信号生成部）
２２増幅部
３０ユーザインタフェース
４０、１４０係数決定部
５０合成部
５１第１の合成部
５２第２の合成部
６０反転部
１０００コンピュータ
１００１入力装置
１００２出力装置
１００３ＣＰＵ
１００４内蔵ストレージ
１００５ＲＡＭ
１００９バス

Claims

第１チャネルの音信号及び第２チャネルの音信号と、除去するボーカル帯域を示す第１の係数とに基づいて、ボーカル成分が除去された第１の出力信号を生成する除去部と、
前記第１の出力信号にサラウンド効果を付加することで第２の出力信号を生成するサラウンド処理部と、
前記除去部の前段もしくは前記除去部と前記サラウンド処理部との間に接続される、又は、前記除去部もしくは前記サラウンド処理部の一部として構成される、入力された信号を第２の係数に基づく増幅率で増幅する増幅部と、
前記第２の出力信号と、前記第１チャネルの音信号及び前記第２チャネルの音信号の一方とを合成する第１の合成部と、
前記第２の出力信号を反転させた信号と、前記第１チャネルの音信号及び前記第２チャネルの音信号の他方とを合成する第２の合成部と、
前記第１の係数及び前記第２の係数を設定する設定部とを備え、
前記設定部は、前記第１の係数に基づいて除去されるボーカル帯域が第１の帯域より広い第２の帯域である場合の前記増幅率が、前記第１の帯域の場合の前記増幅率より大きくなるように前記第２の係数を設定する
音信号処理装置。
前記設定部は、前記第１の合成部及び前記第２の合成部により合成された信号に基づく音声の明瞭度合いを示すボーカル明瞭度に応じて、前記第１の係数及び前記第２の係数を設定する
請求項１に記載の音信号処理装置。
前記除去部は、ハイパスフィルタを有し、
前記設定部は、前記明瞭度合いが高いほど、前記ハイパスフィルタのカットオフ周波数が高くなるように前記第１の係数を設定し、かつ、前記増幅率が高くなるように前記第２の係数を設定する
請求項２に記載の音信号処理装置。
前記除去部は、ハイパスフィルタを有し、
前記ボーカル明瞭度は、前記ハイパスフィルタのカットオフ周波数を横軸、前記増幅部の前記増幅率を縦軸としたときに単調増加のグラフで表され、
前記設定部は、前記ボーカル明瞭度と、前記単調増加のグラフとに基づいて、前記第１の係数及び第２の係数を設定する
請求項２に記載の音信号処理装置。
前記単調増加のグラフは、対数のグラフである
請求項４に記載の音信号処理装置。
前記単調増加のグラフは、直線のグラフである
請求項４に記載の音信号処理装置。
前記ボーカル明瞭度をユーザから受け付けるためのユーザインタフェースをさらに備える
請求項２～６のいずれか１項に記載の音信号処理装置。
前記設定部は、さらに、前記サラウンド効果の付加に対するユーザの好みを示すサラウンド感に応じて、前記第２の係数を設定する
請求項２～６のいずれか１項に記載の音信号処理装置。
前記ボーカル明瞭度及び前記サラウンド感をユーザから受け付けるためのユーザインタフェースをさらに備える
請求項８に記載の音信号処理装置。
前記除去部は、
前記第１チャネルの音信号及び前記第２チャネルの音信号の差を示す差信号を生成する第１の信号生成部と、
前記第１の係数に基づくボーカル帯域の周波数成分を前記差信号から除去することで前記第１の出力信号を生成するフィルタ部とを有し、
前記サラウンド処理部は、
前記第１の出力信号に前記サラウンド効果を付加することでサラウンド信号を生成する第２の信号生成部と、
前記第２の係数に基づく増幅率で前記サラウンド信号を増幅することで前記第２の出力信号を生成する前記増幅部とを有する
請求項１～９のいずれか１項に記載の音信号処理装置。
第１チャネルの音信号及び第２チャネルの音信号と、除去するボーカル帯域を示す第１の係数とに基づいて、ボーカル成分が除去された第１の出力信号を生成する除去ステップと、
前記第１の出力信号にサラウンド効果を付加することで第２の出力信号を生成するサラウンド信号処理ステップと、
前記除去ステップの前段もしくは前記除去ステップと前記サラウンド信号処理ステップとの間に実行される、又は、前記除去ステップもしくは前記サラウンド信号処理ステップの一部として実行される、入力された信号を第２の係数に基づく増幅率で増幅する増幅ステップと、
前記第２の出力信号と、前記第１チャネルの音信号及び前記第２チャネルの音信号の一方とを合成する第１の合成ステップと、
前記第２の出力信号を反転させた信号と、前記第１チャネルの音信号及び前記第２チャネルの音信号の他方とを合成する第２の合成ステップと、
前記第１の係数及び前記第２の係数を設定する設定ステップとを含み、
前記設定ステップでは、前記第１の係数に基づいて除去されるボーカル帯域が第１の帯域より広い第２の帯域である場合の前記増幅率が、前記第１の帯域の場合の前記増幅率より大きくなるように前記第２の係数を設定する
音信号処理方法。