JP7352383B2

JP7352383B2 - ミキシング処理装置及びミキシング処理方法

Info

Publication number: JP7352383B2
Application number: JP2019104249A
Authority: JP
Inventors: 一智福江
Original assignee: Clarion Co Ltd; Faurecia Clarion Electronics Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2023-09-28
Anticipated expiration: 2039-06-04
Also published as: US11251890B2; EP3748626A1; CN112037805A; JP2020197651A; EP3748626B1; US20200389241A1

Description

本発明は、ミキシング処理装置及びミキシング処理方法に関する。

複数の音源より入力されるオーディオ信号をミキシングするミキシング処理装置が知られている。この種のミキシング処理装置は、例えば車載オーディオ装置から楽曲信号が入力されているときにナビゲーション装置の音声ガイダンス信号が入力されると、入力中の楽曲信号に対して一時的に静音処理を行い、静音処理された楽曲信号に音声ガイダンス信号をミキシングする。これにより、運転手は、音声ガイダンスを明瞭に聞き取ることができる。その一方で、楽曲に耳を傾けていた搭乗者には、楽曲が一時的に聞こえなくなるという不都合がある。

特許文献１に、複数の音源より入力されるオーディオ信号の夫々を時間周波数平面上のデータに変換し、変換された時間周波数平面上のデータの振幅及び位相を調整することにより、各音源の音量を大幅に変更させることなく聴取者が明瞭に聞き取りたい音源の音の聞き取りやすさを担保することが可能なミキシング処理装置が記載されている。

特許文献１に記載のミキシング処理装置では、例えば、楽曲が車室内に流れている場合にも、基本的には、音声ガイダンスの聞き取りやすさが担保される。

特開２０１３－５１５８９号公報

しかし、特許文献１に記載のミキシング処理装置では、聴取者が明瞭に聞き取りたい音源の音を他の音源の音がマスキングしてしまい、明瞭に聞き取りたい音源の音を聴取者が明瞭に聞き取れないことがある。以下、聴取者が明瞭に聞き取りたい（すなわち優先度の高い）音源の音を「優先音」と記し、聞き取りの優先度が優先音よりも低い他の音源の音を「非優先音」と記す。

本発明は上記の事情に鑑みてなされたものであり、その目的とするところは、非優先音が流れている場合にも、非優先音による優先音のマスキングを抑制することができ、優先音の聞き取りやすさを担保することが可能なミキシング処理装置及びミキシング処理方法を提供することである。

本発明の一実施形態に係るミキシング処理装置は、聴取者に優先的に聞き取らせたい優先音の優先オーディオ信号と、優先オーディオ信号よりも優先度の低い非優先音の非優先オーディオ信号とをミキシングする装置である。このミキシング処理装置は、所定の制御対象帯域について、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルに対し、周波数マスキング及び時間マスキングの少なくとも一方を考慮した重み付けを行う重み付け部と、重み付け部による重み付け処理後の振幅スペクトルに基づいて、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更することにより、制御対象帯域において優先オーディオ信号の振幅スペクトルを相対的に増幅させる振幅変更部と、重み付け処理後の振幅スペクトルに基づいて、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の位相スペクトルを変更することにより、制御対象帯域において非優先オーディオ信号の位相スペクトルを優先オーディオ信号の位相スペクトルに近付ける位相変更部と、振幅変更部による振幅スペクトルの変更処理及び位相変更部による位相スペクトルの変更処理後の優先オーディオ信号と非優先オーディオ信号とをミキシングするミキシング部とを備える。

このように、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルに対し、周波数マスキング及び時間マスキングの少なくとも一方を考慮した重み付けを行い、重み付け処理後の振幅スペクトルに基づいて、制御対象帯域について、優先オーディオ信号の振幅スペクトルを相対的に増幅させるとともに非優先オーディオ信号の位相スペクトルを優先オーディオ信号の位相スペクトルに近付けた上で、優先オーディオ信号と非優先オーディオ信号とをミキシングすることにより、非優先音が流れている場合にも、非優先音による優先音のマスキングを抑制することができ、優先音の聞き取りやすさを担保することが可能となる。

重み付け部は、周波数マスキングを考慮した重み付けを行うことにより、制御対象帯域における少なくとも一方の振幅スペクトルの形状を、その振幅スペクトルを持つ音が周波数軸上で他の音をマスクする範囲を模した形状に広げる構成としてもよい。また、周波数マスキングを考慮した重み付けは、周波数が高いほど帯域幅をより広げる重み付けであってもよい。

このような、周波数マスキングを考慮した重み付けを行うことにより、非優先音が流れている場合にも、より一層、非優先音による優先音のマスキングを抑制することができ、優先音の聞き取りやすさを担保することが可能となる。

重み付け部は、時間マスキングを考慮した重み付けを行うことにより、制御対象帯域における少なくとも一方の振幅スペクトルの形状を、その振幅スペクトルを持つ音が時間軸上で他の音をマスクする範囲を模した形状に広げる構成としてもよい。

このような、時間マスキングを考慮した重み付けを行うことにより、非優先音が流れている場合にも、より一層、非優先音による優先音のマスキングを抑制することができ、優先音の聞き取りやすさを担保することが可能となる。

本発明の一実施形態に係るミキシング処理装置は、重み付け部による重み付け処理後の優先オーディオ信号と非優先オーディオ信号との、制御対象帯域における振幅比に基づいて、所定の制御値を算出する算出部を備える構成としてもよい。

この場合において、振幅変更部は、算出部によって算出された制御値に基づいて、制御対象帯域において優先オーディオ信号の振幅スペクトルを増幅させるとともに非優先オーディオ信号の振幅スペクトルを減衰させる構成としてもよい。

このように、上記の制御値に基づいて、制御対象帯域において優先オーディオ信号の振幅スペクトルを増幅させるとともに非優先オーディオ信号の振幅スペクトルを減衰させることにより、非優先音が流れている場合にも、より一層、非優先音による優先音のマスキングを抑制することができ、優先音の聞き取りやすさを担保することが可能となる。

また、位相変更部は、上記の制御値に基づいて、非優先オーディオ信号の位相スペクトルのみを変更し、制御対象帯域において非優先オーディオ信号の位相スペクトルを優先オーディオ信号の位相スペクトルに一致させる構成としてもよい。

このように、上記の制御値に基づいて、非優先オーディオ信号の位相スペクトルのみを変更し、制御対象帯域において非優先オーディオ信号の位相スペクトルを優先オーディオ信号の位相スペクトルに一致させることにより、非優先音が流れている場合にも、より一層、非優先音による優先音のマスキングを抑制することができ、優先音の聞き取りやすさを担保することが可能となる。

本発明の一実施形態に係るミキシング処理装置は、優先オーディオ信号及び非優先オーディオ信号をオーバラップして周波数領域の信号に変換する第一変換部と、振幅変更部による振幅スペクトルの変更処理及び位相変更部による位相スペクトルの変更処理後の優先オーディオ信号及び非優先オーディオ信号をオーバラップして時間領域の信号に変換する第二変換部とを備える構成としてもよい。この場合、重み付け部は、第一変換部によって周波数領域の信号に変換された優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルに対して重み付けを行う。振幅変更部は、第一変換部によって周波数領域の信号に変換された優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更する。位相変更部は、第一変換部によって周波数領域の信号に変換された優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の位相スペクトルを変更する。

このように、第一変換部が優先オーディオ信号及び非優先オーディオ信号を周波数領域の信号に変換する際と、第二変換部が優先オーディオ信号及び非優先オーディオ信号を時間領域の信号に変換する際に、優先オーディオ信号及び非優先オーディオ信号に対してオーバラップ処理を行うことにより、振幅変更部による振幅スペクトルの変更処理及び位相変更部による位相スペクトルの変更処理によって発生する波形の不連続性が平滑化される。

本発明の一実施形態に係るミキシング処理方法は、聴取者に優先的に聞き取らせたい優先音の優先オーディオ信号と、優先オーディオ信号よりも優先度の低い非優先音の非優先オーディオ信号とをミキシングする方法であり、所定の制御対象帯域について、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルに対し、周波数マスキング及び時間マスキングの少なくとも一方を考慮した重み付けを行う重み付けステップと、重み付けステップでの重み付け処理後の振幅スペクトルに基づいて、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更することにより、制御対象帯域において優先オーディオ信号の振幅スペクトルを相対的に増幅させる振幅変更ステップと、重み付け処理後の振幅スペクトルに基づいて、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の位相スペクトルを変更することにより、制御対象帯域において非優先オーディオ信号の位相スペクトルを優先オーディオ信号の位相スペクトルに近付ける位相変更ステップと、振幅変更ステップでの振幅スペクトルの変更処理及び位相変更ステップでの位相スペクトルの変更処理後の優先オーディオ信号と非優先オーディオ信号とをミキシングするミキシングステップとをコンピュータに実行させる方法である。

本発明の一実施形態によれば、非優先音が流れている場合にも、非優先音による優先音のマスキングを抑制することができ、優先音の聞き取りやすさを担保することが可能なミキシング処理装置及びミキシング処理方法が提供される。

本発明の一実施形態に係るミキシング処理装置の構成を示すブロック図である。本発明の一実施形態に係るミキシング処理装置に備えられるＦＦＴ（Fast Fourier Transform）部に入力されるオーディオ信号と、このオーディオ信号に対して短時間フーリエ変換処理を行う場合のフーリエ変換長Ｎとオーバラップ長Ｍを示す図である。時間シフト毎の振幅スペクトルを示す図である。周波数毎の振幅スペクトルの時間変動を示す図である。本発明の一実施形態に係るミキシング処理装置に備えられるＢＰＦ（Band Pass Filter）及びＢＳＦ（Band Stop Filter）のフィルタ特性を示す図である。本発明の一実施形態に係るミキシング処理装置に備えられる重み算出部の構成を示すブロック図である。本発明の一実施形態に係る重み算出部に備えられる周波数軸重み算出部の構成及び動作を説明する図を示す。本発明の一実施形態に係る周波数軸重み算出部に備えられる各ＬＰＦ（Low Pass Filter）の特性を示す図である。本発明の一実施形態において、複数の周波数成分を持つ正弦波の振幅スペクトルに対し、周波数マスキングを考慮した重み付けを行った結果得られる振幅スペクトルを示す図である。本発明の一実施形態に係る重み算出部に備えられる時間軸重み算出部の構成を示すブロック図である。本発明の一実施形態に係る重み算出部に備えられる制御ゲイン算出部が保持する関数を示す図である。本発明の一実施形態に係るミキシング処理装置に備えられるスペクトル制御部の構成を示すブロック図である。本発明の一実施形態に係るスペクトル制御部に備えられる振幅制御部及び位相制御部の構成を示すブロック図である。本発明の一実施形態に係る位相制御部に備えられる重み係数算出部が保持する関数を示す図である。本発明の一実施形態に係るスペクトル制御部に備えられる振幅制御部及び位相制御部の構成を示すブロック図である。本発明の一実施形態に係る位相制御部に備えられる重み係数算出部が保持する関数を示す図である。図１７（ａ）は、本発明の一実施形態に係るミキシング処理を施していない優先オーディオ信号そのものの振幅スペクトルを示す図であり、図１７（ｂ）は、本発明の一実施形態に係るミキシング処理を施した優先オーディオ信号の振幅スペクトルを示す図である。図１８（ａ）は、本発明の一実施形態に係るミキシング処理を施していない非優先オーディオ信号そのものの振幅スペクトルを示す図であり、図１８（ｂ）は、本発明の一実施形態に係るミキシング処理を施した非優先オーディオ信号の振幅スペクトルを示す図である。本発明の一実施形態に係るミキシング処理を施していない非優先オーディオ信号そのものの位相スペクトルと、本発明の一実施形態に係るミキシング処理を施した非優先オーディオ信号の位相スペクトルとの差を示す図である。図２０（ａ）は、本発明の一実施形態に係るミキシング処理を施していない優先オーディオ信号そのものと、同じく本発明の一実施形態に係るミキシング処理を施していない非優先オーディオ信号そのものとをミキシングしたミキシング信号を示す図であり、図２０（ｂ）は、優先オーディオ信号に対して図１７（ｂ）に示される振幅増幅並びに非優先オーディオ信号に対して図１８（ｂ）に示される振幅減衰及び図１９に示される位相変更を与えたときに、本発明の一実施形態に係るミキシング処理装置に備えられるＩＦＦＴ（Inverse Fast Fourier Transform）部より出力される、優先オーディオ信号と非優先オーディオ信号とのミキシング信号を示す図である。

以下、本発明の実施形態について図面を参照しながら説明する。以下においては、本発明の一実施形態として、車両に搭載されたミキシング処理装置を例に取り説明する。なお、本発明に係るミキシング処理装置は車載されたものに限らない。

図１は、本発明の一実施形態に係るミキシング処理装置１の構成を示すブロック図である。ミキシング処理装置１は、聴取者に優先的に聞き取らせたい優先音の優先オーディオ信号と、優先オーディオ信号よりも優先度の低い非優先音の非優先オーディオ信号とをミキシングする装置である。図１に示されるように、ミキシング処理装置１は、ＦＦＴ部１０Ａ、１０Ｂ、帯域分割部１２Ａ、１２Ｂ、位相算出部１４Ａ、１４Ｂ、振幅算出部１６Ａ、１６Ｂ、重み算出部１８、スペクトル制御部２０Ａ、２０Ｂ、複素数算出部２２Ａ、２２Ｂ、加算器２４Ａ、２４Ｂ、２６及びＩＦＦＴ部２８、システムコントローラ３０及び操作部３２を備える。

ＦＦＴ部１０Ａ、１０Ｂには、それぞれ異なる音源よりオーディオ信号が入力される。本実施形態では、ＦＦＴ部１０Ａには、図示省略されたナビゲーション装置より音声信号（より詳細には、音声ガイダンス信号）が入力される。ＦＦＴ部１０Ｂには、図示省略された車載オーディオ装置より楽曲信号が入力される。

ミキシング処理装置１は、ナビゲーション装置より音声ガイダンス信号が入力されると、この音声ガイダンス信号と楽曲信号とをミキシングして車室内の各スピーカに出力する。これにより、車室内において楽曲が流れている最中に音声ガイダンスが再生される。本実施形態では、このように、車室内において楽曲が流れている最中に音声ガイダンスが再生される場合にも、楽曲による音声ガイダンスのマスキングを抑制することができ、音声ガイダンスの聞き取りやすさを担保することができる。本実施形態では、音声ガイダンスを「優先音」とし、楽曲を「非優先音」とする。優先音の信号である音声ガイダンス信号を「優先オーディオ信号」と記し、非優先音の信号である楽曲信号を「非優先オーディオ信号」と記す。

システムコントローラ３０は、ナビゲーション装置より入力されるオーディオ信号（すなわち音声ガイダンス信号）を優先オーディオ信号と判定するとともに、車載オーディオ装置より入力されるオーディオ信号（すなわち楽曲信号）を非優先オーディオ信号と判定し、ミキシング処理装置１の各部を制御する。

システムコントローラ３０は、一例として、オーディオ信号の音源（本実施形態では、ナビゲーション装置、車載オーディオ装置）によって、そのオーディオ信号が優先オーディオ信号であるか非優先オーディオ信号であるかを判定する。システムコントローラ３０は、オーディオ信号に含まれるメタ情報（例えば優先オーディオ信号であるか非優先オーディオ信号であるかを示す情報）によって、そのオーディオ信号が優先オーディオ信号であるか非優先オーディオ信号であるかを判定してもよい。

何れの音源のオーディオ信号を優先オーディオ信号又は非優先オーディオ信号とするかは、操作部３２に対する操作によって聴取者が任意に設定できるようにしてもよい。

ＦＦＴ部１０Ａ、１０Ｂは、音源より入力されたオーディオ信号に対してオーバラップ処理と窓関数による重み付けを行う。ＦＦＴ部１０Ａ、１０Ｂは、オーバラップ処理及び窓関数による重み付けが行われたオーディオ信号を、短時間フーリエ変換処理によって時間領域から周波数領域に変換し、周波数スペクトルとして、それぞれ、帯域分割部１２Ａ、１２Ｂに出力する。すなわち、ＦＦＴ部１０Ａ、１０Ｂは、それぞれ、優先オーディオ信号、非優先オーディオ信号をオーバラップして周波数領域の信号に変換する第一変換部として動作する。

図２は、ＦＦＴ部１０Ａ、１０Ｂに入力されるオーディオ信号と、このオーディオ信号に対して短時間フーリエ変換処理を行う場合のフーリエ変換長Ｎとオーバラップ長Ｍを示す図である。図２に示されるように、ＦＦＴ部１０Ａ、１０Ｂは、フーリエ変換長Ｎとオーバラップ長Ｍとの差分時間ずつ時間シフトしながら短時間フーリエ変換を行う。これにより、フーリエ変換長Ｎとオーバラップ長Ｍとの差分時間ずつ時間をシフトしたｎ個の周波数スペクトルが求まる。

図３は、時間シフト毎の振幅スペクトルを示す図である。図３では、時間ｔ_０の振幅スペクトル、時間ｔ_１の振幅スペクトル及び時間ｔ_２の振幅スペクトルを示す。図３の各振幅スペクトル図では、周波数毎（ｆ_０，ｆ_１，ｆ_２，・・・，ｆ_Ｎ－２，ｆ_Ｎ－１）の振幅を示す。フーリエ変換長Ｎの場合には、振幅スペクトルの総数はＮ個となる。楽曲信号や音声ガイダンス信号は非定常的な信号であるため、図３に示されるように、振幅スペクトルは各シフト時間で変動する。

このように振幅スペクトルが変動した場合の、周波数毎の振幅スペクトルの時間変動を、図４に示す。図４では、周波数ｆ_０の振幅スペクトルの時間変動、周波数ｆ_１の時間変動及び周波数ｆ_Ｎ－１の時間変動を示し、時間変動毎（ｔ_０，ｔ_１，ｔ_２・・・）の振幅を示す。時間のシフト間隔は、周波数スペクトルのサンプリング周波数となる。

帯域分割部１２Ａ、１２Ｂは、ＢＰＦ１２０及びＢＳＦ１２２を備える。図５は、ＢＰＦ１２０及びＢＳＦ１２２のフィルタ特性を示す。図５中、縦軸は、パワー（単位：ｄＢ）を示し、横軸は、周波数（単位：Ｈｚ）を示す。図５中、破線がＢＰＦ１２０のフィルタ特性を示し、一点鎖線がＢＳＦ１２２のフィルタ特性を示し、実線がＢＰＦ１２０のフィルタ特性とＢＳＦ１２２のフィルタ特性とを合成した特性を示す。

ＢＰＦ１２０は、ＦＦＴ部１０Ａ（又はＦＦＴ部１０Ｂ）より入力される周波数スペクトルのうち、制御対象となる帯域（以下「制御対象帯域」と記す。）のみ通過させて、位相算出部１４Ａ及び振幅算出部１６Ａ（又は位相算出部１４Ｂ及び振幅算出部１６Ｂ）に出力する。

ＢＳＦ１２２は、ＦＦＴ部１０Ａ（又はＦＦＴ部１０Ｂ）より入力される周波数スペクトルのうち、制御対象帯域を阻止するとともに制御対象帯域以外の帯域を通過させて、加算器２４Ａ（又は加算器２４Ｂ）に出力する。

制御対象帯域は、優先オーディオ信号の帯域である。本実施形態では、人の声の信号である音声ガイダンス信号が優先オーディオ信号であることから、１３０Ｈｚ～８，０００Ｈｚが制御対象帯域に設定されている。

例えば操作部３２に対する操作によって聴取者が優先オーディオ信号の音源を変更すると、制御対象帯域は、変更後の音源のオーディオ信号の帯域に変わる。制御対象帯域は、操作部３２に対する操作によって聴取者が任意に変更することもできる。

位相算出部１４Ａ、振幅算出部１６Ａは、帯域分割部１２Ａより入力される制御対象帯域の周波数スペクトルから、それぞれ、制御対象帯域の位相スペクトル、振幅スペクトルを算出する。以下、説明の便宜上、位相算出部１４Ａにて算出された制御対象帯域の位相スペクトルを「位相スペクトルｐＡ」と記し、振幅算出部１６Ａにて算出された制御対象帯域の振幅スペクトルを「振幅スペクトルａＡ」と記す。位相算出部１４Ａは、算出された制御対象帯域の位相スペクトルｐＡをスペクトル制御部２０Ａ及び２０Ｂに出力する。振幅算出部１６Ａは、算出された制御対象帯域の振幅スペクトルａＡを重み算出部１８及びスペクトル制御部２０Ａに出力する。

位相算出部１４Ｂ、振幅算出部１６Ｂは、帯域分割部１２Ｂより入力される制御対象帯域の周波数スペクトルから、それぞれ、制御対象帯域の位相スペクトル、振幅スペクトルを算出する。以下、説明の便宜上、位相算出部１４Ｂにて算出された制御対象帯域の位相スペクトルを「位相スペクトルｐＢ」と記し、振幅算出部１６Ｂにて算出された制御対象帯域の振幅スペクトルを「振幅スペクトルａＢ」と記す。位相算出部１４Ｂは、算出された制御対象帯域の位相スペクトルｐＢをスペクトル制御部２０Ａ及び２０Ｂに出力する。振幅算出部１６Ｂは、算出された制御対象帯域の振幅スペクトルａＢを重み算出部１８及びスペクトル制御部２０Ｂに出力する。

図６は、重み算出部１８の構成を示すブロック図である。図６に示されるように、重み算出部１８は、周波数軸重み算出部１８０Ａ、１８０Ｂ、時間軸重み算出部１８２Ａ、１８２Ｂ及び制御ゲイン算出部１８３を備える。

周波数軸重み算出部１８０Ａ、１８０Ｂは、それぞれ、振幅算出部１６Ａ、１６Ｂより入力される制御対象帯域の振幅スペクトルａＡ、ａＢに対し、周波数マスキングを考慮した重み付けを行う。

図７に、周波数軸重み算出部１８０Ａの構成及び動作を説明する図を示す。なお、周波数軸重み算出部１８０Ｂについては、周波数軸重み算出部１８０Ａと構成が同じであるため、その詳細な説明を省略する。

図７に示されるように、周波数軸重み算出部１８０Ａは、複数のＬＰＦ（符号Ｆ_０，Ｆ_１，・・・，Ｆ_ｋ）及び加算器ＡＤを備える。各ＬＰＦには、制御対象帯域内の各周波数の振幅スペクトルが入力される。図７では、各ＬＰＦに入力される振幅スペクトルの具体例として、図３の時間ｔ_０の振幅スペクトルを示している。

図８に、周波数軸重み算出部１８０Ａが備える各ＬＰＦの特性を示す。図８中、縦軸は、パワー（単位：ｄＢ）を示し、横軸は、正規化周波数（単位なし）を示す。図８では、一例として、１オクターブずつ異なる周波数（１２５Ｈｚ、２５０Ｈｚ，５００Ｈｚ，１，０００Ｈｚ，２，０００Ｈｚ，４，０００Ｈｚ，８，０００Ｈｚ）の振幅スペクトルに適用されるＬＰＦの特性を示す。

周波数軸重み算出部１８０Ａが備える各ＬＰＦは、入力された周波数の振幅スペクトルに対し、ローパスフィルタリング処理を行って、加算器ＡＤに出力する。加算器ＡＤは、各ＬＰＦより入力される振幅スペクトル（すなわち、フィルタリング後の各周波数の振幅スペクトル）を加算する。フィルタリング後の各周波数の振幅スペクトルが加算器ＡＤにて加算された結果、制御対象帯域について、周波数マスキングを考慮した重み付けがなされた振幅スペクトルが得られる。

以下、説明の便宜上、周波数軸重み算出部１８０Ａ、１８０Ｂより出力される信号（すなわち、周波数マスキングを考慮した重み付けがなされた振幅スペクトル）を、それぞれ、「振幅スペクトルｆｍＡ」、「振幅スペクトルｆｍＢ」と記す。

一般に、周波数スペクトルの信号をフィルタリングすると、一部の周波数成分が不均一に遅延して出力される。本実施形態では、各ＬＰＦを通過する振幅スペクトルが不均一に遅延すると、加算器ＡＤにて加算した結果得られる制御対象帯域の振幅スペクトルが全体として滑らかにならない。そこで、周波数軸重み算出部１８０Ａには、位相歪が生じない（すなわち、遅延が発生しない）ＬＰＦが用いられている。

図９に、１２５Ｈｚ、２５０Ｈｚ，５００Ｈｚ，１，０００Ｈｚ，２，０００Ｈｚ，４，０００Ｈｚ，８，０００Ｈｚの周波数成分を持つ正弦波の振幅スペクトルに対し、周波数軸重み算出部１８０Ａにて周波数マスキングを考慮した重み付けを行った結果得られる振幅スペクトルｆｍＡを示す。図９中、縦軸は、パワー（単位：ｄＢ）を示し、横軸は、周波数（単位：Ｈｚ）を示す。図９中、実線が正弦波に含まれる線スペクトルを示し、破線が振幅スペクトルｆｍＡを示し、一点鎖線が各線スペクトルを中心とした１／３オクターブハンド幅を示す。

図９の例では、周波数軸重み算出部１８０Ａによる信号処理により、正弦波に含まれる各周波数成分が広がりを持つスペクトル形状（概ね１／３オクターブハンド幅を持つスペクトル形状）に変換されている。この形状（すなわち、振幅スペクトルｆｍＡの形状）は、聴覚フィルタに近似した形状であり、周波数軸上で正弦波の音が他の音をマスクする範囲を模したものとなっており、また、周波数が高いほど帯域幅がより広がったものとなっている。このように、周波数軸重み算出部１８０Ａでは、制御対象帯域の振幅スペクトルａＡに対し、周波数マスキングを考慮した重み付けがなされることが判る。

時間軸重み算出部１８２Ａ、１８２Ｂは、それぞれ、周波数軸重み算出部１８０Ａ、１８０Ｂより入力される振幅スペクトルｆｍＡ、ｆｍＢに対し、時間マスキングを考慮した重み付けを行う。

以下、説明の便宜上、時間軸重み算出部１８２Ａ、１８２Ｂより出力される信号（すなわち、周波数マスキングに加えて時間マスキングも考慮した重み付けがなされた振幅スペクトル）を、それぞれ、「振幅スペクトルｆｔｍＡ」、「振幅スペクトルｆｔｍＢ」と記す。

時間マスキングを考慮した重み付けは、例えば特許第５８９８５３４号公報に記載された技術を用いて行うことができる。図１０に、この文献に記載された技術を適用して構成した時間軸重み算出部１８２Ａの構成をブロック図で示す。なお、時間軸重み算出部１８２Ｂについては、時間軸重み算出部１８２Ａと構成が同じであるため、その詳細な説明を省略する。

図１０に示されるように、時間軸重み算出部１８２Ａは、アタック音制御部１８２１、余韻制御部１８２２、加算部１８２３及びリミッタ部１８２４を備える。

アタック音制御部１８２１及び余韻制御部１８２２には、振幅スペクトルｆｍＡが周波数軸重み算出部１８０Ａより入力される。

図１０に示されるように、アタック音制御部１８２１は、ＨＰＦ（High Pass Filter）１８２１ａ、リミッタ部１８２１ｂ及びゲイン部１８２１ｃを備える。

ＨＰＦ１８２１ａは、入力された振幅スペクトルｆｍＡに対し、周波数毎にハイパスフィルタリング処理を行う。リミッタ部１８２１ｂは、ハイパスフィルタリング処理された振幅スペクトルのマイナス側の振幅をゼロに設定する。マイナス側の振幅をゼロに設定することにより、周波数毎の信号の立ち上がり成分、すなわちアタック成分（アタック音）を検出することが可能となる。

ＨＰＦ１８２１ａにおいて設定されるカットオフ周波数の値が大きいほど、アタック音の制御時間が短くなる。言い換えると、この値が小さいほどアタック音の制御時間が長くなる。カットオフ周波数は、例えば、オーディオ信号の音源、音源から推定されるオーディオ信号の帯域（例えば音源がナビゲーション装置の場合は人の声の帯域）等に基づいて設定される。カットオフ周波数は、操作部３２に対する操作によって聴取者が任意に設定することもできる。

ゲイン部１８２１ｃは、リミッタ部１８２１ｂにて検出された振幅スペクトルのアタック成分の重み付けを行い、加算部１８２３に出力する。

加算部１８２３には、アタック成分の重み付けが行われた振幅スペクトルｆｍＡに加えて、重み付けが行われていない振幅スペクトルｆｍＡが周波数軸重み算出部１８０Ａより入力される。加算部１８２３は、これらの振幅スペクトルを加算する。これにより、アタック成分の重み付け量がプラスの値の場合には、振幅スペクトルｆｍＡに対してアタック音が増強し、この重み付け量がマイナスの値の場合には、アタック音が低減される。この重み付け量のプラスの値が大きいほどアタック音がより増強され、この重み付け量のマイナスの値が大きいほどアタック音がより低減される。

アタック音の重み付け量の値は、例えば－１以上かつ＋１以下の値に設定される。この重み付け量の値は、例えば、オーディオ信号の音源、音源から推定されるオーディオ信号の帯域等に基づいて設定される。この重み付け量の値は、操作部３２に対する操作によって聴取者が任意に設定することもできる。

図１０に示されるように、余韻制御部１８２２は、ＨＰＦ１８２２ａ、振幅反転部１８２２ｂ、リミッタ部１８２２ｃ及びゲイン部１８２２ｄを備える。

ＨＰＦ１８２２ａは、入力された振幅スペクトルｆｍＡに対し、周波数毎にハイパスフィルタリング処理を行う。振幅反転部１８２２ｂは、ＨＰＦ１８２２ａにおいてハイパスフィルタリング処理された振幅スペクトルに－１を乗算して、その振幅を反転させる。

リミッタ部１８２２ｃは、振幅反転後の振幅スペクトルのマイナス側の振幅をゼロに設定する。マイナス側の振幅をゼロに設定することにより、周波数毎の信号の立ち下がり成分、すなわち、アタック音の後に持続する余韻成分（余韻）を検出することが可能となる。

ＨＰＦ１８２２ａにおいて設定されるカットオフ周波数の値が大きいほど、余韻の制御時間が短くなる。言い換えると、この値が小さいほど余韻の制御時間が長くなる。カットオフ周波数は、例えば、オーディオ信号の音源、音源から推定されるオーディオ信号の帯域等に基づいて設定される。カットオフ周波数は、操作部３２に対する操作によって聴取者が任意に設定することもできる。

ゲイン部１８２２ｄは、リミッタ部１８２２ｃにて検出された振幅スペクトルの余韻成分の重み付けを行い、加算部１８２３に出力する。

加算部１８２３には、余韻成分の重み付けが行われた振幅スペクトルｆｍＡに加えて、重み付けが行われていない振幅スペクトルｆｍＡが周波数軸重み算出部１８０Ａより入力される。加算部１８２３は、これらの振幅スペクトルを加算する。これにより、余韻成分の重み付け量がプラスの値の場合には、振幅スペクトルｆｍＡに対して余韻が増強し、この重み付け量がマイナスの値の場合には、余韻が低減される。この重み付け量のプラスの値が大きいほど余韻がより増強され、この重み付け量のマイナスの値が大きいほど余韻がより低減される。

余韻の重み付け量の値は、例えば－１以上かつ＋１以下の値に設定される。この重み付け量の値は、例えば、オーディオ信号の音源、音源から推定されるオーディオ信号の帯域等に基づいて設定される。この重み付け量の値は、操作部３２に対する操作によって聴取者が任意に設定することもできる。

加算部１８２３は、振幅スペクトルｆｍＡに、アタック成分の重み付けが行われた振幅スペクトル及び余韻成分の重み付けが行われた振幅スペクトルを加算することにより、アタック音及び余韻の増強又は低減がなされた振幅スペクトルを得て、リミッタ部１８２４に出力する。

リミッタ部１８２４は、加算部１８２３より入力される振幅スペクトルのマイナス側の振幅をゼロに設定し、この振幅スペクトル（すなわち、周波数マスキング及び時間マスキングを考慮した重み付けがなされた振幅スペクトルｆｔｍＡ）を制御ゲイン算出部１８３、スペクトル制御部２０Ａ及び２０Ｂに出力する。なお、時間軸重み算出部１８２Ｂは、振幅スペクトルｆｔｍＢを制御ゲイン算出部１８３にのみ出力する。

このように、時間軸重み算出部１８２Ａは、ＨＰＦ１８２１ａ及びＨＰＦ１８２２ａのカットオフ周波数並びにアタック音及び余韻の重み付け量に応じて、周波数軸重み算出部１８０Ａより入力される振幅スペクトルｆｍＡ（より詳細には、ＦＦＴ部１０Ａにて求められたｎ個の周波数スペクトルの振幅スペクトルｆｍＡ）を変更することにより、オーディオ信号（時間軸重み算出部１８２Ａでは優先オーディオ信号）の立ち上がり成分（アタック成分）及び立ち下がり成分（余韻成分）の持続時間を調整することができる。

一例として、時間軸重み算出部１８２Ｂにおいて、非優先オーディオ信号の立ち下がり成分の持続時間を延ばすことにより、時間軸上で楽曲が音声ガイダンスをマスクする範囲を模すことができる。このように、時間軸重み算出部１８２Ａや１８２Ｂにより、制御対象帯域の振幅スペクトルに対し、時間マスキングを考慮した重み付けがなされることが判る。

本実施形態では、楽曲による音声ガイダンスのマスキングを抑制して音声ガイダンスの聞き取りやすさを担保する効果を得るべく、制御対象帯域の振幅スペクトルａＡ、ａＢに対し、周波数マスキングと時間マスキングの両方を考慮した重み付けを行っている。別の実施形態では、この効果を得るべく、制御対象帯域の振幅スペクトルａＡ、ａＢの一方又は両方に対し、周波数マスキングと時間マスキングの一方だけを考慮した重み付けを行ってもよい。このような実施形態においても、同様の効果が得られる（但し、制御対象帯域の振幅スペクトルａＡ、ａＢの両方に対し、周波数マスキングと時間マスキングの両方を考慮した重み付けを行った方が高い効果が得られる。）。

このように、重み算出部１８は、制御対象帯域の振幅スペクトルａＡ及びａＢの少なくとも一方に対し、周波数マスキング及び時間マスキングの少なくとも一方を考慮した重み付けを行う重み付け部として動作する。より詳細には、周波数軸重み算出部１８０Ａ、１８０Ｂは、それぞれ、周波数マスキングを考慮した重み付けを行うことにより、制御対象帯域の振幅スペクトルａＡ、ａＢの形状を、その振幅スペクトルを持つ音が周波数軸上で他の音をマスクする範囲を模した形状に広げる。また、周波数軸重み算出部１８０Ａ、１８０Ｂは、それぞれ、制御対象帯域の振幅スペクトルａＡ、ａＢに対し、周波数が高いほど帯域幅をより広げる重み付けを行う。また、時間軸重み算出部１８２Ａ、１８２Ｂは、それぞれ、時間マスキングを考慮した重み付けを行うことにより、制御対象帯域の振幅スペクトルａＡ、ａＢの形状を、その振幅スペクトルを持つ音が時間軸上で他の音をマスクする範囲を模した形状に広げる。

図１１に、制御ゲイン算出部１８３が保持する関数を示す。図１１に示されるように、制御ゲイン算出部１８３は、第１ゲイン関数と第２ゲイン関数を保持している。制御ゲイン算出部１８３は、時間軸重み算出部１８２Ａより入力される振幅スペクトルｆｔｍＡと、時間軸重み算出部１８２Ｂより入力される振幅スペクトルｆｔｍＢとの周波数毎の振幅比を算出し、算出された振幅比を第１ゲイン関数に入力して優先オーディオ信号用の制御ゲインｇＡを求めるとともに、この振幅比を第２ゲイン関数にも入力して非優先オーディオ信号用の制御ゲインｇＢを求める。制御ゲイン算出部１８３は、制御ゲインｇＡをスペクトル制御部２０Ａに出力し、制御ゲインｇＢをスペクトル制御部２０Ｂに出力する。

すなわち、制御ゲイン算出部１８３は、重み付け処理後の優先オーディオ信号と非優先オーディオ信号との、制御対象帯域における振幅比に基づいて、所定の制御値を算出する算出部として動作する。

第１ゲイン関数及び第２ゲイン関数によれば、優先オーディオ信号のレベルが非優先オーディオ信号のレベルに対して低いほど、制御ゲインｇＡが大きくなるとともに制御ゲインｇＢが小さくなる。言い換えると、優先オーディオ信号のレベルが非優先オーディオ信号のレベルに対して高いほど、制御ゲインｇＡが小さくなるとともに制御ゲインｇＢが大きくなる。また、制御ゲインｇＡはプラスのゲインであり、制御ゲインｇＢはマイナスのゲインである。

図１２は、スペクトル制御部２０Ａ及び２０Ｂの構成を示すブロック図である。図１２に示されるように、スペクトル制御部２０Ａは、振幅制御部２００Ａ及び位相制御部２０２Ａを備える。スペクトル制御部２０Ｂは、振幅制御部２００Ｂ及び位相制御部２０２Ｂを備える。

振幅制御部２００Ａには、振幅算出部１６Ａより振幅スペクトルａＡが入力され、時間軸重み算出部１８２Ａより振幅スペクトルｆｔｍＡが入力され、制御ゲイン算出部１８３より制御ゲインｇＡが入力される。位相制御部２０２Ａには、位相算出部１４Ａ、１４Ｂよりそれぞれ位相スペクトルｐＡ、ｐＢが入力され、時間軸重み算出部１８２Ａより振幅スペクトルｆｔｍＡが入力され、制御ゲイン算出部１８３より制御ゲインｇＡが入力される。

振幅制御部２００Ｂには、振幅算出部１６Ｂより振幅スペクトルａＢが入力され、時間軸重み算出部１８２Ａより振幅スペクトルｆｔｍＡが入力され、制御ゲイン算出部１８３より制御ゲインｇＢが入力される。位相制御部２０２Ｂには、位相算出部１４Ａ、１４Ｂよりそれぞれ位相スペクトルｐＡ、ｐＢが入力され、時間軸重み算出部１８２Ａより振幅スペクトルｆｔｍＡが入力され、制御ゲイン算出部１８３より制御ゲインｇＢが入力される。

図１３は、振幅制御部２００Ａ及び位相制御部２０２Ａの構成を示すブロック図である。

図１３に示されるように、振幅制御部２００Ａは、乗算器２０００Ａ、２００１Ａ、比較器２００２Ａ、ＮＯＴ回路２００３Ａ、乗算器２００４Ａ及び加算器２００５Ａを備える。

乗算器２０００Ａは、振幅算出部１６Ａより入力される振幅スペクトルａＡを、制御ゲイン算出部１８３より入力される制御ゲインｇＡで乗算して、乗算器２００１Ａに出力する。

比較器２００２Ａは、時間軸重み算出部１８２Ａより入力される振幅スペクトルｆｔｍＡと閾値Ｋとを比較し、振幅スペクトルｆｔｍＡが閾値Ｋよりも大きい場合に１を出力し、振幅スペクトルｆｔｍＡが閾値Ｋ以下の場合に０を出力する。

乗算器２００１Ａは、乗算器２０００Ａより入力される振幅スペクトルと比較器２００２Ａの出力（＝０又は１）とを乗算して、加算器２００５Ａに出力する。すなわち、乗算器２００１Ａは、振幅スペクトルｆｔｍＡが閾値Ｋよりも大きい場合に限り、制御ゲインｇＡが乗算された振幅スペクトルａＡを加算器２００５Ａに出力する。

乗算器２００４Ａは、振幅算出部１６Ａより入力される振幅スペクトルａＡと、ＮＯＴ回路２００３Ａの出力（すなわち、反転された比較器２００２Ａの出力）とを乗算して、加算器２００５Ａに出力する。すなわち、乗算器２００４Ａは、振幅スペクトルｆｔｍＡが閾値Ｋ以下の場合に限り、制御ゲインｇＡが乗算されていない振幅スペクトルａＡを加算器２００５Ａに出力する。

加算器２００５Ａは、乗算器２００１Ａより入力される振幅スペクトルと、乗算器２００４Ａより入力される振幅スペクトルとを加算して、複素数算出部２２Ａに出力する。

すなわち、振幅制御部２００Ａは、振幅算出部１６Ａより入力される振幅スペクトルａＡを、振幅スペクトルｆｔｍＡが閾値Ｋよりも大きい帯域だけ制御ゲインｇＡを乗算することによって増幅して、複素数算出部２２Ａに出力する。以下、説明の便宜上、複素数算出部２２Ａに出力される振幅スペクトルを「振幅スペクトルＡＡ」と記す。

なお、本実施形態では、もともとパワーが低い音声ガイダンスの帯域（具体的には振幅スペクトルｆｔｍＡが閾値Ｋ以下の帯域）については、聴取者が聞き取れなくても実質的に問題ない音成分の帯域であるとして、制御ゲインｇＡによる振幅スペクトルａＡの増幅を行っていない。別の実施形態では、音声ガイダンスの制御対象帯域全てを制御ゲインｇＡで増幅してもよい。

このように、振幅制御部２００Ａは、制御ゲインｇＡ（すなわち、周波数マスキング及び時間マスキングを考慮した重み付けがなされた振幅スペクトルｆｔｍＡと振幅スペクトルｆｔｍＢとの振幅比に応じた値を取るパラメータ）を用いた乗算処理を行うことにより、優先オーディオ信号の振幅を増幅し、非優先音による優先音のマスキングを抑制する。但し、振幅制御部２００Ａは、優先オーディオ信号の振幅を増幅することによって非優先音が聞き取り難くなる状況を避けるべく、振幅増幅を行う帯域を制御対象帯域に制限するとともに、優先オーディオ信号の振幅を過度に増幅しない。例示的には、振幅制御部２００Ａは、振幅スペクトルｆｔｍＡが振幅スペクトルｆｔｍＢに対して十分に大きい場合には、優先オーディオ信号の振幅を増幅しない。

図１３に示されるように、位相制御部２０２Ａは、重み係数算出部２０２０Ａ、複素数算出部２０２１Ａ、２０２２Ａ、加算器２０２３Ａ、位相算出部２０２４Ａ、比較器２０２５Ａ、乗算器２０２６Ａ、ＮＯＴ回路２０２７Ａ、乗算器２０２８Ａ及加算器２０２９Ａを備える。

図１４に、重み係数算出部２０２０Ａが保持する関数を示す。図１４に示されるように、重み係数算出部２０２０Ａは、第１Ａ重み関数と第２Ａ重み関数を保持している。重み係数算出部２０２０Ａは、制御ゲイン算出部１８３からの制御ゲインｇＡを第１Ａ重み関数、第２Ａ重み関数の夫々に入力して重み係数ｍＡ、ｎＡを算出し、重み係数ｍＡを複素数算出部２０２１Ａに出力するとともに、重み係数ｎＡを複素数算出部２０２２Ａに出力する。なお、重み係数ｍＡと重み係数ｎＡは、何れも０～１の値を取り、かつお互いを足したときに１となる値を取る。

複素数算出部２０２１Ａは、位相算出部１４Ａより入力される位相スペクトルｐＡ及び重み係数算出部２０２０Ａより入力される重み係数ｍＡ（ここでは、重み係数ｍＡを振幅スペクトルとみなす。）を用いて周波数スペクトルｃＡＡを算出し、加算器２０２３Ａに出力する。複素数算出部２０２２Ａは、位相算出部１４Ｂより入力される位相スペクトルｐＢ及び重み係数算出部２０２０Ａより入力される重み係数ｎＡ（ここでは、重み係数ｎＡを振幅スペクトルとみなす。）を用いて周波数スペクトルｃＢＡを算出し、加算器２０２３Ａに出力する。

加算器２０２３Ａは、複素数算出部２０２１Ａ、２０２２Ａのそれぞれより入力される、周波数スペクトルｃＡＡと周波数スペクトルｃＢＡとを加算して、位相算出部２０２４Ａに出力する。

位相算出部２０２４Ａは、周波数スペクトルｃＡＡと周波数スペクトルｃＢＡとの加算データから偏角を求める。この偏角は周波数毎に求められるため、位相算出部２０２４Ａでは、周波数スペクトルｃＡＡと周波数スペクトルｃＢＡとを合成した位相スペクトルが得られることとなる。

比較器２０２５Ａは、時間軸重み算出部１８２Ａより入力される振幅スペクトルｆｔｍＡと閾値Ｌとを比較し、振幅スペクトルｆｔｍＡが閾値Ｌよりも大きい場合に１を出力し、振幅スペクトルｆｔｍＡが閾値Ｌ以下の場合に０を出力する。

乗算器２０２６Ａは、位相算出部２０２４Ａより入力される位相スペクトルと比較器２０２５Ａの出力（＝０又は１）とを乗算して、加算器２０２９Ａに出力する。すなわち、乗算器２０２６Ａは、振幅スペクトルｆｔｍＡが閾値Ｌよりも大きい場合に限り、位相算出部２０２４Ａより入力される位相スペクトルを加算器２０２９Ａに出力する。

乗算器２０２８Ａは、位相算出部１４Ａより入力される位相スペクトルｐＡと、ＮＯＴ回路２０２７Ａの出力（すなわち、反転された比較器２０２５Ａの出力）とを乗算して、加算器２０２９Ａに出力する。すなわち、乗算器２０２８Ａは、振幅スペクトルｆｔｍＡが閾値Ｌ以下の場合に限り、位相スペクトルｐＡを加算器２０２９Ａに出力する。

加算器２０２９Ａは、乗算器２０２６Ａより入力される位相スペクトルと、乗算器２０２８Ａより入力される位相スペクトルとを加算する。加算器２０２９Ａは、加算することによって得た位相スペクトルＰＡを複素数算出部２２Ａに出力する。本実施形態では、重み係数ｍＡ、重み係数ｎＡがそれぞれ、１、０の定数となっている。そのため、位相スペクトルＰＡは、位相算出部１４Ａから複素数算出部２０２１Ａに入力された位相スペクトルｐＡと同じである。

本実施形態では、位相制御部２０２Ａは、優先音の聞き取りやすさを重視するため、優先オーディオ信号について位相を変更しない。別の実施形態では、位相制御部２０２Ａは、優先オーディオ信号について位相を、優先音が聞き取り難くならない範囲で変更してもよい。

図１５は、振幅制御部２００Ｂ及び位相制御部２０２Ｂの構成を示すブロック図である。

図１５に示されるように、振幅制御部２００Ｂは、乗算器２０００Ｂ、２００１Ｂ、比較器２００２Ｂ、ＮＯＴ回路２００３Ｂ、乗算器２００４Ｂ及び加算器２００５Ｂを備える。位相制御部２０２Ｂは、重み係数算出部２０２０Ｂ、複素数算出部２０２１Ｂ、２０２２Ｂ、加算器２０２３Ｂ、位相算出部２０２４Ｂ、比較器２０２５Ｂ、乗算器２０２６Ｂ、ＮＯＴ回路２０２７Ｂ、乗算器２０２８Ｂ及加算器２０２９Ｂを備える。なお、振幅制御部２００Ｂは、振幅制御部２００Ａと構成が同じであり、位相制御部２０２Ｂは、位相制御部２０２Ａと構成が同じである。そのため、振幅制御部２００Ｂ及び位相制御部２０２Ｂについての詳細な説明は省略する。

振幅制御部２００Ｂは、振幅算出部１６Ｂより入力される振幅スペクトルａＢを、振幅スペクトルｆｔｍＡが閾値Ｋよりも大きい帯域だけ制御ゲインｇＢを乗算することによって減衰して、複素数算出部２２Ｂに出力する。以下、説明の便宜上、複素数算出部２２Ｂに出力される振幅スペクトルを「振幅スペクトルＡＢ」と記す。

振幅制御部２００Ｂは、制御ゲインｇＢ（すなわち、周波数マスキング及び時間マスキングを考慮した重み付けがなされた振幅スペクトルｆｔｍＡと振幅スペクトルｆｔｍＢとの振幅比に応じた値を取るパラメータ）を用いた乗算処理を行うことにより、非優先オーディオ信号の振幅を減衰し、非優先音による優先音のマスキングを抑制する。但し、振幅制御部２００Ｂは、非優先オーディオ信号の振幅を減衰することによって非優先音が聞き取り難くなる状況を避けるべく、振幅減衰を行う帯域を制御対象帯域に制限するとともに、非優先オーディオ信号の振幅を過度に減衰しない。例示的には、振幅制御部２００Ｂは、振幅スペクトルｆｔｍＡが振幅スペクトルｆｔｍＢに対して十分に大きい場合には、非優先オーディオ信号の振幅を減衰しない。

本実施形態では、楽曲による音声ガイダンスのマスキングを抑制して音声ガイダンスの聞き取りやすさを担保する効果を得るべく、振幅スペクトルａＡを増幅するとともに振幅スペクトルａＢを減衰することにより、制御対象帯域において振幅スペクトルａＡを相対的に増幅させている。別の実施形態では、制御対象帯域において振幅スペクトルａＡを相対的に増幅させるため、振幅スペクトルａＡの増幅及び振幅スペクトルａＢの減衰の一方だけを行ってもよい。

加算器２０２９Ｂは、乗算器２０２６Ｂより出力される位相スペクトルと、乗算器２０２８Ｂより出力される位相スペクトルとを加算器２０２９Ａで加算し、これによって得た位相スペクトルＰＢを複素数算出部２２Ｂに出力する。

図１６に、重み係数算出部２０２０Ｂが保持する関数を示す。図１６に示されるように、重み係数算出部２０２０Ｂは、第１Ｂ重み関数と第２Ｂ重み関数を保持している。重み係数算出部２０２０Ｂは、制御ゲイン算出部１８３より入力される制御ゲインｇＢに応じた値の重み係数ｍＢ及び重み係数ｎＢを算出し、重み係数ｍＢを複素数算出部２０２１Ｂに出力するとともに、重み係数ｎＢを複素数算出部２０２２Ｂに出力する。重み係数ｍＢと重み係数ｎＢも重み係数ｍＡと重み係数ｎＡと同じく、０～１の値を取り、かつお互いを足したときに１となる値を取る。

第１Ｂ重み関数及び第２Ｂ重み関数によれば、制御ゲインｇＢが小さいほど（言い換えると、振幅スペクトルｆｔｍＢに対して振幅スペクトルｆｔｍＡが小さいほど）、重み係数ｍＢが大きくなるとともに重み係数ｎＢが小さくなる。

重み係数算出部２０２０Ｂは、振幅スペクトルｆｔｍＢに対して振幅スペクトルｆｔｍＡが小さいほど、位相スペクトルｐＡと、より大きい値の重み係数ｍＢ（ここでは、重み係数ｍＢを振幅スペクトルとみなす。）を用いて周波数スペクトルｃＡＢを算出し、振幅スペクトルｆｔｍＢに対して振幅スペクトルｆｔｍＡが大きいほど、位相スペクトルｐＢと、より小さい値の重み係数ｎＢ（ここでは、重み係数ｎＢを振幅スペクトルとみなす。）を用いて周波数スペクトルｃＢＢを算出する。この結果、制御対象帯域において、非優先オーディオ信号の位相スペクトルｐＢが優先オーディオ信号の位相スペクトルｐＡに一致される。位相スペクトルｐＢが位相スペクトルｐＡに一致されることにより、優先音が非優先音によって打ち消されて聞き取り難くなることが無くなる。

なお、位相スペクトルｐＢが位相スペクトルｐＡに完全に一致されることが理想ではあるが、位相スペクトルｐＢが位相スペクトルｐＡに近付くように調整されさえすれば、非優先音による優先音の打ち消しを低減する効果が得られて、優先音の聞き取りやすさが向上する。

振幅制御部２００Ａ及び２００Ｂは、重み付け部による重み付け処理後の振幅スペクトルに基づいて（より詳細には、重み付け処理後の振幅スペクトルをもとに得られる制御値に基づいて）、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更することにより、制御対象帯域において優先オーディオ信号の振幅スペクトルを相対的に増幅させる振幅変更部として動作する。

位相制御部２０２Ａ及び２０２Ｂは、重み付け部による重み付け処理後の振幅スペクトルに基づいて（より詳細には、重み付け処理後の振幅スペクトルをもとに得られる制御値に基づいて）、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の位相スペクトルを変更することにより、制御対象帯域において非優先オーディオ信号の位相スペクトルを優先オーディオ信号の位相スペクトルに近付ける位相変更部として動作する。

複素数算出部２２Ａは、振幅制御部２００Ａより入力される振幅スペクトルＡＡ及び位相制御部２０２Ａより入力される位相スペクトルＰＡから、制御対象帯域の周波数スペクトルを算出し、加算器２４Ａに出力する。

加算器２４Ａは、複素数算出部２２Ａより入力される、優先オーディオ信号の制御対象帯域の周波数スペクトルと、帯域分割部１２ＡのＢＳＦ１２２より入力される、優先オーディオ信号の制御対象帯域以外の帯域の周波数スペクトルとを加算して、加算器２６に出力する。

複素数算出部２２Ｂは、振幅制御部２００Ｂより入力される振幅スペクトルＡＢ及び位相制御部２０２Ｂより入力される位相スペクトルＰＢから、制御対象帯域の周波数スペクトルを算出し、加算器２４Ｂに出力する。

加算器２４Ｂは、複素数算出部２２Ｂより入力される、非優先オーディオ信号の制御対象帯域の周波数スペクトルと、帯域分割部１２ＢのＢＳＦ１２２より入力される、非優先オーディオ信号の制御対象帯域以外の帯域の周波数スペクトルとを加算して、加算器２６に出力する。

加算器２６は、加算器２４Ａより入力される、制御対象帯域の振幅が変更された優先オーディオ信号の周波数スペクトルと、加算器２４Ｂより入力される、制御対象帯域の振幅及び位相が変更された非優先オーディオ信号の周波数スペクトルとを加算して、ＩＦＦＴ部２８に出力する。

すなわち、加算器２６は、振幅変更部による振幅スペクトルの変更処理及び位相変更部による位相スペクトルの変更処理後の優先オーディオ信号と非優先オーディオ信号とをミキシングするミキシング部として動作する。

ＩＦＦＴ部２８は、加算器２６より入力される周波数スペクトルを短時間逆フーリエ変換処理によって周波数領域から時間領域に変換して、オーバラップ処理と窓関数による重み付けを行い、車室内に埋設された不図示のスピーカに出力する。すなわち、ＩＦＦＴ部２８は、スペクトル制御部２０Ａ、２０Ｂによる振幅スペクトルの変更処理及び位相スペクトルの変更処理後の優先オーディオ信号及び非優先オーディオ信号をオーバラップして時間領域の信号に変換する第二変換部として動作する。

ＦＦＴ部１０Ａ及び１０Ｂ並びにＩＦＦＴ部２８におけるオーバラップ処理により、スペクトル制御部２０Ａ、２０Ｂにおける振幅スペクトル及び位相スペクトルの変更によって発生する波形の不連続性が平滑化される。

このように、本実施形態によれば、音声ガイダンス信号及び楽曲信号の振幅スペクトルに対して周波数マスキング及び時間マスキングを考慮した重み付けを行い、重み付けされた振幅スペクトルに基づいて（言い換えると、音声ガイダンスと楽曲間のマスキングを考慮して）、人の声の帯域（すなわち制御対象帯域）について、音声ガイダンス信号の振幅を増幅するとともに楽曲の振幅を減衰し且つ楽曲信号の位相を音声ガイダンス信号の位相に一致させることにより、楽曲が流れている場合にも、楽曲による音声ガイダンスのマスキングを抑制し、音声ガイダンスの聞き取りやすさを担保できるようになっている。

本実施形態では、次元数の少ない周波数スペクトルのデータを用いてミキシング処理を行っている。そのため、次元数の多い時間周波数平面上のデータを用いてミキシング処理を行う特許文献１と比べて、処理負荷が軽くなっている。

図１７～図２０に具体的処理例を示す。

図１７（ａ）は、本実施形態に係るミキシング処理を施していない優先オーディオ信号そのものの振幅スペクトルを示す。図１７（ｂ）は、本実施形態に係るミキシング処理を施した優先オーディオ信号の振幅スペクトルを示す。図１８（ａ）は、本実施形態に係るミキシング処理を施していない非優先オーディオ信号そのものの振幅スペクトルを示す。図１８（ｂ）は、本実施形態に係るミキシング処理を施した非優先オーディオ信号の振幅スペクトルを示す。

図１７（ａ）、図１７（ｂ）、図１８（ａ）、図１８（ｂ）（更には後述の図２０（ａ）、図２０（ｂ））の各図中、縦軸は、周波数（単位：ｋＨｚ）を示し、横軸は、時間（単位：ｓｅｃ）を示す。これらの図では、パワーが強い帯域ほど高い明度で示し、パワーが弱い帯域ほど低い明度で示す。

図１７（ａ）と図１７（ｂ）とを比べると、制御対象帯域において図１７（ｂ）の方が全体的に白っぽくなっている、すなわち、振幅が増幅されていることが判る。図１８（ａ）と図１８（ｂ）とを比べると、制御対象帯域において図１８（ｂ）の方が全体的に黒っぽくなっている、すなわち、振幅が減衰されていることが判る。

図１９は、本実施形態に係るミキシング処理を施していない非優先オーディオ信号そのものの位相スペクトルと、本発明の一実施形態に係るミキシング処理を施した非優先オーディオ信号の位相スペクトルとの差を示す。図１９中、縦軸は、周波数（単位：ｋＨｚ）を示し、横軸は、時間（単位：ｓｅｃ）を示す。図１９では、本実施形態に係るミキシング処理を施した場合と施していない場合の位相差（すなわち、本実施形態に係るミキシング処理において非優先オーディオ信号に与えられる位相の変化量）が大きい帯域ほど高い明度で示し、この位相差が小さい帯域ほど低い明度で示す。この位相差がゼロの帯域は黒で示す。

図１９に示されるように、制御対象帯域において上記の位相差が発生していることが判る。

図２０（ａ）は、本実施形態に係るミキシング処理を施していない優先オーディオ信号そのものと、同じく本実施形態に係るミキシング処理を施していない非優先オーディオ信号そのものとをミキシングしたミキシング信号を示す。図２０（ｂ）は、優先オーディオ信号に対して図１７（ｂ）に示される振幅増幅並びに非優先オーディオ信号に対して図１８（ｂ）に示される振幅減衰及び図１９に示される位相変更を与えたときに、ＩＦＦＴ部２８より出力される、優先オーディオ信号と非優先オーディオ信号とのミキシング信号を示す。

図２０（ａ）と図２０（ｂ）とを比べると、ＩＦＦＴ部２８より出力されるミキシング信号は、制御対象帯域において、優先オーディオ信号の振幅増幅及び非優先オーディオ信号の振幅減衰が行われかつ非優先オーディオ信号の位相が優先オーディオ信号の位相に一致されることにより、優先オーディオ信号のスペクトログラム形状が明確に表れているとともに、非優先オーディオ信号の振幅が全体としては大きく減衰されていないことが判る。そのため、非優先音が流れている状況でありながらも、非優先音による優先音のマスキングが抑制されて、優先音の聞き取りやすさが担保されることが判る。

以上が本発明の例示的な実施形態の説明である。本発明の実施形態は、上記に説明したものに限定されず、本発明の技術的思想の範囲において様々な変形が可能である。例えば明細書中に例示的に明示される実施例等又は自明な実施例等を適宜組み合わせた内容も本願の実施形態に含まれる。

なお、ミキシング処理装置１における各種処理は、ミキシング処理装置１に備えられるソフトウェアとハードウェアとが協働することにより実行される。ミキシング処理装置１に備えられるソフトウェアのうち少なくともＯＳ（Operating System）部分は、組み込み系システムとして提供されるが、それ以外の部分、例えば、優先オーディオ信号と非優先オーディオ信号とのミキシングを実行するためのソフトウェアモジュールについては、ネットワーク上で配布可能な又はメモリカード等の記録媒体にて保持可能なアプリケーションとして提供されてもよい。

１ミキシング処理装置
１０Ａ、１０ＢＦＦＴ部
１２Ａ、１２Ｂ帯域分割部
１４Ａ、１４Ｂ位相算出部
１６Ａ、１６Ｂ振幅算出部
１８重み算出部
２０Ａ、２０Ｂスペクトル制御部
２２Ａ、２２Ｂ複素数算出部
２４Ａ、２４Ｂ、２６加算器
２８ＩＦＦＴ部
３０システムコントローラ
３２操作部
１２０ＢＰＦ
１２２ＢＳＦ
１８０Ａ、１８０Ｂ周波数軸重み算出部
１８２Ａ、１８２Ｂ時間軸重み算出部
１８３制御ゲイン算出部
２００Ａ、２００Ｂ振幅制御部
２０２Ａ、２０２Ｂ位相制御部
１８２１アタック音制御部
１８２１ａＨＰＦ
１８２１ｂリミッタ部
１８２１ｃゲイン部
１８２２余韻制御部
１８２２ａＨＰＦ
１８２２ｂ振幅反転部
１８２２ｃリミッタ部
１８２２ｄゲイン部
１８２３加算部
１８２４リミッタ部
２０００Ａ、２００１Ａ、２０００Ｂ、２００１Ｂ乗算器
２００２Ａ、２００２Ｂ比較器
２００３Ａ、２００３ＢＮＯＴ回路
２００４Ａ、２００４Ｂ乗算器
２００５Ａ、２００５Ｂ加算器
２０２０Ａ、２０２０Ｂ重み係数算出部
２０２１Ａ、２０２２Ａ、２０２１Ｂ、２０２２Ｂ複素数算出部
２０２３Ａ、２０２３Ｂ加算器
２０２４Ａ、２０２４Ｂ位相算出部
２０２５Ａ、２０２５Ｂ比較器
２０２６Ａ、２０２６Ｂ乗算器
２０２７Ａ、２０２７ＢＮＯＴ回路
２０２８Ａ、２０２８Ｂ乗算器
２０２９Ａ、２０２９Ｂ加算器

Claims

聴取者に優先的に聞き取らせたい優先音の優先オーディオ信号と、前記優先オーディオ信号よりも優先度の低い非優先音の非優先オーディオ信号とをミキシングするミキシング処理装置において、
所定の制御対象帯域について、前記優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルに対し、周波数マスキング及び時間マスキングの両方を考慮した重み付けを行う重み付け部と、
前記重み付け部による重み付け処理後の振幅スペクトルに基づいて、前記優先オーディオ信号及び前記非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更することにより、前記制御対象帯域において前記優先オーディオ信号の振幅スペクトルを相対的に増幅させる振幅変更部と、
前記重み付け処理後の振幅スペクトルに基づいて、前記優先オーディオ信号及び前記非優先オーディオ信号の少なくとも一方の位相スペクトルを変更することにより、前記制御対象帯域において前記非優先オーディオ信号の位相スペクトルを前記優先オーディオ信号の位相スペクトルに近付ける位相変更部と、
前記振幅変更部による振幅スペクトルの変更処理及び前記位相変更部による位相スペクトルの変更処理後の優先オーディオ信号と非優先オーディオ信号とをミキシングするミキシング部と、
を備える、
ミキシング処理装置。
前記重み付け部は、
前記周波数マスキングを考慮した重み付けを行うことにより、前記制御対象帯域における前記少なくとも一方の振幅スペクトルの形状を、その振幅スペクトルを持つ音が周波数軸上で他の音をマスクする範囲を模した形状に広げる、
請求項１に記載のミキシング処理装置。
前記周波数マスキングを考慮した重み付けは、周波数が高いほど帯域幅をより広げる重み付けである、
請求項２に記載のミキシング処理装置。
前記重み付け部は、
前記時間マスキングを考慮した重み付けを行うことにより、前記制御対象帯域における前記少なくとも一方の振幅スペクトルの形状を、その振幅スペクトルを持つ音が時間軸上で他の音をマスクする範囲を模した形状に広げる、
請求項１から請求項３の何れか一項に記載のミキシング処理装置。
前記重み付け部による重み付け処理後の優先オーディオ信号と非優先オーディオ信号との、前記制御対象帯域における振幅比に基づいて、所定の制御値を算出する算出部
を備える、
請求項１から請求項４の何れか一項に記載のミキシング処理装置。
前記振幅変更部は、
前記制御値に基づいて、前記制御対象帯域において前記優先オーディオ信号の振幅スペクトルを増幅させるとともに前記非優先オーディオ信号の振幅スペクトルを減衰させる、
請求項５に記載のミキシング処理装置。
前記位相変更部は、
前記制御値に基づいて、前記非優先オーディオ信号の位相スペクトルのみを変更し、前記制御対象帯域において前記非優先オーディオ信号の位相スペクトルを前記優先オーディオ信号の位相スペクトルに一致させる、
請求項５又は請求項６に記載のミキシング処理装置。
前記優先オーディオ信号及び非優先オーディオ信号をオーバラップして周波数領域の信号に変換する第一変換部と、
前記振幅変更部による振幅スペクトルの変更処理及び前記位相変更部による位相スペクトルの変更処理後の優先オーディオ信号及び非優先オーディオ信号をオーバラップして時間領域の信号に変換する第二変換部と、
を備え、
前記重み付け部は、
前記第一変換部によって周波数領域の信号に変換された優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルに対して前記重み付けを行い、
前記振幅変更部は、
前記第一変換部によって周波数領域の信号に変換された優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更し、
前記位相変更部は、
前記第一変換部によって周波数領域の信号に変換された優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の位相スペクトルを変更する、
請求項１から請求項７の何れか一項に記載のミキシング処理装置。
聴取者に優先的に聞き取らせたい優先音の優先オーディオ信号と、前記優先オーディオ信号よりも優先度の低い非優先音の非優先オーディオ信号とをミキシングするミキシング処理方法において、
所定の制御対象帯域について、前記優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルに対し、周波数マスキング及び時間マスキングの両方を考慮した重み付けを行う重み付けステップと、
前記重み付けステップでの重み付け処理後の振幅スペクトルに基づいて、前記優先オーディオ信号及び前記非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更することにより、前記制御対象帯域において前記優先オーディオ信号の振幅スペクトルを相対的に増幅させる振幅変更ステップと、
前記重み付け処理後の振幅スペクトルに基づいて、前記優先オーディオ信号及び前記非優先オーディオ信号の少なくとも一方の位相スペクトルを変更することにより、前記制御対象帯域において前記非優先オーディオ信号の位相スペクトルを前記優先オーディオ信号の位相スペクトルに近付ける位相変更ステップと、
前記振幅変更ステップでの振幅スペクトルの変更処理及び前記位相変更ステップでの位相スペクトルの変更処理後の優先オーディオ信号と非優先オーディオ信号とをミキシングするミキシングステップと、
をコンピュータに実行させる、
ミキシング処理方法。
前記重み付けステップにて、
前記周波数マスキングを考慮した重み付けを行うことにより、前記制御対象帯域における前記少なくとも一方の振幅スペクトルの形状を、その振幅スペクトルを持つ音が周波数軸上で他の音をマスクする範囲を模した形状に広げる、
請求項９に記載のミキシング処理方法。
前記周波数マスキングを考慮した重み付けは、周波数が高いほど帯域幅をより広げる重み付けである、
請求項１０に記載のミキシング処理方法。
前記重み付けステップにて、
前記時間マスキングを考慮した重み付けを行うことにより、前記制御対象帯域における前記少なくとも一方の振幅スペクトルの形状を、その振幅スペクトルを持つ音が時間軸上で他の音をマスクする範囲を模した形状に広げる、
請求項９から請求項１１の何れか一項に記載のミキシング処理方法。
前記重み付け処理後の優先オーディオ信号と非優先オーディオ信号との、前記制御対象帯域における振幅比に基づいて、所定の制御値を算出する算出ステップ
をコンピュータに更に実行させる、
請求項９から請求項１２の何れか一項に記載のミキシング処理方法。
前記振幅変更ステップにて、
前記制御値に基づいて、前記制御対象帯域において前記優先オーディオ信号の振幅スペクトルを増幅させるとともに前記非優先オーディオ信号の振幅スペクトルを減衰させる、
請求項１３に記載のミキシング処理方法。
前記位相変更ステップにて、
前記制御値に基づいて、前記非優先オーディオ信号の位相スペクトルのみを変更し、前記制御対象帯域において前記非優先オーディオ信号の位相スペクトルを前記優先オーディオ信号の位相スペクトルに一致させる、
請求項１３又は請求項１４に記載のミキシング処理方法。
前記優先オーディオ信号及び非優先オーディオ信号をオーバラップして周波数領域の信号に変換する第一変換ステップと、
前記振幅変更ステップでの振幅スペクトルの変更処理及び前記位相変更ステップでの位相スペクトルの変更処理後の優先オーディオ信号及び非優先オーディオ信号をオーバラップして時間領域の信号に変換する第二変換ステップと、
をコンピュータに更に実行させ、
前記重み付けステップにて、
前記第一変換ステップにて周波数領域の信号に変換された優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルに対して前記重み付けを行い、
前記振幅変更ステップにて、
前記第一変換ステップにて周波数領域の信号に変換された優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更し、
前記位相変更ステップにて、
前記第一変換ステップにて周波数領域の信号に変換された優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の位相スペクトルを変更する、
請求項９から請求項１５の何れか一項に記載のミキシング処理方法。