JP2009003297A

JP2009003297A - 音声信号処理装置および音声再生装置

Info

Publication number: JP2009003297A
Application number: JP2007165688A
Authority: JP
Inventors: Hitoshi Akiyama; 仁志秋山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-06-22
Filing date: 2007-06-22
Publication date: 2009-01-08

Abstract

【課題】ポストプロセシングにより、ミュージカルノイズを含む音声信号を再生したときに、ミュージカルノイズを目立たなくする音声信号処理装置を提供する。
【解決手段】ミュージカルノイズを含むソース信号を入力し、このソース信号を４ｋＨｚ以下の低域成分と４ｋＨｚを超える高域成分に分離する。両成分の振幅レベルを比較し、高域成分が優勢な場合には、高域カットフィルタ１４にセットするフィルタ係数のカットオフ周波数を瞬時的に低下させて、この高域成分を抑制する。低域成分よりも高域成分が優勢な時間帯の高域成分は、ミュージカルノイズである場合が多く、低域成分もこのミュージカルノイズをマスクできるほど大きいレベルではないため、この高域成分の抑制により、ミュージカルノイズを目立たなくすることができる。
【選択図】図１

Description

この発明は、高圧縮率で圧縮された音声信号等を再生したときに発生するミュージカルノイズによる聴きづらさを改善した音声信号処理装置に関する。

高圧縮率で圧縮された音声信号は、４ｋＨｚ〜６ｋＨｚ付近の周波数帯に「キロキロ」または「ピロピロ」という聴感のノイズ信号を含んでいる。このノイズ信号は、音楽のように聴こえるためミュージカルノイズと呼ばれている。

このミュージカルノイズは、音声信号の圧縮技術に起因するものである。すなわち、一般的に音声信号の圧縮には、聴覚心理学に基づき聴取者に聴こえにくいとされる周波数成分の量子化ビット数の割り当てを減らしてビットレートを少なくする手法が用いられるが、高い圧縮率で音声信号を圧縮する場合、多くの信号成分を除去するため、除去されなかった信号成分のなかに、図７の成分１０１に示すように、時間的・周波数的に孤立した信号成分が発生する。音声信号を再生したとき、この孤立した信号成分が、上記「キロキロ」、「ピロピロ」という音となって再生されミュージカルノイズとなる。

図７は、人間の発話音声を高圧縮率で圧縮したのち、伸長・再生した信号のスペクトログラムを示す図であるが、発話音声信号は、主として３ｋＨｚ以下の周波数帯域に分布している。一方、４ｋＨｚ〜６ｋＨｚの周波数帯域には時間軸上、周波数軸上の両方で孤立した信号成分が点在している。この孤立した信号成分がミュージカルノイズとなる。ミュージカルノイズがどの周波数帯域に発生するかは、目的とする信号成分の分布や圧縮方式等によって異なるが、人間の発話音声を目的の信号とし、この成分を良く保存するように圧縮した場合、ミュージカルノイズは、一般的に４ｋＨｚ〜６ｋＨｚ付近の周波数帯域に現れる。

また、高圧縮率で圧縮した音声信号のみならず、たとえばスペクトルサブストラクション法で高レベル雑音を抑制した場合にも発生する。このスペクトルサブストラクション法によるノイズ抑制時に、ミュージカルノイズが発生しないような処理を行う技術は種々提案されている（たとえば、特許文献１、２等）
特開２００６−１１３５１５号公報特開２００４−３４１３３９号公報

しかしながら、上記特許文献１、２の技術は、ノイズ除去プロセス時にミュージカルノイズの発生を抑制する技術であって、ミュージカルノイズを含む音声信号からミュージカルノイズを除去する技術、または、ミュージカルノイズを含む音声信号のミュージカルノイズを目立たなくする技術ではない。

また、高ノイズ環境で収音した音声信号からノイズを除去する処理におけるものであり、音声信号を高圧縮率で圧縮する際に生じるミュージカルノイズの成分（孤立した信号成分）の発生を抑制する技術ではない。

このように、従来は、ミュージカルノイズを含んでしまった音声信号を処理して、それを除去または目立たなくするポストプロセシングの技術は未だ提案されていない。

この発明は、ポストプロセシングにより、ミュージカルノイズを含む音声信号を再生したときに、ミュージカルノイズを目立たなくする音声信号処理装置を提供することを目的とする。

請求項１の発明は、ミュージカルノイズを含む音声信号であるソース信号を入力する入力部と、前記ソース信号を、このソース信号中の目的とする信号成分を含む周波数帯域である目的帯域の成分と、その他の周波数帯域の成分に分離し、前記目的帯域の成分と前記その他の周波数帯域の成分とを比較するレベル比較部と、前記ソース信号をフィルタリングするフィルタと、前記フィルタにフィルタ係数をセットするフィルタ係数発生部であって、前記レベル比較部の比較結果が、前記その他の周波数帯域の成分が優勢である旨の結果であったとき、前記その他の周波数帯域がカットされるようにフィルタ係数を変更するフィルタ係数発生部と、を備えたことを特徴とする。

請求項２の発明は、請求項１の発明において、前記目的とする信号成分を、人間の発話音声の信号成分としたことを特徴とする。

請求項３の発明は、請求項２の発明において、前記周波数分離部が、略４ｋＨｚ以下の周波数帯域を目的帯域とし、前記略４ｋＨｚを超える周波数をその他の周波数帯域とすることを特徴とする。

請求項４の発明は、ミュージカルノイズを生じる程度までに圧縮された圧縮音声信号を記憶する記憶部と、前記記憶部に記憶されている圧縮音声信号を伸長してソース信号として出力するデコード部と、デコード部が出力したソース信号が入力される請求項１乃至請求項３のいずれかに記載の音声信号処理装置と、を備えたことを特徴とする。

この発明では、ミュージカルノイズを含んだ音声信号を入力し、この音声信号に対して、その音声信号のその他の（目的外の）周波数成分が優勢なときは、この目的外の周波数成分をフィルタによって抑制することにより、ミュージカルノイズを抑制する。ミュージカルノイズは、時間的・周波数的に孤立した信号成分である。人声を圧縮する場合、ミュージカルノイズの信号成分は、一般的に、４ｋＨｚを超える周波数帯に分布する。

この発明によれば、高圧縮やノイズ除去により、ミュージカルノイズを含んだ音声信号であっても、このミュージカルノイズを目立たなくして、自然な聴感で再生することができる。

図面を参照してこの発明の実施形態について説明する。図１はこの発明の実施形態である音声信号処理装置のブロック図である。
上述したように、高圧縮率で圧縮された音声信号や、高ノイズ環境で収音されスペクトルサブストラクション法でノイズが除去された音声信号には、ミュージカルノイズと呼ばれるノイズ成分が含まれている。ミュージカルノイズは、時間的および周波数的に孤立した信号成分によるノイズであり、「キュロキュロ」または「ピロピロ」という聴感で聴こえることからミュージカルノイズと呼ばれている。すなわち、音声信号を高圧縮率で圧縮すると多くの周波数成分が省かれてしまうため、圧縮された音声信号を伸長した場合、主要な信号成分が存在しない周波数帯に、時間的および周波数的に孤立した信号成分が生じることに起因するノイズである。

一般的に、人間の発話音声は、３ｋＨｚ以下の周波数帯域に主要なフォルマントが分布し、４ｋＨｚを超える周波数帯域に破裂音などの子音の信号成分やランダムなノイズ成分が分布している。したがって、人間の発話音声を保存する圧縮方式で圧縮された場合、主として４ｋＨｚ〜６ｋＨｚの周波数帯域にミュージカルノイズが分布する。

図１の音声信号処理装置は、このミュージカルノイズを抑制するため、以下の処理を実行する。ミュージカルノイズを含む音声信号（ソース信号）を入力し、４ｋＨｚを超える高域成分と４ｋＨｚ以下の低域成分に分離して比較する。高域成分が優勢な時間帯は、ミュージカルノイズが耳につきやすい状態であるとして高域成分を減衰させる。

すなわち、４ｋＨｚ以下の低域成分が優勢な時間帯は、発話されている時間帯であると考えることができる。母音は、連続した周期信号であるため、高圧縮された場合でも時間周波数的に孤立した成分が発生しにくいうえ、もしミュージカルノイズが発生しても母音によってマスクされ、リスナーに耳障りなほど顕著になることは殆どない。

一方、４ｋＨｚを超える高域成分が優勢な時間帯は、発話されておらずノイズのみの時間帯または破裂音等の子音が発音されている時間帯と考えることができる。ノイズや破裂音等の子音は、時間的に連続せずランダムに発生するため、高圧縮した場合、時間周波数的に孤立した成分が発生しやすく、これが再生されるとミュージカルノイズとなる。また、ミュージカルノイズをマスクする母音も発音されていないと考えられる。したがって、４ｋＨｚを超える高域帯域が優勢な場合は、高域成分を抑制することにより、リスナーに対して耳障りなミュージカルノイズが気にならないようにする。

図１において、入力端子１０（ＩＮＰＵＴ）から入力された音声信号は、遅延回路１３を介して高域カットフィルタ１４に入力されるとともに、レベル比較回路１１に入力される。レベル比較部１１は、この音声信号について、上述した４ｋＨｚ以下の低域成分と４ｋＨｚ以上の高域成分とのレベルを比較し、比較結果を係数発生部１２に出力する。

係数発生部１２は、入力された比較結果に基づいて高域カットフィルタ１４のフィルタ係数を算出して、高域カットフィルタ１４にセットする。係数発生部１２は、入力された比較結果が高域が優勢である旨の結果であった場合には、カットオフ周波数を低下させて高域カットフィルタ１４に強く高域を抑制させる。

すなわち、この実施形態では、ミュージカルノイズが目立つ場合の高域成分の抑制は、高域カットフィルタ１４のカットオフ周波数を低下させることで行っている。これ以外に、高域成分の抑制を、高域成分の経路にアッテネータを接続し、前記比較結果に基づいてアッテネータの減衰率を変化させるようにしてもよい。

なお、レベル比較部１１による低域成分と高域成分のレベル比較、係数発生部１２によるフィルタ係数の発生および高域カットフィルタ１４へのセットは、入力される音声信号のサンプリングタイミングごとに行われる。

高域カットフィルタ１４により、適宜高域をカットされた音声信号は音質補正フィルタ１５に入力される。音質補正フィルタ１５は、たとえば、１または複数のピーキングフィルタを備えたイコライザで構成され、自動的にまたはユーザのマニュアル操作により、音声信号の音質特に明瞭感が調整される。高域カットフィルタ１４で音質が調整された音声信号は、後段、たとえばＤ／Ａコンバータやデジタルアンプ等に出力される。

図２はレベル比較部１１のブロック図である。入力された音声信号はローパスフィルタ（ＬＰＦ）２１、ハイパスフィルタ（ＨＰＦ）２３に入力される。ローパスフィルタ２１は、低域成分、すなわち入力された音声信号のうち４ｋＨｚ以下の周波数成分を選択的に通過させる。一方、ハイパスフィルタ２３は、高域成分、すなわち入力された音声信号のうち４ｋＨｚを超える周波数成分を選択的に通過させる。ローパスフィルタ２１を通過した低域成分はエンベロープ検出部２２に入力される。ハイパスフィルタ２３を通過した高域成分はエンベロープ検出部２４に入力される。エンベロープ検出部２２は、低域成分のエンベロープを検出する。また、エンベロープ検出部２４は、高域成分のエンベロープを検出する。

ここで、エンベロープは、信号の各周期の最大振幅点をつないだ曲線であり、その信号の振幅レベルを示す値である。したがって、エンベロープ検出部２２、２４がサンプリングタイミング毎に出力するエンベロープの値を、以下、振幅レベルと呼ぶ。

エンベロープ検出部の構成は自由であるが、この実施形態では、図３に示すように、比較的軽負荷で実現できるピークを検出してディケイ値を減算するエンベロープ検出部を用いている。詳細は後述する。

エンベロープ検出部２２が検出した低域成分の振幅レベル、および、エンベロープ２４が検出した高域成分の振幅レベルは、加算器（減算器）２５に入力される。

加算器２５は、サンプリングタイミング毎に、高域成分の振幅レベルから低域成分の振幅レベルを減算したレベル差信号を出力する。このレベル差信号は、比較器２６の一方の入力端子に入力される。比較器２６の他方の入力端子にはしきい値が入力される。比較器２６は、レベル差信号としきい値を比較し、レベル差信号がしきい値を超えていれば１を出力し、レベル差信号がしきい値以下であれば０を出力する。

しきい値が０の場合、高域成分の振幅レベルが低域成分の振幅レベルを超えていれば高域が優勢と判断されて１が出力される。また、しきい値が負値の場合、高域成分の振幅レベルが低域成分の振幅レベルよりもしきい値分小さい値を超えていれば高域が優勢と判断されて１が出力される。またさらに、しきい値が正値の場合、高域成分の振幅レベルが低域成分の振幅レベルよりもしきい値分大きい値を超えていれば高域が優勢と判断されて１が出力される。すなわち、しきい値は、高域成分の振幅レベルが低域成分の振幅レベルに対してどの程度の大小関係になれば高域が優勢であるかを決定するためパラメータである。しきい値は経験的に設定すればよい。

比較器２６が比較結果として出力する値は、０または１の不連続な値である。このような、不連続な値をパラメータとしてフィルタ係数を算出すると、フィルタの特性が不連続に切り換えられ、フィルタリングされる音声信号に「バチッ」と言うようなノイズが発生するおそれがある。そこで、比較器２６の後段にローパスフィルタ（ＬＰＦ）２７を設け、比較器２６が出力した比較結果の値をローパスフィルタ２７で時定数を与えて平滑化し、滑らかに変化するようにした。ローパスフィルタ２７の時定数は、カットオフ周波数の追従スピードを決定するパラメータとなる。この時定数により、ローパスフィルタ２７の出力は、オーバーシュートして０〜１の範囲を超えるおそれがあるため、ローパスフィルタ２７の後段にリミッタ２８を接続し、このリミッタ２８により、滑らかに変化する比較結果の値が０〜１の範囲に収まるようにする。リミッタ２８の出力は、後段の係数発生部１２に出力される。

図３（Ａ）は、前記エンベロープ検出部２２，２４の一例を示す図である。このエンベロープ検出部は、同図（Ｂ）に示すアナログの整流回路を模した構成になっており、交流信号を同図（Ｃ）に示すような直流信号に変換する。

同図（Ａ）のエンベロープ検出部において、絶対値算出部３１は、入力された信号（高域成分または低域成分）の振幅値を絶対値化する。ｄＢ変換部３２は、絶対値化された振幅値をｄＢ値に変換する。加算器（減算器）３３は、ｄＢ変換部３２から出力された振幅値から前回のサンプリングタイミングのセレクタ３４の出力値からディケイ値を減算した値を減算してセレクタ３４に入力する。セレクタ３４は、加算器３３から入力された値が０または正値であればｄＢ変換器３２から出力された振幅値を選択して後段に出力する。また、セレクタ３４は、加算器３３から入力された値が負値であれば前回のサンプリングタイミングの出力値からディケイ値を減算した値を再度後段に出力する。

セレクタ３４の出力値は、加算器（減算器）３５でディケイ値を減算されたのち振幅レベルとして出力される。さらに、この振幅レベルが次のサンプリングタイミングの比較対象として１サンプル遅延部３６に記憶される。
これを毎サンプル繰り返すことによって、入力された高域成分または低域成分のエンベロープを求め、これを振幅レベルとして出力する。

なお、同図（Ｂ）の整流回路の動作は以下のようである。ダイオードブリッジ４１は、交流信号（交流電源電圧）を絶対値化する。交流信号は、絶対値化されることにより、交流時の約１．４倍のピーク電圧を有する脈流となる。この脈流をコンデンサ４２および抵抗４３で平滑する。コンデンサ４２は、脈流の電圧上昇に伴って電荷を蓄積し、脈流の電圧が低下し始めると蓄積した電荷を抵抗４３（および負荷）に向けて放電することにより、出力電圧が脈流のように低下しないようにする。これにより、出力電圧が平滑される。

この構成は、同図（Ｂ）に示すアナログ回路をデジタル的に模したものである。
図４（Ａ）は、係数発生部１２のブロック図である。係数発生部１２は、レベル比較部１１から入力された比較結果信号に基づいて高域カットフィルタ１４のフィルタ係数を算出する。比較結果信号は、０〜１の値をとり、０に近づくほど高域が優勢であることを示すので、０に近づくにつれてカットオフ周波数が下がるように係数を算出する。カットオフ周波数の決定およびフィルタ係数の算出は、サンプリングタイミング毎に実行される。

係数発生部１２には、比較結果信号のほかに、高域カットフィルタ１４のカットオフ周波数の上限値および下限値も入力される。加算器（減算器）５２によってカットオフ周波数の上限値と下限値の差すなわち変化幅が算出される。この変化幅は乗算器５１に入力される。乗算器５１には、さらに比較結果信号が入力される。比較結果信号は０〜１の値をとるため、乗算器５１では、カットオフ周波数の変化量が算出される。加算器５３は、カットオフ周波数の下限値に変化量が加算され、このサンプリングタイミングにおけるカットオフ周波数ｆｃが算出される。これにより、カットオフ周波数の上限値と下限値との間で、比較結果信号に応じたカットオフ周波数が決定される。

係数算出部５４は、このカットオフ周波数ｆｃおよびゲイン（減衰量）に基づいてフィルタ係数を算出する。係数算出部５４が実行する係数の算出は、フィルタタイプに応じた任意の手法を用いればよい。ここでは、２次のＩＩＲフィルタをハイシェルビングフィルタとして使う場合のフィルタ係数算出の手法について説明する。

２次ＩＩＲフィルタの係数は、アナログのハイシェルビングフィルタの伝達関数

と、２次のＩＩＲフィルタの伝達関数

◎

とを対応させて算出することができる。

とすると、ｓｚ変換することにより、以下の式から各フィルタ係数が算出される。

なお、係数発生部１２の処理能力が低い場合には、予め比較結果信号の種々の値に対応するフィルタ係数を算出してテーブルとして記憶しておき、入力された比較結果信号に対応するフィルタ係数を読み出して高域カットフィルタ１４にセットするようにしてもよい。

上記構成により、係数発生部１２は、図４（Ｂ）に示すような特性になるフィルタ係数を発生して高域カットフィルタ１４に設定する。これにより、高域が優勢でない場合には、カットオフ周波数を上限値に維持して音質を優先し、高域が優勢なときは瞬時的にカットオフ周波数を低くしてミュージカルノイズが目立たないように制御する。

図５は、この音声信号処理装置に入力された音声信号と、この音声信号に対応した各部の動作を説明する図である。上段のグラフの第１段が入力された音声信号の波形を示している。これは人間の発話音声の波形である。下段２つのスペクトログラムのうち、上側がこの入力された音声信号（処理前）の周波数スペクトルを示す図である。これらの図によると、発話していない時間帯や発話開始時の子音が発音されている時間帯に高域成分が目立っている。

グラフの第２段は、低域成分と高域成分のエンベロープすなわち振幅レベルの変化を示す図である。このグラフによると、発話中は低域成分が優勢であるが、無音の時間帯や発話開始時に高域成分が優勢になっていることがわかる。グラフの第３段は、比較結果信号を示す図である。このうち、１と０の間を不連続に変化しているものが比較器２６の出力（Ｒａｗｓｉｇｎａｌ）である。滑らかに変化しているものがローパスフィルタ２７の出力（ＬＰＦｏｕｔ）である。そして、グラフの第４段が高域カットフィルタ１４にセットされるフィルタ係数のカットオフ周波数を示す図である。カットオフ周波数は通常は、上限値（８０００Ｈｚ）に設定され、高域成分が優勢なときのみ瞬時的に低下するよう制御される。この例では下限値は４０００Ｈｚである。

上記のようにカットオフ周波数が制御された高域カットフィルタ１４で処理された音声信号のスペクトログラムを同図の最下段（処理後）に示す。その上の処理前のスペクトログラムに比して、高域成分が優勢な時間帯に、その高域成分がカットされていることが判る。

以上説明したように、上記実施形態の音声信号処理装置を用いれば、ミュージカルノイズを含む音声信号を再生する場合でも、聴きやすい音質で再生することができる。したがって、この音声信号処理装置は、ミュージカルノイズを含む音声信号を再生する用途全般に適用可能である。たとえば、高圧縮率で圧縮された音声信号をデコード・再生する装置、高ノイズ環境で収音された音声信号をスペクトルサブストラクション法でノイズ除去する装置等に適用することができる。

図６に、その一例として発音機能付の電子辞書を示す。発音機能付の電子辞書には、多数の見出し語や例文の手本となる発音を録音したオーディオデータが記憶されている。一般的に電子辞書は、携帯サイズであるためメモリの容量が限られており、各オーディオデータは高圧縮率で圧縮されている。

電子辞書は、制御部６０、メモリ６２、操作部６３、表示部６４、音声信号処理部６５、Ｄ／Ａコンバータ６６、アナログアンプ６７、スピーカ６８を備えている。メモリ６２は、辞書データや手本発音のオーディオデータを記憶しており、ＲＯＭやフラッシュメモリ等で構成されている。制御部６０は、マイクロコンピュータで構成され、装置全体の動作を制御するとともに、メモリ６２に記憶されているオーディオデータを読み出して圧縮を解除（デコード）するデコーダ部６１を有している。操作部６３は、キーボードやタッチパネルを有し、ユーザの操作を受け付ける。表示部６４は、液晶ディスプレイを含み、ユーザが検索した見出し語等を表示する。

音声信号処理部６５は、上記図１〜図４で説明した音声信号処理装置であり、デコーダ部６１がデコードしたオーディオ信号を処理してミュージカルノイズを抑制する。Ｄ／Ａコンバータ６６は、音声信号処理部６５から出力されたオーディオ信号をアナログのオーディオ信号に変換する。アナログアンプ６７は、Ｄ／Ａコンバータ６６でアナログ信号に変換されたオーディオ信号を増幅してスピーカ６８に出力する。スピーカ６８は、入力されたオーディオ信号を音響として放音する。

上記構成の電子辞書では、メモリ６２に記憶されている手本発音のオーディオデータが高圧縮のオーディオデータであって、ミュージカルノイズを含むものであっても、音声信号処理部６５でこれをミュージカルノイズでない成分とすることができるため、手本発音を聴きやすい音声で再生することができる。

上記実施形態では、人間の発話音声を圧縮したオーディオデータを再生する場合について説明したが、目的とする音声信号は人間の発話音声に限定されない。たとえば、楽器の楽音等に適用してもよい。また、目的とする音声信号が異なれば、その周波数分布や音質的特性が異なり、それに応じてミュージカルノイズが発生する周波数帯域も変化するが、上の実施形態で述べた各フィルタのカットオフ周波数は一例であり、目的とする音声信号に合わせて適宜設定されるものである。

この発明の実施形態である音声信号処理装置のブロック図同音声信号処理装置のレベル比較部のブロック図同レベル比較部のエンベロープ検出部の構成および機能を説明する図前記音声信号処理装置の係数発生部の構成および機能を説明する図前記音声信号処理装置の各部の信号波形を示す図同音声信号処理装置が適用される電子辞書のブロック図高圧縮率で圧縮されたオーディオ信号の再生時のスペクトログラムを示す図

符号の説明

１１…レベル比較部
１２…係数発生部
１４…高域カットフィルタ

Claims

ミュージカルノイズを含む音声信号であるソース信号を入力する入力部と、
前記ソース信号を、このソース信号中の目的とする信号成分を含む周波数帯域である目的帯域の成分と、その他の周波数帯域の成分に分離し、前記目的帯域の成分と前記その他の周波数帯域の成分とを比較するレベル比較部と、
前記ソース信号をフィルタリングするフィルタと、
前記フィルタにフィルタ係数をセットするフィルタ係数発生部であって、前記レベル比較部の比較結果が、前記その他の周波数帯域の成分が優勢である旨の結果であったとき、前記その他の周波数帯域がカットされるようにフィルタ係数を変更するフィルタ係数発生部と、
を備えた音声信号処理装置。
前記目的とする信号成分は、人間の発話音声の信号成分である請求項１に記載の音声信号処理装置。
前記周波数分離部は、略４ｋＨｚ以下の周波数帯域を目的帯域とし、前記略４ｋＨｚを超える周波数をその他の周波数帯域とする請求項２に記載の音声信号処理装置。
ミュージカルノイズを生じる程度までに圧縮された圧縮音声信号を記憶する記憶部と、
前記記憶部に記憶されている圧縮音声信号を伸長してソース信号として出力するデコード部と、
デコード部が出力したソース信号が入力される請求項１乃至請求項３のいずれかに記載の音声信号処理装置と、
を備えた音声再生装置。