JP6333043B2

JP6333043B2 - 音声信号処理装置

Info

Publication number: JP6333043B2
Application number: JP2014088752A
Authority: JP
Inventors: 山本　裕; 裕山本; 宏杰史
Original assignee: 山本　裕; 裕山本
Priority date: 2014-04-23
Filing date: 2014-04-23
Publication date: 2018-05-30
Anticipated expiration: 2034-04-23
Also published as: JP2015206958A

Description

本発明は、帯域制限された狭帯域の音声信号を帯域拡張する音声信号処理装置に関し、さらに詳しくは、携帯電話等における通話音質を改善するための音声信号処理装置に関する。なお、本明細書における「携帯電話」は、いわゆるスマートフォンなど、音声通信機能を有する各種情報通信端末を含むものとする。

無線電波の周波数帯域は限られた資源であり、これを有効に利用するために、携帯電話では低ビットレートの音声符号化方式が採用されている。例えば第３世代携帯電話方式の一つであるＷ−ＣＤＭＡ（Wideband Code Division Multiple Access）方式では、音声符号化方式としてＡＭＲ（Adaptive Multiple Rate）方式が採用されている。ＡＭＲ方式は、時間領域での符号化であるＰＣＭ（Pulse Code Modulation）や周波数領域での符号化であるＭＰ３などのように信号の波形をできるだけ忠実に再現する波形符号化方式ではなく、波形符号化と人間の発声メカニズムのモデリングを取り入れた分析合成符号化とを組み合わせたハイブリッド符号化方式である。そのため、ＡＭＲ方式は特に音声信号に対して高い圧縮効率を示す。

しかしながら、ＡＭＲ方式で変換された音声信号は３．４kHz以下の狭帯域音声信号であり、原アナログ音声信号の３．４kHz以上の高周波成分が全て失われる。一般的に男性の声には１００Hz〜８０００Hz、女性では１５０〜１００００Hz程度の周波数成分が含まれていると言われており、上述したような携帯電話の音声の周波数帯域では高周波成分の多くが失われてしまう。そのため一般に、携帯電話での通話音声はこもった不明瞭なものとなり、その音質は十分とは言い難い。その結果、携帯電話では、声のみによって話者が誰であるかを識別したり似ている発音を聞き分けたりすることが困難である場合がよくある。こうしたことから、携帯電話の通話音声品質に関しては、不満や不便を感じる使用者が多いのが実状である。

近年、ＬＴＥ（Long Term Evolution）を始めとする無線技術の進展によって、利用可能な伝送帯域は飛躍的に向上しつつある。これにより、携帯電話においても、現状の一般的な狭帯域音声信号よりも高品質な広帯域音声信号（７kHzまで）の伝送が可能となりつつある。これに対応して、広帯域音声信号を扱える音声符号化方式として、ＡＭＲ方式の広帯域バーションであるＡＭＲ−ＷＢ方式が既に標準化されている。しかしながら、携帯電話での広帯域音声通話の実現にはインフラの変更が必要となるため、そうした音声符号化方式の移行は必ずしも容易ではない。また、災害発生などによる回線混雑の状態を考えると、伝送情報量を増加することなく高品質な広帯域音声コミュニケーションを実現する技術は必須である。こうしたことから、情報量を増加させずに広帯域音声通話を実現する手法として、音声信号の帯域拡張方法が広く研究されている。

帯域拡張方法は、狭帯域音声信号のみから広帯域音声信号を再構築する技術であり、従来、様々な統計的機械学習に基づいた手法が提案されている（例えば特許文献１など参照）。しかしながら、これら従来の帯域拡張方法では、膨大な学習データを用意する必要があるとともに多大な処理時間と計算量を要するため、リアルタイム処理や携帯電話への実装にはあまり適さない。また、事前の統計学習に基づく帯域拡張方法では、音声品質が実際に使用する言語の種類や伝送路特性の状態などに大きく依存するため、常に良好な音声品質が得られるとは限らないという問題もある。

特開２０１０−５５００２号公報特許第３８２０３３１号公報特許第３８５１７５７号公報特許第５３０５３０６号公報

ベルンド・アイザール（Bernd Iser）、ほか２名、「バンドウィズス・イクステンション・オブ・スピーチ・シグナルズ（Bandwidth Extension of Speech Signals）」、スプリンガー・サイエンス＋ビジネス・メディア（Springer Science+Business Media）、2008年カルゴネカー（P.P.Khargonekar）、ほか１名、「ディレイド・シグナル・リコンストラクション・ユージング・サンプルド−データ・コントロール（Delayed signal reconstruction using sampled-data control」、プロシーディングス・オブ・３５ス・コンファレンス・オン・デシジョン・アンド・コントロール（Proc. of 35th Conf. on Decision and Control）、1996年、pp.1259-1263 山本、ほか２名、「コンピュテーション・アンド・コンバージェンス・オブ・フリクエンシ・レスポンス・ビア・ファスト・サンプリング・フォー・サンプルド−データ・コントロール・システムズ（Computation and convergence of frequency response via fast sampling for sampled-data control systems）」、プロシーディングス・オブ・３６ス・コンファレンス・オン・デシジョン・アンド・コントロール（Proc. of 36th Conf. on Decision and Control）、1997年、pp.2157-2162

本発明は上記課題を解決するために成されたものであり、その主たる目的は、少ない計算量で且つ短い処理時間で狭帯域音声信号から良好な音質の広帯域音声信号を再構築することができる音声信号処理装置を提供することにある。

本願発明者は長年に亘り、連続時間特性を扱うことができるサンプル値制御理論、より詳しくはサンプル値Ｈ^∞制御をデジタルオーディオ信号を扱うデジタル／アナログ変換技術やサンプリングレート変換器などに導入する試みについて研究を続けてきた（特許文献２、３など参照）。この技術は、元のデジタル信号のサンプルを単に離散時間信号としてのみ捉えるのではなく、サンプル間応答に含まれるアナログ特性をも考慮してＤ／Ａ変換やサンプリングレート変換の際のデジタルフィルタの設計を行うことによって、アナログオーディオとしての聴感上での音質が最良又はそれに近い状態となるようにすることを意図するものであった。さらにまた、本願発明者は、こうした技術を補聴器に利用し、難聴者の聴覚特性を考慮したフィルタリング処理を行うことで、より自然な音が得られるようにした補聴器を提案している（特許文献４）。
本願発明者は、上述のようなサンプル値Ｈ^∞制御により設計されたデジタルフィルタを狭帯域音声信号に対する帯域拡張に適用することに想到し、音声品質がより良好になるような工夫を加えることで本願発明に至った。

即ち、上記課題を解決するために成された本発明は、入力された狭帯域音声信号の周波数帯域を高域側に拡張する音声信号処理装置であって、
a)狭帯域音声信号に対し線形予測分析を行うことで狭帯域周波数スペクトル及び狭帯域音源信号を求める線形予測分析部と、
b)前記狭帯域音源信号に対しアップサンプリング及び非線形処理を行うことで、該狭帯域音源信号を広帯域音源信号に変換する音源帯域拡張処理部と、
c)前記狭帯域周波数スペクトルに基づいて、入力された狭帯域音声信号が有声音又は無声音のいずれであるかを判断する有声音／無声音判別部と、
d)前記狭帯域周波数スペクトルによる狭帯域声道伝達特性に対しアップサンプリング及びフィルタリング処理を行うことで、該狭帯域声道伝達特性を広帯域声道伝達特性に変換する伝達特性帯域拡張処理部であって、前記フィルタリング処理のためのフィルタとして、声道の連続時間周波数特性を有するアナログフィルタを通してフィルタリング処理されるアナログ音声信号と、該アナログ音声信号を離散化しアップサンプリングしてフィルタリングしたあとに連続信号に戻した復元音声信号との誤差が小さくなるように、サンプル値制御理論によって設計されたフィルタ係数が設定されたデジタルフィルタを用いる伝達特性帯域拡張処理部と、
e)前記有声音／無声音判別部による判別結果に基づいて、前記デジタルフィルタのフィルタ係数として、有声音用フィルタ係数と無声音用フィルタ係数のいずれかを選択的に前記デジタルフィルタに設定するフィルタ係数選択部と、
f)前記広帯域音源信号に対し前記広帯域伝達特性によるフィルタリング処理を行うことにより広帯域音声信号を求める音声復元部と、
を備えることを特徴としている。

本発明に係る音声信号処理装置には、例えば携帯電話の受信系においてデコードされた狭帯域（例えば３．４kHz以下の周波数帯域）の音声信号が入力される。線形予測分析部は、この狭帯域音声信号に対して線形予測分析を行うことにより、狭帯域周波数スペクトルと狭帯域音源信号とを求める。この狭帯域周波数スペクトルは、音声生成モデルにおける声道の伝達特性を反映しているフィルタの周波数特性である。狭帯域音声信号の帯域拡張を行うには、音源信号と声道伝達特性とをともに帯域拡張する必要があるが、音声コミュニケーションにおける話者の声質の特徴は主として声道伝達特性に依存するから、音声品質を向上させるには特に声道伝達特性の帯域拡張が重要である。そこで、伝達特性帯域拡張処理部が狭帯域声道伝達特性を広帯域声道伝達特性に変換する際に、サンプル値制御理論によって設計されたフィルタ係数が設定されたデジタルフィルタを用いる。

ここで用いるサンプル値制御理論は好ましくはサンプル値Ｈ^∞制御理論であり、例えば特許文献２、３などに開示されている技術である。例えば携帯電話の受信系における狭帯域音声信号の帯域拡張である場合、送信系における話者が発した音声と、受信系において受聴者が聴く音声とができるだけ一致していることが望ましい。そこで、本発明に係る音声信号処理装置では、音声モデルにおける声道の連続時間周波数特性を有するアナログフィルタを通してフィルタリング処理されるアナログ音声信号と、該アナログ音声信号を離散化しアップサンプリングしてフィルタリングしたあとに連続信号に戻した復元音声信号との誤差が小さくなるように、サンプル値制御理論によりデジタルフィルタが設計される。

ただし、有声音は周期的な声帯振動を音源として生成される音であるのに対し、無声音は声帯を振動させることなく気息雑音を音源とした音であり、声道の連続時間周波数特性は大きく相違する。そこで、サンプル値制御理論によるデジタルフィルタ設計の際の声道の連続時間周波数特性を有声音用と無声音用との２種類用意するようにし、有声音に対するフィルタ係数と無声音に対するフィルタ係数とをそれぞれ求めておく。フィルタ係数選択部はこうして予め用意された有声音用又は無声音用のフィルタ係数のいずれかを選択して伝達特性帯域拡張処理部のデジタルフィルタに設定する。

有声音用又は無声音用のフィルタ係数のいずれかを選択するために、有声音／無声音判別部は入力された狭帯域音声信号が有声音又は無声音のいずれであるかを略リアルタイムで判断する。一般的に有声音と無声音との識別は音源信号の周期性の有無により行われるが、周期性の有無だけでは高い精度の識別は難しく、また周期性の有無の判断自体も十分な信頼性を以て行うことは難しい。そこで、本発明に係る音声信号処理装置において、有声音／無声音判別部は、信号の周期性の検出結果と併せて、周波数スペクトルの近似的な傾きに基づいて有声音と無声音とを判別する構成とするとよい。

具体的には、入力された狭帯域音声信号に基づく周波数スペクトルに対し線形回帰処理を実施して回帰直線を求めると、該回帰直線はスペクトル全体の傾きを反映している。一般に、有声音では低周波数域の成分が強く、周波数が大きくなるに伴い強度が低下する。逆に無声音では、７kHz程度以下の周波数範囲では周波数が大きくなるに伴い強度が増加する。そのため、上記回帰直線の傾きを判定することで、有声音と無声音とを識別することができる。この構成によれば、有声音と無声音とを高い精度で以て識別することができるので、入力された狭帯域音声信号に応じて適切な特性のデジタルフィルタを選択して帯域拡張を行うことができる。それによって、復元された広帯域音声の品質を高めることができる。

特許文献２、３等にも記載されているように、サンプル値制御理論により設計されたデジタルフィルタはＦＩＲ型又は低次のＩＩＲ型フィルタとすることができるため、ハードウエア規模は小さく、演算量も少なく時間遅延量も小さい。そのため、本発明に係る音声信号処理装置によれば、リアルタイムの処理が可能であるとともにコストの増加も抑えながら、音声品質の高い、つまりは高音域がこもったような感じがなく話者の識別が容易であるような広帯域音声信号を得ることができる。

本発明の一実施例である音声信号処理装置のブロック構成図。本実施例の音声信号処理装置において声道伝達特性の帯域拡張処理に使用されるフィルタ設計のための誤差系モデルを示すブロック図。図２に示した誤差系モデルを単一レート系モデルに変換したときのブロック図。図２に示した誤差系モデルの一般プラント形式のブロック図。図４の形式を有限次元離散時間系に変換したときのブロック図。広帯域音声信号の周波数スペクトルの一例を示す図。有声音用の原信号アナログ周波数特性を示すボード線図。無声音用の原信号アナログ周波数特性を示すボード線図。有声音／無声音判別処理のフローチャート。有声音・無声音判別のための線形回帰処理結果の一例を示す図。オリジナル広帯域音声信号、狭帯域音声信号、及び帯域拡張した復元音声信号の周波数スペクトルの一例を示す図。ＰＥＳＱ値の比較を示す図。

本発明に係る音声信号処理装置の一実施例を、添付図面を参照して説明する。
図１は本実施例の音声信号処理装置のブロック構成図である。この音声信号処理装置は、例えば携帯電話の受信系回路において、アンテナを介して受信した伝送信号をデコードして得られる狭帯域音声信号を入力信号とし、これを処理して広帯域音声信号に変換しアナログ音声信号出力のためのＤ／Ａ変換器へ出力する装置である。なお、以下の説明では、特に記載しない限り、狭帯域音声信号、広帯域音声信号等、ここで扱う信号はデジタルデータである。

（１）音声信号処理装置の全体構成
本実施例の音声信号処理装置は、所定時間長さの狭帯域音声信号に対して線形予測分析を行って狭帯域周波数スペクトル及び狭帯域音源信号を取得する線形予測分析部１と、狭帯域音源信号に非線形変換などの処理を行うことで狭帯域音源信号を広帯域残差信号である広帯域音源信号に帯域拡張する非線形帯域拡張処理部２と、アップサンプラ３１と補間フィルタ３２を含み、狭帯域周波数スペクトルである声道伝達特性を帯域拡張する伝達特性帯域拡張処理部３と、狭帯域周波数スペクトルに基づいて入力された狭帯域音声信号が有声音であるか無声音であるかを判別する有声音／無声音判別部４と、いずれも上記補間フィルタ３２のフィルタ係数である有声音用フィルタ係数と無声音用フィルタ係数とを記憶するフィルタ係数記憶部５、６と、有声音／無声音判別部４による判別結果に基づいてフィルタ係数を選択する係数選択部７と、非線形帯域拡張処理部２で帯域拡張された広帯域音源信号に対し伝達特性帯域拡張処理部３で帯域拡張された広帯域声道伝達特性によるフィルタリングを行うことで広帯域音声信号を生成する広帯域音声合成処理部８と、を機能ブロックとして備える。

これら機能ブロックを含む音声処理装置は、例えばデジタルシグナルプロセッサ（ＤＳＰ）などの１チップのＬＳＩで構成することができる。或いは、音声信号復号用のデコーダなどのＬＳＩに組み込むこともできる。
以下、各部の具体的な処理動作について説明する。

（２）線形予測分析部１における処理動作
線形予測分析部１は、狭帯域音声信号に対して線形予測演算処理を適用することで、音声信号の周波数スペクトル包絡を推定するとともに、そうしたスペクトル中の声道特性がほぼ除去された残差信号を狭帯域音源信号として取得する。具体的には、線形予測分析部１ではまず、連続的な狭帯域音声信号に対し適切な窓関数、例えば対称ハミング窓関数を用いることで所定長さの音声信号をフレームとして切り出す。そして、そのフレームに含まれる音声信号に対し、既知の線形予測分析を行い、狭帯域のスペクトル包絡を表すパラメータ、例えば線形予測係数などを求める。このスペクトル包絡は声道伝達特性であり、音源信号に対して声道伝達特性で表されるフィルタリング処理を行うと音声信号が得られるから、この逆の演算処理により、狭帯域音声信号と声道伝達特性とから予測残差信号としての狭帯域音源信号を算出することができる。

なお、こうした線形予測分析は、従来の帯域拡張方法でも行われている技術であり、例えば非特許文献１などに詳細に開示されている。また、特許文献１でもこうした技術が利用されている。

（３）狭帯域音源信号に対する非線形帯域拡張処理部２での処理動作
本来のアナログ声帯音源には４kHz以上の倍音が含まれるが、携帯電話音声では帯域の制限によって３．４kHz以上の高次倍音が切り捨てられる。これが携帯電話音声の品質劣化の原因の一つであり、音源信号の帯域拡張では３．４kHz以上の高次倍音を復元する。

狭帯域音源信号から高次の倍音成分を生成するために、ここでは既知の非線形変換を用いる。非線形変換にも幾つかの方法があるが、例えば、計算量の少ない方法として広く使われている全波整流を利用することができる。即ち、入力された狭帯域音源信号に対し２倍アップサンプリングを行いカットオフ周波数が３．４kHzであるローパスフィルタを通したあとに全波整流を行う。全波整流は、入力信号の絶対値を出力信号とする非線形処理であり、一つの周波数成分に対してその２以上の偶数倍高次周波数成分を生成する。

ただし、このように生成された高次周波数成分は、本来の基本周波数成分とは異なる振幅を持つ。そこで、全波整流によって得られた信号に対し、各成分の振幅が同程度になるように振幅を調整する白色化処理を行う。上述したように、線形予測分析では、入力信号に対しそのスペクトル包絡を除去することで白色化された残差信号が出力される。したがって、白色化処理として線形予測分析を利用することができる。

（４）狭帯域声道伝達特性に対する伝達特性帯域拡張処理部３での処理動作
上述したように、音声スペクトル包絡に対応したパラメータで表される声道伝達特性は、音声の明瞭度に寄与し個々の話者の発声を特徴付ける最も重要な要素である。そのため、音声品質を高めるには、狭帯域声道伝達特性から広帯域声道伝達特性を適切に復元することが非常に重要である。そこで、本発明に係る音声信号処理装置における帯域拡張法では、この声道伝達特性の帯域拡張に、サンプル値制御理論に基づいて設計された補間フィルタを利用する。即ち、ここでは、狭帯域声道伝達特性の帯域拡張を、離散時間インパルス応答信号の最適補間処理とみなす。これはアップサンプラ３１によって生じたエイリアス成分を利用した帯域拡張の手法であり、遅延と計算量の少ない線形フィルタである補間フィルタ３２を用いて帯域拡張を実現することができる。

ただし、従来の線形フィルタの設計法は全ての信号の完全帯域制限を仮定したものであり、そのままでは帯域拡張に適用できない。そこで、サンプル値制御理論による補間フィルタの設計法を用い、元の信号、つまりはオリジナル音声信号のアナログ広帯域周波数特性を考慮した補間フィルタを設計する。

（４−１）サンプル値制御理論によるフィルタの設計法
サンプル値制御理論は信号補間に基づくデジタル信号の高サンプル化・高精度化にも応用できるという特徴を持ち、補間値を一種のサンプル点間応答と捉えることでデジタル制御の視点からデジタル信号処理における補間値を決定することができる。サンプル値制御理論によりデジタルオーディオ信号を最適に補間する基本的な方法は、特許文献２−４を初めとする種々の文献に記載されているものであるので、詳細な説明は省略し、ポイントについてのみ述べる。

補間に使用する線形フィルタ設計のための誤差系モデルを図２に示す。図２では、下側の信号経路が帯域拡張の信号処理系であり、上側の信号経路がその信号処理系による時間遅れを考慮した遅延系である。
連続時間信号ｗ(ｔ)は全帯域で一様な分布を持つと仮定したアナログ信号であり、伝達特性がＦ(ｓ)であるアナログフィルタ１１を通すことで、モデル化された周波数特性を有する仮想アナログ信号ｙ(ｔ)となる。この信号ｙ(ｔ)は理想サンプラ１３によってサンプリング時間ｈのデジタル信号ｙd[ｋ]となる。ｙd[ｋ]はＭ倍（ここでは２倍の帯域拡張であるのでＭ＝２）のアップサンプラ１４によってサンプリング時間ｈ／Ｍの信号となり、伝達特性がＫ(ｚ)であるデジタルフィルタ１５でフィルタリングされた信号ｕd[ｋ]を得る。この信号ｕdは０次ホールド１６で連続時間信号ｕ(ｔ)に変換され、伝達特性がＰ(ｓ)である平滑化アナログフィルタ１７を通過した後、最終的な復元信号ｚ(ｔ)が得られる。

上側の信号経路上の時間遅れ要素１２は、仮想アナログ信号ｙ(ｔ)に上述した信号処理による時間遅れｍｈ（ｍは正の整数）を与えるものであり、差分器１８により復元信号ｚ(ｔ)と遅延した仮想アナログ信号ｙ(ｔ)との誤差信号ｅを取り出す。この誤差信号ｅも連続時間信号であるから、次式のようにおくことができる。
ｅ(ｔ)＝ｙ(ｔ−ｍｈ)−ｚ(ｔ)
仮想アナログ信号ｙ(ｔ)がオリジナル音声信号であると考えれば、狭帯域音声信号を帯域拡張した後の広帯域音声信号の音声品質を改善することは、誤差信号ｅ(ｔ)をできるだけ小さくすることに相当する。したがって、誤差信号ｅ(ｔ)ができるだけ小さくなるように、デジタルフィルタ１５の伝達特性Ｋ(ｚ)を設計すればよい。

即ち、デジタルフィルタ１５の最適な伝達特性Ｋ(ｚ)を求める設計問題は、アナログ信号ｗから誤差信号ｅへ変換するシステムをＴewとおいたとき、与えられた設計基準値γ＞０に対し、ＴewのＬ²誘導ノルムが次の(1)式を満たすようなデジタルフィルタ１５の伝達特性Ｋ(ｚ)を求めることである。

ただし、アナログフィルタ１１の伝達特性Ｆ(ｓ)は安定且つ厳密にプロパーであり、平滑化アナログフィルタ１７の伝達特性Ｐ(ｓ)は安定且つプロパーであるとする。

図２に示した系はアップサンプラ１４を含むため時変系（マルチレート系）であり、(2)式を解くには時不変系（単一レート系）にする必要がある。そこで、アップサンプラ１４及びむだ時間要素を含むマルチレート系を単一のサンプル周期の有限次元系に変換するために、離散時間リフティングＬ_M及び逆リフティングＬ_M ^-1、並びに離散時間リフティングに対応した０次ホールドである一般化ホールドＨ_h'導入する。特許文献２、３等でよく知られているので詳細な説明は略すが、これらリフティング及び一般化ホールドの導入により、図２に示したマルチレート系のモデルは図３に示す単一レート系のモデルに等価的に変換される。図２における伝達特性Ｋ(ｚ)のデジタルフィルタ１５及び０次ホールド１６は、図３ではそれぞれ伝達特性Ｋ'(ｚ)であるデジタルフィルタ１５ａ及び一般化ホールド１６ａに変換されている。

そのあと、図３中にある連続時間むだ時間要素であるｅ^-mhsを有限次元化するために、系の入力をｍステップだけ遅らせるような変換を行う。これにより、上述したシステムＴewを設計する問題は、伝達特性Ｋ(ｚ)の代わりに非因果的なフィルタｚ^mＫ'(ｚ)を設計する問題に変換される。

さらに上記システムＴewを近似的な離散時間系に変換するために、ＦＳＦＨ（ファーストサンプル・ファーストホールド）手法を適用する。ＦＳＦＨ手法はサンプル値制御系の性能を評価する一手法であって、周期ｈのサンプル値制御系の連続時間入出力をｈ／Ｎ（Ｎは自然数）周期で動作するサンプラとホールドによって離散化し、十分に大きなＮに対する離散時間信号で連続時間信号を近似する方法である。なお、ＦＳＦＨ手法の詳細は非特許文献２、３に記載されている。

設計のために図３を一般化プラント形式に描き直したものが図４である。この図４中に示した連続時間系システム２０の行列式ｇに対しリフティングを行い、ＦＳＦＨ手法を用いて近似離散化すると図５に示す離散時間系に帰着され、サンプル値系システム２１の近似離散時間系Ｇは次の式で与えられる。

ここで、Ｇの各行列及び作用素は次のように定義される。

上記近似離散時間系Ｇを用いて上記(1)式は次の(2)式で近似され、(1)式を満たすような伝達特性Ｋ(ｚ)を求めるということは近似的に有限次元離散時間系の問題に帰着される。

ただし、

である。
以上のことから、(2)式を求め、ごく一般的な離散時間Ｈ^∞制御問題を解けば、所望のデジタルフィルタ１５の伝達特性Ｋ(ｚ)が得られ、これを補間フィルタ３２として利用することができる。

（４−２）アナログフィルタ１１の伝達特性Ｆ(ｓ)の設計
上述したように、本発明における声道伝達特性の帯域拡張法では、予め与えられた原信号のアナログ周波数特性Ｆ(ｓ)によって補間フィルタ３２の最適な特性Ｋ(ｚ)が決定される。一般に、このアナログ周波数特性Ｆ(ｓ)はアナログ原信号の平均若しくは長時間スペクトル包絡近似、又は、原音源の周波数モデルによって設計される。

音声信号はその性質の違いから「有声音」と「無声音」との２種類に大きく分類することができる。有声音と無声音との相違はそれぞれの音源が異なるだけでなく、信号の周波数特性も大きく異なる。具体的には、図６（ａ）に示すように、有声音信号は低周波数域の成分が強く、周波数が大きくなるに伴い徐々にスペクトルの振幅が小さくなっていく。これに対し、図６（ｂ）に示すように、無声音信号は６kHz以上の高周波数域に幅広くエネルギを持ち、７kHzまでのスペクトルは右肩上がりとなっている。そこで、原信号の特性をより正確に帯域拡張された音声に反映するために、有声音と無声音との２種類の周波数モデルを用いてそれぞれ補間フィルタを設計するようにした。

即ち、図６から、ローパス特性と７kHzまでのハイパス特性を持った２種類の周波数モデルＦ(ｓ)を想定し、有声音と無声音それぞれに対応するフィルタ係数を有する補間フィルタを設計する。ここでは、無声音を除去した音声信号の或る程度長い時間に亘る周波数スペクトルと、無声音のみを含んだ音声信号の或る程度長い時間に亘る周波数スペクトルとから周波数モデルＦ(ｓ)を推定している。有声音に用いられる周波数モデルＦ(ｓ)は次式で表される。
Ｆ(ｓ)＝１／｛(Ｔ₁ｓ＋１)(Ｔ₂ｓ＋１)｝
Ｔ₁＝１／２０００・２π
Ｔ₂＝１／６０００・２π
この周波数モデルＦ(ｓ)のボード線図を図７に示す。一方、無声音に用いられる周波数モデルＦ(ｓ)は次式で表される。
Ｆ(ｓ)＝(Ｔ₁ｓ＋１)²／｛(Ｔ₂ｓ＋１)(Ｔ₃ｓ＋１)(Ｔ₄ｓ＋１)｝
Ｔ₁＝１／２０００・２π
Ｔ₂＝１／７０００・２π
Ｔ₃＝１／８０００・２π
Ｔ₄＝１／１６０００・２π
この周波数モデルＦ(ｓ)のボード線図を図８に示す。
また、補間フィルタ３２の伝達特性Ｋ(ｚ)を設計するに際して、ｍ＝８、Ｐ(ｓ)＝１／(１＋１．９８９４×１０^-5ｓ)、とした。
以上のような条件の下で上述した離散時間Ｈ^∞制御問題を解く演算を行うことで、有声音用及び無声音用の補間フィルタをそれぞれ設計し、それにより求めた有声音用フィルタ係数及び無性音用フィルタ係数を記憶部５、６に格納しておく。

（５）有声音／無声音判別部４での処理動作
入力された狭帯域音声信号が有声音、無声音のいずれかであるのかに応じて補間フィルタ３２におけるフィルタ係数を切り替えるために、有声音／無声音判別部４は、入力された音声信号に対しリアルタイムで有声音／無声音の判別を行う。図９はこの判別処理のフローチャートである。

判別対象である所定時間長の音声信号が有声音／無声音判別部４に入力されると（ステップＳ１）、その音声信号の自己相関を計算する（ステップＳ２）。一般に、有声音は周期的な信号であるのに対し、無声音は非周期的な信号であるという特徴がある。周期的な信号は自己相関が高くなるから、自己相関の値により信号に周期性があるか否かを判定し（ステップＳ３、Ｓ４）、周期性があると判断されたならば有声音であると判断する（ステップＳ８）。

自己相関を用いた信号の周期性判断は位相歪やランダム雑音に耐性を有するものの、人間の発声した音声波形は整然とした周期構造を持っているわけではないため、周期性検出のみによる有声音／無声音判別では十分な精度を得ることが難しい。そこで、ここでは有声音と無声音それぞれの周波数特性に着目した判別法を併用している。即ち、自己相関の値に基づいて信号に周期性がないと判定されると（ステップＳ４でＮｏ）、次のような手順で周波数スペクトルの傾きαを計算する（ステップＳ５）。

いま、線形予測分析によって得られた声道伝達特性が(3)式で表されるものとする。

この声道伝達特性における周波数応答ゲイン２０log₁₀｜Ｈ(ｅ^jω)｜上のｎ点（ただしｎ＞２）を直線ｙ＝αω＋βで近似する、以下の(4)式に示す線形回帰問題を考える。ただし、サンプリング周波数は１とする。

この(4)式を満たすような解Ｘは一般には存在しないが、二乗誤差||Ａ・Ｘ−ｂ||²を最小にするような解Ｘは次の(5)式により求められる。
Ｘ＝Ｖ・[diag(１／ｗ_j)]・（Ｕ^T・ｂ） …(5)
ただし、ｗ_j＝０のときには１／ｗ_jを０に置き換える。Ａ＝Ｕ[diag(ｗ_j)]Ｖ^TはＡの特異値分解である。

(4)式はｗ_kを適当に設定してそのままで解いてもよいが、ここでは、ｗ_kをｗ_k＝２π（ｋ−１）／１０、ｋ＝１，…，１１とおく。そうするとｂ_kは次の(6)式のようになる。

これは数列｛１，ａ₁，…，ａ₁₀｝に対する離散フーリエ変換に他ならない。そのため、（4）式の右辺は一般的な高速フーリエ変換（ＦＦＴ）により高速に計算することができる。即ち、ステップＳ５における周波数スペクトルの傾きαの計算には高速フーリエ変換を用いればよい。

図１０は、有声音と無声音の周波数特性に対して上述したような線形回帰により回帰直線を求めた処理結果の一例である。図１０に示したように、有声音と無声音それぞれの周波数特性は、回帰直線の傾きαの大きさから判別することが可能であることが分かる。そこで、ここでは傾きαの判定閾値Ｔを３０とし（ただし、横軸を正規化周波数、縦軸をｄＢで表したときの値）、α＞Ｔであれば無声音、それ以外の場合には有声音であると判断する（ステップＳ６、Ｓ７、Ｓ８）。

この有声音／無声音判別法の有効性を検証するために、１２名（男女各６名）の話者が発声したＡＴＲ音素バランス２１６語の連続音声データベースを用いて、有声音／無声音の判別結果を評価した。比較対象である従来判別法としては自己相関法を用いた。その結果、本発明における有声音／無声音判別法では９５％の無声音検出率を達成し、判別精度（無声音として判別された音節中で実際の無声音音節が占めた比率）は従来判別法の５０％から１００％へと大幅に向上したことが確認できた。

以上のように、有声音／無声音判別部４では入力された狭帯域音声信号が有声音、無声音のいずれであるのかを正確に判別することができる。そこで、その判別結果に基づいて係数選択部７は、上述したように記憶部５、６に予め格納されている有声音用フィルタ係数又は無声音用フィルタ係数のいずれかを選択し、伝達特性帯域拡張処理部３の補間フィルタ３２に設定する。これによって、伝達特性帯域拡張処理部３では、入力された狭帯域音声が有声音、無声音のいずれである場合でも、線形予測分析部１で得られた声道の伝達特性に対して原音の周波数特性を考慮した良好な帯域拡張が行われる。

（６）広帯域音声信号の生成
上述したように、非線形帯域拡張処理部２では狭帯域音源信号が広帯域音源信号に変換され、伝達特性帯域拡張処理部３では声道の狭帯域伝達特性が広帯域伝達特性に変換される。そこで、広帯域音声合成処理部８では、広帯域伝達特性で表されるフィルタリング処理を広帯域音源信号に対して実施することで、声道の広帯域伝達特性が反映された広帯域音声信号を得てこれを出力する。

（７）本実施例の音声信号処理装置における音声品質の評価
図１１は、音声品質評価用サンプルに対する処理結果である周波数スペクトルの一例であり、（ａ）はオリジナル広帯域音声、（ｂ）は携帯電話狭帯域音声、（ｃ）は本発明における帯域拡張法で復元した広帯域音声の周波数スペクトルである。（ａ）と（ｂ）とを比較すると、携帯電話狭帯域音声では３．４kHz以上の高域成分が存在しないことが分かる。これに対し、本発明における帯域拡張法による復元音声では、高域成分が再現されており、オリジナルの広帯域音声信号にかなり近い周波数スペクトルが得られていることが分かる。

また、本発明における帯域拡張法により帯域拡張した広帯域音声の音質が元の携帯電話音声と比較してどの程度改善されるかを、客観的音質評価手法の一つである周知のＰＥＳＱ（Perceptual Evaluation of Speech Quality）を用いて評価した。このＰＥＳＱによる評価段階は最も音声品質が低い−０．５から最も音声品質が高い４．５までの範囲である。
国際電気通信連合電気通信標準化部門（ＩＴＵ−Ｔ）によるテスト音声信号及びＰＡＳＬ−ＤＳＲ音声品質評価文の一部を用い、オリジナル広帯域音声とＡＭＲによる狭帯域携帯電話音声、オリジナル広帯域音声と本発明法による帯域拡張法で有声音／無声音判別に従来法を用いたときの広帯域音声、及び、オリジナル広帯域音声と本発明法による帯域拡張法で有声音／無声音判別に上述した方法を用いたときの広帯域音声、の三つのケースについて行った客観的音質比較実験のＰＥＳＱ値を図１２に示す。

図１２から分かるように、上述した有声音／無声音判別法を使用した本発明による帯域拡張法に対する広帯域音声では、ＰＥＳＱ値が約２．２から平均して約０．６程度改善されて２．８になっている。一方、有声音／無声音判別に従来の自己相関法を用いた場合には、ＰＥＳＱ値が２．３５３から２．７８５に約０．４３程度改善されている。このことから、上述したサンプル値制御理論による帯域拡張法を用い、これに上述した有声音／無声音判別法を加えることによって、オリジナル音声に一層近い良好な品質の音声が得られることが確認できた。また、様々な言語や話者による音声に対して一様に音質の改善効果が得られることも確認できた。

なお、上記実施例は本発明の一例であり、本発明の趣旨の範囲で変形や追加を行っても本願特許請求の範囲に包含されることは明らかである。
例えば本発明に係る音声信号処理装置は携帯電話の狭帯域音声信号の帯域拡張に利用できるのはもちろんのこと、それ以外の狭帯域音声信号、即ち、狭帯域通信路や狭帯域伝送路、或いは狭帯域記録再生経路などを通して得られる狭帯域音声信号全般の帯域拡張に利用することができる。

また、特許文献４に記載の補聴器用の音声信号処理システムでは、入力されたアナログ音声信号をＡ／Ｄ変換したあとに、アンチエリアシングフィルタ（ローパスフィルタ）を通すことで帯域制限しダウンサンプルすることでサンプルレートを落としている。そして、そのあとにアップサンプラでサンプルレートを戻し補聴器用の補間フィルタにより難聴者の聴覚特性に応じたフィルタ処理を行っている。このとき、ダウンサンプルされたデータは実質的に狭帯域音声データであるから、こうした補聴器用のシステムにおいて、アップサンプラ以降の部分には、本発明に係る音声信号処理装置を利用することができる。それによって、難聴者の聴覚上の音質を一層向上させることができる。

１…線形予測分析部
２…非線形帯域拡張処理部
３…伝達特性帯域拡張処理部
３１…アップサンプラ
３２…補間フィルタ
４…有声音／無声音判別部
５、６…フィルタ係数記憶部
７…係数選択部
８…広帯域音声合成処理部
１１…アナログフィルタ
１２…時間遅れ要素
１３…理想サンプラ
１４…アップサンプラ
１５…デジタルフィルタ
１６…０次ホールド
１７…平滑化アナログフィルタ
１８…差分器

Claims

入力された狭帯域音声信号の周波数帯域を高域側に拡張する音声信号処理装置であって、
a)狭帯域音声信号に対し線形予測分析を行うことで狭帯域周波数スペクトル及び狭帯域音源信号を求める線形予測分析部と、
b)前記狭帯域音源信号に対しアップサンプリング及び非線形処理を行うことで、該狭帯域音源信号を広帯域音源信号に変換する音源帯域拡張処理部と、
c)前記狭帯域周波数スペクトルに基づいて、入力された狭帯域音声信号が有声音又は無声音のいずれであるかを判断する有声音／無声音判別部と、
d)前記狭帯域周波数スペクトルによる狭帯域声道伝達関数に対しアップサンプリング及びフィルタリング処理を行うことで、該狭帯域声道伝達関数を広帯域声道伝達関数に変換する伝達関数帯域拡張処理部であって、前記フィルタリング処理のためのフィルタとして、声道の連続時間周波数特性を有するアナログフィルタを通してフィルタリング処理されるアナログ音声信号と、該アナログ音声信号を離散化しアップサンプリングしてフィルタリングしたあとに連続信号に戻した復元音声信号との誤差が小さくなるように、サンプル値制御理論によって設計されたフィルタ係数が設定されたデジタルフィルタを用いる伝達関数帯域拡張処理部と、
e)前記有声音／無声音判別部による判別結果に基づいて、前記デジタルフィルタのフィルタ係数として、有声音用フィルタ係数と無声音用フィルタ係数のいずれかを選択的に前記デジタルフィルタに設定するフィルタ係数選択部と、
f)前記広帯域音源信号に対し前記広帯域伝達関数によるフィルタリング処理を行うことにより広帯域音声信号を求める音声復元部と、
を備えることを特徴とする音声信号処理装置。
請求項１に記載の音声信号処理装置であって、
前記サンプル値制御理論は、サンプル値Ｈ^∞制御理論であることを特徴とする音声信号処理装置。
請求項１又は２に記載の音声信号処理装置であって、
前記有声音／無声音判別部は、周波数スペクトルの近似的な傾きに基づいて有声音と無声音とを判別することを特徴とする音声信号処理装置。