JP6333043B2 - 音声信号処理装置 - Google Patents

音声信号処理装置 Download PDF

Info

Publication number
JP6333043B2
JP6333043B2 JP2014088752A JP2014088752A JP6333043B2 JP 6333043 B2 JP6333043 B2 JP 6333043B2 JP 2014088752 A JP2014088752 A JP 2014088752A JP 2014088752 A JP2014088752 A JP 2014088752A JP 6333043 B2 JP6333043 B2 JP 6333043B2
Authority
JP
Japan
Prior art keywords
signal
sound
narrowband
audio signal
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014088752A
Other languages
English (en)
Other versions
JP2015206958A (ja
Inventor
山本 裕
裕 山本
宏杰 史
宏杰 史
Original Assignee
山本 裕
裕 山本
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 山本 裕, 裕 山本 filed Critical 山本 裕
Priority to JP2014088752A priority Critical patent/JP6333043B2/ja
Publication of JP2015206958A publication Critical patent/JP2015206958A/ja
Application granted granted Critical
Publication of JP6333043B2 publication Critical patent/JP6333043B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、帯域制限された狭帯域の音声信号を帯域拡張する音声信号処理装置に関し、さらに詳しくは、携帯電話等における通話音質を改善するための音声信号処理装置に関する。なお、本明細書における「携帯電話」は、いわゆるスマートフォンなど、音声通信機能を有する各種情報通信端末を含むものとする。
無線電波の周波数帯域は限られた資源であり、これを有効に利用するために、携帯電話では低ビットレートの音声符号化方式が採用されている。例えば第3世代携帯電話方式の一つであるW−CDMA(Wideband Code Division Multiple Access)方式では、音声符号化方式としてAMR(Adaptive Multiple Rate)方式が採用されている。AMR方式は、時間領域での符号化であるPCM(Pulse Code Modulation)や周波数領域での符号化であるMP3などのように信号の波形をできるだけ忠実に再現する波形符号化方式ではなく、波形符号化と人間の発声メカニズムのモデリングを取り入れた分析合成符号化とを組み合わせたハイブリッド符号化方式である。そのため、AMR方式は特に音声信号に対して高い圧縮効率を示す。
しかしながら、AMR方式で変換された音声信号は3.4kHz以下の狭帯域音声信号であり、原アナログ音声信号の3.4kHz以上の高周波成分が全て失われる。一般的に男性の声には100Hz〜8000Hz、女性では150〜10000Hz程度の周波数成分が含まれていると言われており、上述したような携帯電話の音声の周波数帯域では高周波成分の多くが失われてしまう。そのため一般に、携帯電話での通話音声はこもった不明瞭なものとなり、その音質は十分とは言い難い。その結果、携帯電話では、声のみによって話者が誰であるかを識別したり似ている発音を聞き分けたりすることが困難である場合がよくある。こうしたことから、携帯電話の通話音声品質に関しては、不満や不便を感じる使用者が多いのが実状である。
近年、LTE(Long Term Evolution)を始めとする無線技術の進展によって、利用可能な伝送帯域は飛躍的に向上しつつある。これにより、携帯電話においても、現状の一般的な狭帯域音声信号よりも高品質な広帯域音声信号(7kHzまで)の伝送が可能となりつつある。これに対応して、広帯域音声信号を扱える音声符号化方式として、AMR方式の広帯域バーションであるAMR−WB方式が既に標準化されている。しかしながら、携帯電話での広帯域音声通話の実現にはインフラの変更が必要となるため、そうした音声符号化方式の移行は必ずしも容易ではない。また、災害発生などによる回線混雑の状態を考えると、伝送情報量を増加することなく高品質な広帯域音声コミュニケーションを実現する技術は必須である。こうしたことから、情報量を増加させずに広帯域音声通話を実現する手法として、音声信号の帯域拡張方法が広く研究されている。
帯域拡張方法は、狭帯域音声信号のみから広帯域音声信号を再構築する技術であり、従来、様々な統計的機械学習に基づいた手法が提案されている(例えば特許文献1など参照)。しかしながら、これら従来の帯域拡張方法では、膨大な学習データを用意する必要があるとともに多大な処理時間と計算量を要するため、リアルタイム処理や携帯電話への実装にはあまり適さない。また、事前の統計学習に基づく帯域拡張方法では、音声品質が実際に使用する言語の種類や伝送路特性の状態などに大きく依存するため、常に良好な音声品質が得られるとは限らないという問題もある。
特開2010−55002号公報 特許第3820331号公報 特許第3851757号公報 特許第5305306号公報
ベルンド・アイザール(Bernd Iser)、ほか2名、「バンドウィズス・イクステンション・オブ・スピーチ・シグナルズ(Bandwidth Extension of Speech Signals)」、スプリンガー・サイエンス+ビジネス・メディア(Springer Science+Business Media)、2008年 カルゴネカー(P.P.Khargonekar)、ほか1名、「ディレイド・シグナル・リコンストラクション・ユージング・サンプルド−データ・コントロール(Delayed signal reconstruction using sampled-data control」、プロシーディングス・オブ・35ス・コンファレンス・オン・デシジョン・アンド・コントロール(Proc. of 35th Conf. on Decision and Control)、1996年、pp.1259-1263 山本、ほか2名、「コンピュテーション・アンド・コンバージェンス・オブ・フリクエンシ・レスポンス・ビア・ファスト・サンプリング・フォー・サンプルド−データ・コントロール・システムズ(Computation and convergence of frequency response via fast sampling for sampled-data control systems)」、プロシーディングス・オブ・36ス・コンファレンス・オン・デシジョン・アンド・コントロール(Proc. of 36th Conf. on Decision and Control)、1997年、pp.2157-2162
本発明は上記課題を解決するために成されたものであり、その主たる目的は、少ない計算量で且つ短い処理時間で狭帯域音声信号から良好な音質の広帯域音声信号を再構築することができる音声信号処理装置を提供することにある。
本願発明者は長年に亘り、連続時間特性を扱うことができるサンプル値制御理論、より詳しくはサンプル値H制御をデジタルオーディオ信号を扱うデジタル/アナログ変換技術やサンプリングレート変換器などに導入する試みについて研究を続けてきた(特許文献2、3など参照)。この技術は、元のデジタル信号のサンプルを単に離散時間信号としてのみ捉えるのではなく、サンプル間応答に含まれるアナログ特性をも考慮してD/A変換やサンプリングレート変換の際のデジタルフィルタの設計を行うことによって、アナログオーディオとしての聴感上での音質が最良又はそれに近い状態となるようにすることを意図するものであった。さらにまた、本願発明者は、こうした技術を補聴器に利用し、難聴者の聴覚特性を考慮したフィルタリング処理を行うことで、より自然な音が得られるようにした補聴器を提案している(特許文献4)。
本願発明者は、上述のようなサンプル値H制御により設計されたデジタルフィルタを狭帯域音声信号に対する帯域拡張に適用することに想到し、音声品質がより良好になるような工夫を加えることで本願発明に至った。
即ち、上記課題を解決するために成された本発明は、入力された狭帯域音声信号の周波数帯域を高域側に拡張する音声信号処理装置であって、
a)狭帯域音声信号に対し線形予測分析を行うことで狭帯域周波数スペクトル及び狭帯域音源信号を求める線形予測分析部と、
b)前記狭帯域音源信号に対しアップサンプリング及び非線形処理を行うことで、該狭帯域音源信号を広帯域音源信号に変換する音源帯域拡張処理部と、
c)前記狭帯域周波数スペクトルに基づいて、入力された狭帯域音声信号が有声音又は無声音のいずれであるかを判断する有声音/無声音判別部と、
d)前記狭帯域周波数スペクトルによる狭帯域声道伝達特性に対しアップサンプリング及びフィルタリング処理を行うことで、該狭帯域声道伝達特性を広帯域声道伝達特性に変換する伝達特性帯域拡張処理部であって、前記フィルタリング処理のためのフィルタとして、声道の連続時間周波数特性を有するアナログフィルタを通してフィルタリング処理されるアナログ音声信号と、該アナログ音声信号を離散化しアップサンプリングしてフィルタリングしたあとに連続信号に戻した復元音声信号との誤差が小さくなるように、サンプル値制御理論によって設計されたフィルタ係数が設定されたデジタルフィルタを用いる伝達特性帯域拡張処理部と、
e)前記有声音/無声音判別部による判別結果に基づいて、前記デジタルフィルタのフィルタ係数として、有声音用フィルタ係数と無声音用フィルタ係数のいずれかを選択的に前記デジタルフィルタに設定するフィルタ係数選択部と、
f)前記広帯域音源信号に対し前記広帯域伝達特性によるフィルタリング処理を行うことにより広帯域音声信号を求める音声復元部と、
を備えることを特徴としている。
本発明に係る音声信号処理装置には、例えば携帯電話の受信系においてデコードされた狭帯域(例えば3.4kHz以下の周波数帯域)の音声信号が入力される。線形予測分析部は、この狭帯域音声信号に対して線形予測分析を行うことにより、狭帯域周波数スペクトルと狭帯域音源信号とを求める。この狭帯域周波数スペクトルは、音声生成モデルにおける声道の伝達特性を反映しているフィルタの周波数特性である。狭帯域音声信号の帯域拡張を行うには、音源信号と声道伝達特性とをともに帯域拡張する必要があるが、音声コミュニケーションにおける話者の声質の特徴は主として声道伝達特性に依存するから、音声品質を向上させるには特に声道伝達特性の帯域拡張が重要である。そこで、伝達特性帯域拡張処理部が狭帯域声道伝達特性を広帯域声道伝達特性に変換する際に、サンプル値制御理論によって設計されたフィルタ係数が設定されたデジタルフィルタを用いる。
ここで用いるサンプル値制御理論は好ましくはサンプル値H制御理論であり、例えば特許文献2、3などに開示されている技術である。例えば携帯電話の受信系における狭帯域音声信号の帯域拡張である場合、送信系における話者が発した音声と、受信系において受聴者が聴く音声とができるだけ一致していることが望ましい。そこで、本発明に係る音声信号処理装置では、音声モデルにおける声道の連続時間周波数特性を有するアナログフィルタを通してフィルタリング処理されるアナログ音声信号と、該アナログ音声信号を離散化しアップサンプリングしてフィルタリングしたあとに連続信号に戻した復元音声信号との誤差が小さくなるように、サンプル値制御理論によりデジタルフィルタが設計される。
ただし、有声音は周期的な声帯振動を音源として生成される音であるのに対し、無声音は声帯を振動させることなく気息雑音を音源とした音であり、声道の連続時間周波数特性は大きく相違する。そこで、サンプル値制御理論によるデジタルフィルタ設計の際の声道の連続時間周波数特性を有声音用と無声音用との2種類用意するようにし、有声音に対するフィルタ係数と無声音に対するフィルタ係数とをそれぞれ求めておく。フィルタ係数選択部はこうして予め用意された有声音用又は無声音用のフィルタ係数のいずれかを選択して伝達特性帯域拡張処理部のデジタルフィルタに設定する。
有声音用又は無声音用のフィルタ係数のいずれかを選択するために、有声音/無声音判別部は入力された狭帯域音声信号が有声音又は無声音のいずれであるかを略リアルタイムで判断する。一般的に有声音と無声音との識別は音源信号の周期性の有無により行われるが、周期性の有無だけでは高い精度の識別は難しく、また周期性の有無の判断自体も十分な信頼性を以て行うことは難しい。そこで、本発明に係る音声信号処理装置において、有声音/無声音判別部は、信号の周期性の検出結果と併せて、周波数スペクトルの近似的な傾きに基づいて有声音と無声音とを判別する構成とするとよい。
具体的には、入力された狭帯域音声信号に基づく周波数スペクトルに対し線形回帰処理を実施して回帰直線を求めると、該回帰直線はスペクトル全体の傾きを反映している。一般に、有声音では低周波数域の成分が強く、周波数が大きくなるに伴い強度が低下する。逆に無声音では、7kHz程度以下の周波数範囲では周波数が大きくなるに伴い強度が増加する。そのため、上記回帰直線の傾きを判定することで、有声音と無声音とを識別することができる。この構成によれば、有声音と無声音とを高い精度で以て識別することができるので、入力された狭帯域音声信号に応じて適切な特性のデジタルフィルタを選択して帯域拡張を行うことができる。それによって、復元された広帯域音声の品質を高めることができる。
特許文献2、3等にも記載されているように、サンプル値制御理論により設計されたデジタルフィルタはFIR型又は低次のIIR型フィルタとすることができるため、ハードウエア規模は小さく、演算量も少なく時間遅延量も小さい。そのため、本発明に係る音声信号処理装置によれば、リアルタイムの処理が可能であるとともにコストの増加も抑えながら、音声品質の高い、つまりは高音域がこもったような感じがなく話者の識別が容易であるような広帯域音声信号を得ることができる。
本発明の一実施例である音声信号処理装置のブロック構成図。 本実施例の音声信号処理装置において声道伝達特性の帯域拡張処理に使用されるフィルタ設計のための誤差系モデルを示すブロック図。 図2に示した誤差系モデルを単一レート系モデルに変換したときのブロック図。 図2に示した誤差系モデルの一般プラント形式のブロック図。 図4の形式を有限次元離散時間系に変換したときのブロック図。 広帯域音声信号の周波数スペクトルの一例を示す図。 有声音用の原信号アナログ周波数特性を示すボード線図。 無声音用の原信号アナログ周波数特性を示すボード線図。 有声音/無声音判別処理のフローチャート。 有声音・無声音判別のための線形回帰処理結果の一例を示す図。 オリジナル広帯域音声信号、狭帯域音声信号、及び帯域拡張した復元音声信号の周波数スペクトルの一例を示す図。 PESQ値の比較を示す図。
本発明に係る音声信号処理装置の一実施例を、添付図面を参照して説明する。
図1は本実施例の音声信号処理装置のブロック構成図である。この音声信号処理装置は、例えば携帯電話の受信系回路において、アンテナを介して受信した伝送信号をデコードして得られる狭帯域音声信号を入力信号とし、これを処理して広帯域音声信号に変換しアナログ音声信号出力のためのD/A変換器へ出力する装置である。なお、以下の説明では、特に記載しない限り、狭帯域音声信号、広帯域音声信号等、ここで扱う信号はデジタルデータである。
(1)音声信号処理装置の全体構成
本実施例の音声信号処理装置は、所定時間長さの狭帯域音声信号に対して線形予測分析を行って狭帯域周波数スペクトル及び狭帯域音源信号を取得する線形予測分析部1と、狭帯域音源信号に非線形変換などの処理を行うことで狭帯域音源信号を広帯域残差信号である広帯域音源信号に帯域拡張する非線形帯域拡張処理部2と、アップサンプラ31と補間フィルタ32を含み、狭帯域周波数スペクトルである声道伝達特性を帯域拡張する伝達特性帯域拡張処理部3と、狭帯域周波数スペクトルに基づいて入力された狭帯域音声信号が有声音であるか無声音であるかを判別する有声音/無声音判別部4と、いずれも上記補間フィルタ32のフィルタ係数である有声音用フィルタ係数と無声音用フィルタ係数とを記憶するフィルタ係数記憶部5、6と、有声音/無声音判別部4による判別結果に基づいてフィルタ係数を選択する係数選択部7と、非線形帯域拡張処理部2で帯域拡張された広帯域音源信号に対し伝達特性帯域拡張処理部3で帯域拡張された広帯域声道伝達特性によるフィルタリングを行うことで広帯域音声信号を生成する広帯域音声合成処理部8と、を機能ブロックとして備える。
これら機能ブロックを含む音声処理装置は、例えばデジタルシグナルプロセッサ(DSP)などの1チップのLSIで構成することができる。或いは、音声信号復号用のデコーダなどのLSIに組み込むこともできる。
以下、各部の具体的な処理動作について説明する。
(2)線形予測分析部1における処理動作
線形予測分析部1は、狭帯域音声信号に対して線形予測演算処理を適用することで、音声信号の周波数スペクトル包絡を推定するとともに、そうしたスペクトル中の声道特性がほぼ除去された残差信号を狭帯域音源信号として取得する。具体的には、線形予測分析部1ではまず、連続的な狭帯域音声信号に対し適切な窓関数、例えば対称ハミング窓関数を用いることで所定長さの音声信号をフレームとして切り出す。そして、そのフレームに含まれる音声信号に対し、既知の線形予測分析を行い、狭帯域のスペクトル包絡を表すパラメータ、例えば線形予測係数などを求める。このスペクトル包絡は声道伝達特性であり、音源信号に対して声道伝達特性で表されるフィルタリング処理を行うと音声信号が得られるから、この逆の演算処理により、狭帯域音声信号と声道伝達特性とから予測残差信号としての狭帯域音源信号を算出することができる。
なお、こうした線形予測分析は、従来の帯域拡張方法でも行われている技術であり、例えば非特許文献1などに詳細に開示されている。また、特許文献1でもこうした技術が利用されている。
(3)狭帯域音源信号に対する非線形帯域拡張処理部2での処理動作
本来のアナログ声帯音源には4kHz以上の倍音が含まれるが、携帯電話音声では帯域の制限によって3.4kHz以上の高次倍音が切り捨てられる。これが携帯電話音声の品質劣化の原因の一つであり、音源信号の帯域拡張では3.4kHz以上の高次倍音を復元する。
狭帯域音源信号から高次の倍音成分を生成するために、ここでは既知の非線形変換を用いる。非線形変換にも幾つかの方法があるが、例えば、計算量の少ない方法として広く使われている全波整流を利用することができる。即ち、入力された狭帯域音源信号に対し2倍アップサンプリングを行いカットオフ周波数が3.4kHzであるローパスフィルタを通したあとに全波整流を行う。全波整流は、入力信号の絶対値を出力信号とする非線形処理であり、一つの周波数成分に対してその2以上の偶数倍高次周波数成分を生成する。
ただし、このように生成された高次周波数成分は、本来の基本周波数成分とは異なる振幅を持つ。そこで、全波整流によって得られた信号に対し、各成分の振幅が同程度になるように振幅を調整する白色化処理を行う。上述したように、線形予測分析では、入力信号に対しそのスペクトル包絡を除去することで白色化された残差信号が出力される。したがって、白色化処理として線形予測分析を利用することができる。
(4)狭帯域声道伝達特性に対する伝達特性帯域拡張処理部3での処理動作
上述したように、音声スペクトル包絡に対応したパラメータで表される声道伝達特性は、音声の明瞭度に寄与し個々の話者の発声を特徴付ける最も重要な要素である。そのため、音声品質を高めるには、狭帯域声道伝達特性から広帯域声道伝達特性を適切に復元することが非常に重要である。そこで、本発明に係る音声信号処理装置における帯域拡張法では、この声道伝達特性の帯域拡張に、サンプル値制御理論に基づいて設計された補間フィルタを利用する。即ち、ここでは、狭帯域声道伝達特性の帯域拡張を、離散時間インパルス応答信号の最適補間処理とみなす。これはアップサンプラ31によって生じたエイリアス成分を利用した帯域拡張の手法であり、遅延と計算量の少ない線形フィルタである補間フィルタ32を用いて帯域拡張を実現することができる。
ただし、従来の線形フィルタの設計法は全ての信号の完全帯域制限を仮定したものであり、そのままでは帯域拡張に適用できない。そこで、サンプル値制御理論による補間フィルタの設計法を用い、元の信号、つまりはオリジナル音声信号のアナログ広帯域周波数特性を考慮した補間フィルタを設計する。
(4−1)サンプル値制御理論によるフィルタの設計法
サンプル値制御理論は信号補間に基づくデジタル信号の高サンプル化・高精度化にも応用できるという特徴を持ち、補間値を一種のサンプル点間応答と捉えることでデジタル制御の視点からデジタル信号処理における補間値を決定することができる。サンプル値制御理論によりデジタルオーディオ信号を最適に補間する基本的な方法は、特許文献2−4を初めとする種々の文献に記載されているものであるので、詳細な説明は省略し、ポイントについてのみ述べる。
補間に使用する線形フィルタ設計のための誤差系モデルを図2に示す。図2では、下側の信号経路が帯域拡張の信号処理系であり、上側の信号経路がその信号処理系による時間遅れを考慮した遅延系である。
連続時間信号w(t)は全帯域で一様な分布を持つと仮定したアナログ信号であり、伝達特性がF(s)であるアナログフィルタ11を通すことで、モデル化された周波数特性を有する仮想アナログ信号y(t)となる。この信号y(t)は理想サンプラ13によってサンプリング時間hのデジタル信号yd[k]となる。yd[k]はM倍(ここでは2倍の帯域拡張であるのでM=2)のアップサンプラ14によってサンプリング時間h/Mの信号となり、伝達特性がK(z)であるデジタルフィルタ15でフィルタリングされた信号ud[k]を得る。この信号udは0次ホールド16で連続時間信号u(t)に変換され、伝達特性がP(s)である平滑化アナログフィルタ17を通過した後、最終的な復元信号z(t)が得られる。
上側の信号経路上の時間遅れ要素12は、仮想アナログ信号y(t)に上述した信号処理による時間遅れmh(mは正の整数)を与えるものであり、差分器18により復元信号z(t)と遅延した仮想アナログ信号y(t)との誤差信号eを取り出す。この誤差信号eも連続時間信号であるから、次式のようにおくことができる。
e(t)=y(t−mh)−z(t)
仮想アナログ信号y(t)がオリジナル音声信号であると考えれば、狭帯域音声信号を帯域拡張した後の広帯域音声信号の音声品質を改善することは、誤差信号e(t)をできるだけ小さくすることに相当する。したがって、誤差信号e(t)ができるだけ小さくなるように、デジタルフィルタ15の伝達特性K(z)を設計すればよい。
即ち、デジタルフィルタ15の最適な伝達特性K(z)を求める設計問題は、アナログ信号wから誤差信号eへ変換するシステムをTewとおいたとき、与えられた設計基準値γ>0に対し、TewのL2誘導ノルムが次の(1)式を満たすようなデジタルフィルタ15の伝達特性K(z)を求めることである。
Figure 0006333043
ただし、アナログフィルタ11の伝達特性F(s)は安定且つ厳密にプロパーであり、平滑化アナログフィルタ17の伝達特性P(s)は安定且つプロパーであるとする。
図2に示した系はアップサンプラ14を含むため時変系(マルチレート系)であり、(2)式を解くには時不変系(単一レート系)にする必要がある。そこで、アップサンプラ14及びむだ時間要素を含むマルチレート系を単一のサンプル周期の有限次元系に変換するために、離散時間リフティングLM及び逆リフティングLM -1、並びに離散時間リフティングに対応した0次ホールドである一般化ホールドHh'導入する。特許文献2、3等でよく知られているので詳細な説明は略すが、これらリフティング及び一般化ホールドの導入により、図2に示したマルチレート系のモデルは図3に示す単一レート系のモデルに等価的に変換される。図2における伝達特性K(z)のデジタルフィルタ15及び0次ホールド16は、図3ではそれぞれ伝達特性K'(z)であるデジタルフィルタ15a及び一般化ホールド16aに変換されている。
そのあと、図3中にある連続時間むだ時間要素であるe-mhsを有限次元化するために、系の入力をmステップだけ遅らせるような変換を行う。これにより、上述したシステムTewを設計する問題は、伝達特性K(z)の代わりに非因果的なフィルタzmK'(z)を設計する問題に変換される。
さらに上記システムTewを近似的な離散時間系に変換するために、FSFH(ファーストサンプル・ファーストホールド)手法を適用する。FSFH手法はサンプル値制御系の性能を評価する一手法であって、周期hのサンプル値制御系の連続時間入出力をh/N(Nは自然数)周期で動作するサンプラとホールドによって離散化し、十分に大きなNに対する離散時間信号で連続時間信号を近似する方法である。なお、FSFH手法の詳細は非特許文献2、3に記載されている。
設計のために図3を一般化プラント形式に描き直したものが図4である。この図4中に示した連続時間系システム20の行列式gに対しリフティングを行い、FSFH手法を用いて近似離散化すると図5に示す離散時間系に帰着され、サンプル値系システム21の近似離散時間系Gは次の式で与えられる。
Figure 0006333043
ここで、Gの各行列及び作用素は次のように定義される。
Figure 0006333043
上記近似離散時間系Gを用いて上記(1)式は次の(2)式で近似され、(1)式を満たすような伝達特性K(z)を求めるということは近似的に有限次元離散時間系の問題に帰着される。
Figure 0006333043
ただし、
Figure 0006333043
である。
以上のことから、(2)式を求め、ごく一般的な離散時間H制御問題を解けば、所望のデジタルフィルタ15の伝達特性K(z)が得られ、これを補間フィルタ32として利用することができる。
(4−2)アナログフィルタ11の伝達特性F(s)の設計
上述したように、本発明における声道伝達特性の帯域拡張法では、予め与えられた原信号のアナログ周波数特性F(s)によって補間フィルタ32の最適な特性K(z)が決定される。一般に、このアナログ周波数特性F(s)はアナログ原信号の平均若しくは長時間スペクトル包絡近似、又は、原音源の周波数モデルによって設計される。
音声信号はその性質の違いから「有声音」と「無声音」との2種類に大きく分類することができる。有声音と無声音との相違はそれぞれの音源が異なるだけでなく、信号の周波数特性も大きく異なる。具体的には、図6(a)に示すように、有声音信号は低周波数域の成分が強く、周波数が大きくなるに伴い徐々にスペクトルの振幅が小さくなっていく。これに対し、図6(b)に示すように、無声音信号は6kHz以上の高周波数域に幅広くエネルギを持ち、7kHzまでのスペクトルは右肩上がりとなっている。そこで、原信号の特性をより正確に帯域拡張された音声に反映するために、有声音と無声音との2種類の周波数モデルを用いてそれぞれ補間フィルタを設計するようにした。
即ち、図6から、ローパス特性と7kHzまでのハイパス特性を持った2種類の周波数モデルF(s)を想定し、有声音と無声音それぞれに対応するフィルタ係数を有する補間フィルタを設計する。ここでは、無声音を除去した音声信号の或る程度長い時間に亘る周波数スペクトルと、無声音のみを含んだ音声信号の或る程度長い時間に亘る周波数スペクトルとから周波数モデルF(s)を推定している。有声音に用いられる周波数モデルF(s)は次式で表される。
F(s)=1/{(T1s+1)(T2s+1)}
1=1/2000・2π
2=1/6000・2π
この周波数モデルF(s)のボード線図を図7に示す。一方、無声音に用いられる周波数モデルF(s)は次式で表される。
F(s)=(T1s+1)2/{(T2s+1)(T3s+1)(T4s+1)}
1=1/2000・2π
2=1/7000・2π
3=1/8000・2π
4=1/16000・2π
この周波数モデルF(s)のボード線図を図8に示す。
また、補間フィルタ32の伝達特性K(z)を設計するに際して、m=8、P(s)=1/(1+1.9894×10-5s)、とした。
以上のような条件の下で上述した離散時間H制御問題を解く演算を行うことで、有声音用及び無声音用の補間フィルタをそれぞれ設計し、それにより求めた有声音用フィルタ係数及び無性音用フィルタ係数を記憶部5、6に格納しておく。
(5)有声音/無声音判別部4での処理動作
入力された狭帯域音声信号が有声音、無声音のいずれかであるのかに応じて補間フィルタ32におけるフィルタ係数を切り替えるために、有声音/無声音判別部4は、入力された音声信号に対しリアルタイムで有声音/無声音の判別を行う。図9はこの判別処理のフローチャートである。
判別対象である所定時間長の音声信号が有声音/無声音判別部4に入力されると(ステップS1)、その音声信号の自己相関を計算する(ステップS2)。一般に、有声音は周期的な信号であるのに対し、無声音は非周期的な信号であるという特徴がある。周期的な信号は自己相関が高くなるから、自己相関の値により信号に周期性があるか否かを判定し(ステップS3、S4)、周期性があると判断されたならば有声音であると判断する(ステップS8)。
自己相関を用いた信号の周期性判断は位相歪やランダム雑音に耐性を有するものの、人間の発声した音声波形は整然とした周期構造を持っているわけではないため、周期性検出のみによる有声音/無声音判別では十分な精度を得ることが難しい。そこで、ここでは有声音と無声音それぞれの周波数特性に着目した判別法を併用している。即ち、自己相関の値に基づいて信号に周期性がないと判定されると(ステップS4でNo)、次のような手順で周波数スペクトルの傾きαを計算する(ステップS5)。
いま、線形予測分析によって得られた声道伝達特性が(3)式で表されるものとする。
Figure 0006333043
この声道伝達特性における周波数応答ゲイン20log10|H(e)|上のn点(ただしn>2)を直線y=αω+βで近似する、以下の(4)式に示す線形回帰問題を考える。ただし、サンプリング周波数は1とする。
Figure 0006333043
この(4)式を満たすような解Xは一般には存在しないが、二乗誤差||A・X−b||2を最小にするような解Xは次の(5)式により求められる。
X=V・[diag(1/wj)]・(UT・b) …(5)
ただし、wj=0のときには1/wjを0に置き換える。A=U[diag(wj)]VTはAの特異値分解である。
(4)式はwkを適当に設定してそのままで解いてもよいが、ここでは、wkをwk=2π(k−1)/10、k=1,…,11とおく。そうするとbkは次の(6)式のようになる。
Figure 0006333043
これは数列{1,a1,…,a10}に対する離散フーリエ変換に他ならない。そのため、(4)式の右辺は一般的な高速フーリエ変換(FFT)により高速に計算することができる。即ち、ステップS5における周波数スペクトルの傾きαの計算には高速フーリエ変換を用いればよい。
図10は、有声音と無声音の周波数特性に対して上述したような線形回帰により回帰直線を求めた処理結果の一例である。図10に示したように、有声音と無声音それぞれの周波数特性は、回帰直線の傾きαの大きさから判別することが可能であることが分かる。そこで、ここでは傾きαの判定閾値Tを30とし(ただし、横軸を正規化周波数、縦軸をdBで表したときの値)、α>Tであれば無声音、それ以外の場合には有声音であると判断する(ステップS6、S7、S8)。
この有声音/無声音判別法の有効性を検証するために、12名(男女各6名)の話者が発声したATR音素バランス216語の連続音声データベースを用いて、有声音/無声音の判別結果を評価した。比較対象である従来判別法としては自己相関法を用いた。その結果、本発明における有声音/無声音判別法では95%の無声音検出率を達成し、判別精度(無声音として判別された音節中で実際の無声音音節が占めた比率)は従来判別法の50%から100%へと大幅に向上したことが確認できた。
以上のように、有声音/無声音判別部4では入力された狭帯域音声信号が有声音、無声音のいずれであるのかを正確に判別することができる。そこで、その判別結果に基づいて係数選択部7は、上述したように記憶部5、6に予め格納されている有声音用フィルタ係数又は無声音用フィルタ係数のいずれかを選択し、伝達特性帯域拡張処理部3の補間フィルタ32に設定する。これによって、伝達特性帯域拡張処理部3では、入力された狭帯域音声が有声音、無声音のいずれである場合でも、線形予測分析部1で得られた声道の伝達特性に対して原音の周波数特性を考慮した良好な帯域拡張が行われる。
(6)広帯域音声信号の生成
上述したように、非線形帯域拡張処理部2では狭帯域音源信号が広帯域音源信号に変換され、伝達特性帯域拡張処理部3では声道の狭帯域伝達特性が広帯域伝達特性に変換される。そこで、広帯域音声合成処理部8では、広帯域伝達特性で表されるフィルタリング処理を広帯域音源信号に対して実施することで、声道の広帯域伝達特性が反映された広帯域音声信号を得てこれを出力する。
(7)本実施例の音声信号処理装置における音声品質の評価
図11は、音声品質評価用サンプルに対する処理結果である周波数スペクトルの一例であり、(a)はオリジナル広帯域音声、(b)は携帯電話狭帯域音声、(c)は本発明における帯域拡張法で復元した広帯域音声の周波数スペクトルである。(a)と(b)とを比較すると、携帯電話狭帯域音声では3.4kHz以上の高域成分が存在しないことが分かる。これに対し、本発明における帯域拡張法による復元音声では、高域成分が再現されており、オリジナルの広帯域音声信号にかなり近い周波数スペクトルが得られていることが分かる。
また、本発明における帯域拡張法により帯域拡張した広帯域音声の音質が元の携帯電話音声と比較してどの程度改善されるかを、客観的音質評価手法の一つである周知のPESQ(Perceptual Evaluation of Speech Quality)を用いて評価した。このPESQによる評価段階は最も音声品質が低い−0.5から最も音声品質が高い4.5までの範囲である。
国際電気通信連合電気通信標準化部門(ITU−T)によるテスト音声信号及びPASL−DSR音声品質評価文の一部を用い、オリジナル広帯域音声とAMRによる狭帯域携帯電話音声、オリジナル広帯域音声と本発明法による帯域拡張法で有声音/無声音判別に従来法を用いたときの広帯域音声、及び、オリジナル広帯域音声と本発明法による帯域拡張法で有声音/無声音判別に上述した方法を用いたときの広帯域音声、の三つのケースについて行った客観的音質比較実験のPESQ値を図12に示す。
図12から分かるように、上述した有声音/無声音判別法を使用した本発明による帯域拡張法に対する広帯域音声では、PESQ値が約2.2から平均して約0.6程度改善されて2.8になっている。一方、有声音/無声音判別に従来の自己相関法を用いた場合には、PESQ値が2.353から2.785に約0.43程度改善されている。このことから、上述したサンプル値制御理論による帯域拡張法を用い、これに上述した有声音/無声音判別法を加えることによって、オリジナル音声に一層近い良好な品質の音声が得られることが確認できた。また、様々な言語や話者による音声に対して一様に音質の改善効果が得られることも確認できた。
なお、上記実施例は本発明の一例であり、本発明の趣旨の範囲で変形や追加を行っても本願特許請求の範囲に包含されることは明らかである。
例えば本発明に係る音声信号処理装置は携帯電話の狭帯域音声信号の帯域拡張に利用できるのはもちろんのこと、それ以外の狭帯域音声信号、即ち、狭帯域通信路や狭帯域伝送路、或いは狭帯域記録再生経路などを通して得られる狭帯域音声信号全般の帯域拡張に利用することができる。
また、特許文献4に記載の補聴器用の音声信号処理システムでは、入力されたアナログ音声信号をA/D変換したあとに、アンチエリアシングフィルタ(ローパスフィルタ)を通すことで帯域制限しダウンサンプルすることでサンプルレートを落としている。そして、そのあとにアップサンプラでサンプルレートを戻し補聴器用の補間フィルタにより難聴者の聴覚特性に応じたフィルタ処理を行っている。このとき、ダウンサンプルされたデータは実質的に狭帯域音声データであるから、こうした補聴器用のシステムにおいて、アップサンプラ以降の部分には、本発明に係る音声信号処理装置を利用することができる。それによって、難聴者の聴覚上の音質を一層向上させることができる。
1…線形予測分析部
2…非線形帯域拡張処理部
3…伝達特性帯域拡張処理部
31…アップサンプラ
32…補間フィルタ
4…有声音/無声音判別部
5、6…フィルタ係数記憶部
7…係数選択部
8…広帯域音声合成処理部
11…アナログフィルタ
12…時間遅れ要素
13…理想サンプラ
14…アップサンプラ
15…デジタルフィルタ
16…0次ホールド
17…平滑化アナログフィルタ
18…差分器

Claims (3)

  1. 入力された狭帯域音声信号の周波数帯域を高域側に拡張する音声信号処理装置であって、
    a)狭帯域音声信号に対し線形予測分析を行うことで狭帯域周波数スペクトル及び狭帯域音源信号を求める線形予測分析部と、
    b)前記狭帯域音源信号に対しアップサンプリング及び非線形処理を行うことで、該狭帯域音源信号を広帯域音源信号に変換する音源帯域拡張処理部と、
    c)前記狭帯域周波数スペクトルに基づいて、入力された狭帯域音声信号が有声音又は無声音のいずれであるかを判断する有声音/無声音判別部と、
    d)前記狭帯域周波数スペクトルによる狭帯域声道伝達関数に対しアップサンプリング及びフィルタリング処理を行うことで、該狭帯域声道伝達関数を広帯域声道伝達関数に変換する伝達関数帯域拡張処理部であって、前記フィルタリング処理のためのフィルタとして、声道の連続時間周波数特性を有するアナログフィルタを通してフィルタリング処理されるアナログ音声信号と、該アナログ音声信号を離散化しアップサンプリングしてフィルタリングしたあとに連続信号に戻した復元音声信号との誤差が小さくなるように、サンプル値制御理論によって設計されたフィルタ係数が設定されたデジタルフィルタを用いる伝達関数帯域拡張処理部と、
    e)前記有声音/無声音判別部による判別結果に基づいて、前記デジタルフィルタのフィルタ係数として、有声音用フィルタ係数と無声音用フィルタ係数のいずれかを選択的に前記デジタルフィルタに設定するフィルタ係数選択部と、
    f)前記広帯域音源信号に対し前記広帯域伝達関数によるフィルタリング処理を行うことにより広帯域音声信号を求める音声復元部と、
    を備えることを特徴とする音声信号処理装置。
  2. 請求項1に記載の音声信号処理装置であって、
    前記サンプル値制御理論は、サンプル値H制御理論であることを特徴とする音声信号処理装置。
  3. 請求項1又は2に記載の音声信号処理装置であって、
    前記有声音/無声音判別部は、周波数スペクトルの近似的な傾きに基づいて有声音と無声音とを判別することを特徴とする音声信号処理装置。
JP2014088752A 2014-04-23 2014-04-23 音声信号処理装置 Active JP6333043B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014088752A JP6333043B2 (ja) 2014-04-23 2014-04-23 音声信号処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014088752A JP6333043B2 (ja) 2014-04-23 2014-04-23 音声信号処理装置

Publications (2)

Publication Number Publication Date
JP2015206958A JP2015206958A (ja) 2015-11-19
JP6333043B2 true JP6333043B2 (ja) 2018-05-30

Family

ID=54603781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014088752A Active JP6333043B2 (ja) 2014-04-23 2014-04-23 音声信号処理装置

Country Status (1)

Country Link
JP (1) JP6333043B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882867B (zh) * 2022-04-13 2024-05-28 天津大学 基于滤波器组频率区分的深度网络波形合成方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2956548B2 (ja) * 1995-10-05 1999-10-04 松下電器産業株式会社 音声帯域拡大装置
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
JP3820331B2 (ja) * 1999-10-25 2006-09-13 裕 山本 デジタル/アナログ変換装置及び該装置に用いるデジタルフィルタの設計方法
JP2002082685A (ja) * 2000-06-26 2002-03-22 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び音声帯域拡張方法
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
WO2010070770A1 (ja) * 2008-12-19 2010-06-24 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法

Also Published As

Publication number Publication date
JP2015206958A (ja) 2015-11-19

Similar Documents

Publication Publication Date Title
JP7427752B2 (ja) 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法
KR101461774B1 (ko) 대역폭 확장기
JP4294724B2 (ja) 音声分離装置、音声合成装置および声質変換装置
US7734462B2 (en) Method and apparatus for extending the bandwidth of a speech signal
EP1252621B1 (en) System and method for modifying speech signals
KR101237546B1 (ko) 통신 시스템에서 프레임들을 연결하는 방법
Tachibana et al. An investigation of noise shaping with perceptual weighting for WaveNet-based speech generation
JP5535241B2 (ja) 音声信号復元装置および音声信号復元方法
US6694018B1 (en) Echo canceling apparatus and method, and voice reproducing apparatus
TW201214419A (en) Systems, methods, apparatus, and computer program products for wideband speech coding
RU2677453C2 (ru) Способы, кодер и декодер для линейного прогнозирующего кодирования и декодирования звуковых сигналов после перехода между кадрами, имеющими различные частоты дискретизации
JP4302978B2 (ja) 音声コーデックにおける擬似高帯域信号の推定システム
JP2006085176A (ja) 帯域制限オーディオ信号の帯域拡大
WO2005117517A2 (en) Neuroevolution-based artificial bandwidth expansion of telephone band speech
JP5717097B2 (ja) 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
BR112016030384B1 (pt) Ajuste de ganho temporal baseado em característica de sinal de banda alta
JP2016540255A (ja) ブラインド帯域幅拡張のシステムおよび方法
JP5148414B2 (ja) 信号帯域拡張装置
JP6333043B2 (ja) 音声信号処理装置
KR20170080387A (ko) 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법
JP6032832B2 (ja) 音声合成装置
Gustafsson et al. Low-complexity feature-mapped speech bandwidth extension
Gupta et al. Artificial bandwidth extension using H∞ sampled-data control theory
JP4433668B2 (ja) 帯域拡張装置及び方法
JP5711645B2 (ja) オーディオ信号出力装置およびオーディオ信号出力方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180424

R150 Certificate of patent or registration of utility model

Ref document number: 6333043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150