JP6089789B2

JP6089789B2 - 音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラム

Info

Publication number: JP6089789B2
Application number: JP2013039607A
Authority: JP
Inventors: 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2013-02-28
Filing date: 2013-02-28
Publication date: 2017-03-08
Anticipated expiration: 2033-02-28
Also published as: JP2014167558A

Description

本発明は、音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラムに関し、例えば、電話機器（ソフトフォン等を含む）に適用し得るものである。

レガシーな電話機器で伝送できる音声信号の周波数帯域は、約３００Ｈｚから３．４ｋＨｚである。このような電話帯域に帯域制限された狭帯域音声信号の音声は、本来の音声よりもこもった音質になるため、言葉が聞き取り難くなるといった問題が生じる。

この問題を解決するために、３．４ｋＨｚ以上の拡張信号を追加して広帯域音声信号へと拡張することで、音声の明瞭性を向上させる帯域拡張技術が開発されており、例えば、電話機器が出力する音声信号の音質の向上を図っている。

従来の音声帯域拡張装置として、例えば、特許文献１に示されるものがある。図１０は、特許文献１に記載の従来の音声帯域拡張装置の全体構成を示している。図１０において、従来の音声帯域拡張装置１００は、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）分析部１０１、包絡拡張部１０２、音源信号拡張部１０３、ＬＰＣ合成部１０４、フィルタ部１０５、サンプリング変換部１０６及び加算部１０７を有する。

入力された狭帯域音声信号Ｓは、ＬＰＣ分析部１０１とサンプリング変換部１０６に与えられる。ＬＰＣ分析部１０１は、狭帯域音声信号Ｓに対して線形予測分析を行うことでスペクトル包絡情報ＳＥと残差信号ＳＲを抽出し、スペクトル包絡情報ＳＥを包絡拡張部１０２に与え、残差信号ＳＲを音源信号拡張部１０３に与える。包絡拡張部１０２は、スペクトル包絡情報ＳＥを所望の周波数帯域に線形写像関数により帯域を拡張し、得られた拡張スペクトル包絡情報ＸＥをＬＰＣ合成部１０４に与える。音源信号拡張部１０３は、残差信号ＳＲを非線形処理により所望の周波数帯域の特性を有する信号へ変換し、得られた拡張残差信号ＸＲをＬＰＣ合成部１０４に与える。ＬＰＣ合成部１０４は、拡張スペクトル包絡情報ＸＥと拡張残差信号ＸＲを用いて音声をＬＰＣ合成し、得られた拡張音声信号ＸＨ０をフィルタ部１０５に与れる。フィルタ部１０５は、拡張音声信号ＸＨ０から、狭帯域音声信号Ｓに付加すべき周波数帯域成分を濾波し、得られた拡張信号ＸＨを加算部１０７に与える。サンプリング変換部１０６は、狭帯域音声信号Ｓを、周波数特性を保持しながら狭帯域音声信号Ｓよりも高いサンプリング周波数の信号に変換し、得られたベースバンド音声ＸＬを加算部１０７に与える。加算部１０７は、ベースバンド信号ＸＬと拡張信号ＸＨを加算し、擬似広帯域音声信号Ｘを得る。

特許文献１によれば、線形写像関数によりスペクトル包絡情報を帯域拡張しているので、少ない計算量で正確なスペクトル包絡情報を得ることができ、非線形処理により残差信号の帯域拡張をしているので、音声の調波構造を保持したまま広帯域化が可能となり、より自然な擬似広帯域音声信号を得ることが可能となるとしている。

特開平７−５２５５８号公報

しかし、特許文献１に記載の方法では、スペクトル包絡情報の推定及び拡張を、ＬＰＣ分析及びＬＰＣ合成によって行っているので、拡張された無声音のスペクトル包絡が不正確になるという課題があった。

この課題について詳しく説明する。ＬＰＣ分析によって音声からスペクトル包絡情報と音源情報（残差信号）を抽出することは、音声が自己回帰モデル（ＡＲモデル）で生成されることを仮定している。すなわち、音響管（声道）の奥の方（声帯）に音源生成部が存在して、音源生成部が呼気によって駆動されて音源信号を生成し、音源信号が音響管を通ってスペクトル包絡が整形されて口唇から放射される、というモデルである。

従って、有声音においては、鼻腔の影響を除けば、音声の生成過程はＡＲモデルによって近似的に表現することができる。

一方、無声音においては、音源生成部は声帯ではなく、声道の中のいずれかの位置となる。例えば、／ｓ／は舌先を上の歯茎の近くまで運び、舌先と歯茎との間で音源信号を生成する。このとき、声帯は完全に開いた状態となっているため、声帯は音源信号を生成しない。従って、音源信号は口唇の近くで生じ、声道内で響いて口唇から放射される。ところが、ＡＲモデルを仮定しているＬＰＣ分析では、音源生成部が音響管の始端（声帯）でなく、音響管（声道）の途中又は終端（口唇）にあるようなシステムを正しく分析することはできない。このため、特許文献１の記載技術のように、ＬＰＣ分析及びＬＰＣ合成によって無声音の分析及び合成を行うと、狭帯域音声における無声音のスペクトル包絡が不正確となり、拡張スペクトル包絡も不正確となるため、結果として、言葉の音質と了解度を改善できないという課題があった。

本発明は、上記課題に鑑みてなされたものであり、無声音区間における擬似広帯域音声信号の言葉の音質と了解度を高めることができる音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラムを提供することを目的としている。

第１の本発明は、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置であって、（１）無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、（２）上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、（３）上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、（４）推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、（５）得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段とを備えることを特徴とする。

第２の本発明の音声帯域拡張プログラムは、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、（１）無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、（２）上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、（３）上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、（４）推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、（５）得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段として機能させることを特徴とする。

第３の本発明は、周波数帯域が制限された狭帯域音声信号における無声音を、制限帯域外の拡張帯域の成分を含むように拡張する無声音拡張装置であって、（１）無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、（２）上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、（３）上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、（４）推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、（５）得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段とを備えることを特徴とする。

第４の本発明の無声音拡張プログラムは、周波数帯域が制限された狭帯域音声信号における無声音を、制限帯域外の拡張帯域の成分を含むように拡張する無声音拡張装置に搭載されたコンピュータを、（１）無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、（２）上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、（３）上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、（４）推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、（５）得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段として機能させることを特徴とする。

本発明によれば、無声音のスペクトル包絡を精度良く推定、拡張でき、音声の明瞭度や了解度が改善されて、聴覚的にクリアな伸びのある擬似広帯域音声信号を得ることが音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラムを提供できる。

第１の実施形態の音声帯域拡張装置の全体構成を示す機能ブロック図である。調音方式ごとの時間的特徴と周波数的特徴をまとめた図表である。破裂音／ｋ／のパワースペクトルの例を示す説明図である。調音位置が歯茎である摩擦音／ｓ／のパワースペクトルの例を示す説明図である。調音位置が歯茎と硬口蓋である摩擦音／ｓｈ／のパワースペクトルの例を示す説明図である。第１の実施形態の音声帯域拡張装置における無声音拡張整形部を構成するイコライザフィルタの調音方式ごとのゲインパラメータを示す図表である。破裂音を含む「か」（／ｋａ／）の音声波形の例を示す説明図である。破裂音を含む「か」（／ｋａ／）のパワーの時系列データの例を示す説明図である。第５の実施形態の音声帯域拡張装置の全体構成を示す機能ブロック図である。特許文献１に記載の従来の音声帯域拡張装置の全体構成を示す機能ブロック図である。

（Ａ）第１の実施形態
以下、本発明による音声帯域拡張装置及びプログラムの第１の実施形態を、図面を参照しながら説明する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の音声帯域拡張装置の機能的構成を示すブロック図であり、上述した図１０との同一、対応部分には同一、対応符号を付して示している。第１の実施形態の音声帯域拡張装置は、その各部をハードウェアによって構成しても良く、また、ＣＰＵと、ＣＰＵが実行するプログラム（音声帯域拡張プログラム）として構成しても良いが（例えば、図１に示す各ブロックの機能をプログラムのサブルーチンとして構成しても良い）、機能的には、図１で表すことができる。

なお、以下では便宜上、電話帯域は３００Ｈｚ〜３．４ｋＨｚの帯域を指し、拡張帯域は０Ｈｚ〜３００Ｈｚ及び３．４ｋＨｚより高い周波数の帯域を指すものとする。

図１において、第１の実施形態の音声帯域拡張装置２００は、従来の音声帯域拡張装置１００と同様なサンプリング変換部１０６及び加算部１０７と、第１の実施形態で特有な有声音拡張部２０８．無声音音源生成部２０９、周波数解析部２１０、無声音調音方式推定部２１１、無声音拡張包絡推定部２１２、無声音拡張包絡整形部２１３及び拡張信号合成部２１４を有する。

有声音拡張部２０８は、所定の音声帯域拡張方法を用いて、狭帯域音声信号Ｓから有声拡張信号ＸＨＶを生成し、拡張信号合成部２１４に与える。

無声音音源生成部２０９は、所定の方法を用いて、無声拡張信号の音源信号ＸＲＵを生成し、無声音音源信号ＸＲＵを無声音拡張包絡整形部２１３に与える。

周波数解析部２１０は、狭帯域音声信号Ｓの周波数解析を行ってスペクトルパラメータＳＦを抽出し、スペクトルパラメータＳＦを無声音調音方式推定部２１１に与える。

無声音調音方式推定部２１１は、スペクトルパラメータＳＦに基づいて無声音の調音方式を推定し、得られた無声音調音パラメータＳＡを無声音拡張包絡推定部２１２に与える。

無声音拡張包絡推定部２１２は、無声音調音パラメータＳＡを用いて、無声音の拡張帯域のスペクトル包絡を推定し、得られた拡張スペクトル包絡情報ＸＥＵを無声音拡張包絡整形部２１３に与える。

無声音拡張包絡整形部２１３は、拡張スペクトル包絡情報ＸＥＵに基づいて、無声音音源信号ＸＲＵのスペクトル包絡を整形し、得られた無声拡張信号ＸＨＵを拡張信号合成部２１４に与える。

拡張信号合成部２１４は、有声拡張信号ＸＨＶと無声拡張信号ＸＨＵとを加算合成し、得られた拡張信号ＸＨを加算部１０７に与える。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の音声帯域拡張装置２００の動作を説明する。以下では、従来の音声帯域拡張装置１００には存在しない構成要素の動作を中心に説明し、サンプリング変換部１０６及び加算部１０７の動作については、その説明を省略する。

有声音拡張部２０８は、所定の音声帯域拡張方法を用いて、狭帯域音声信号Ｓから有声拡張信号ＸＨＶを生成し、得られた有声拡張信号ＸＨＶが拡張信号合成部２１４に与えられる。

ここで、所定の音声帯域拡張方法には、公知の技術を用いることができる。例えば、上述した図１０に示すように、ＬＰＣ分析部１０１、包絡拡張部１０２、音源信号拡張部１０３及びＬＰＣ合成部１０４によって有声音拡張部２０８を構成すること（特許文献１参照）で有声拡張信号ＸＨＶを生成しても良い。また、有声音拡張部２０８は、別途設けられた有声音／無声音判定部（図示せず）が、狭帯域音声信号Ｓに基づいて有声音か無声音かを判定した結果が有声音のときのみ、拡張動作するようにしても良く、有声音／無声音に拘わらずに拡張しても良い（後者の場合、後段の拡張信号合成部２１４に何らかの工夫が必要となることがある）。また、有声拡張信号ＸＨＶが有する帯域は、有声拡張信号ＸＨＶが加算部１０７に入力されるまでに拡張帯域に制限されなければいけないが、この帯域制限を有声音拡張部２０８の構成にフィルタ部（図１０の符号１０５参照）を含めることによって有声音拡張部２０８で行うようにしても良い。

無声音音源生成部２０９は、所定の方法を用いて無声拡張信号の音源信号ＸＲＵを生成し、得られた無声音音源信号ＸＲＵが無声音拡張包絡整形部２１３に与えられる。

無声音音源信号ＸＲＵの生成方法には、公知の技術を用いることができる。例えば、特許文献１の記載技術のように、ＬＰＣ分析の残差信号を非線形処理した信号を無声音音源信号ＸＲＵとしても良く、また、何らかの雑音を発生させる雑音生成部が出力した雑音を無声音音源信号ＸＲＵとしても良い。また、無声音音源生成部２０９は、別途設けられた有声音／無声音判定部（図示せず）が、狭帯域音声信号Ｓに基づいて有声音か無声音かを判定した結果が無声音のときのみ、拡張動作するようにしても良く、有声音／無声音に拘わらずに生成しても良い（後者の場合、後段の拡張信号合成部２１４に何らかの工夫が必要となることがある）。なお、無声音音源信号ＸＲＵが有する帯域は、無声音音源信号ＸＲＵが加算部１０７に入力されるまでに拡張帯域に制限されなければいけないが、この帯域制限を無声音音源生成部２０９で行うようにしても良い。

周波数解析部２１０は、狭帯域音声信号Ｓの周波数解析を行って、スペクトルパラメータＳＦを抽出し、得られたスペクトルパラメータＳＦが無声音調音方式推定部２１１に与えられる。

周波数解析の方法には、ＦＦＴ（高速フーリエ変換）やウェーブレット変換のような基底変換方法を用いても良く、フィルタバンクを用いても良い。また、スペクトルパラメータＳＦの要素は、少なくとも２帯域以上に分割された帯域の両方のパワーを含むか、又は、少なくとも２帯域以上に分割された帯域の高域側のパワーと狭帯域音声信号Ｓそのもののパワーを含むことが望ましい。

無声音調音方式推定部２１１は、スペクトルパラメータＳＦに基づいて無声音の調音方式を推定し、得られた無声音調音パラメータＳＡが無声音拡張包絡推定部２１２に与えられる。

ここでは、調音位置と調音様式の２つをまとめて調音方式と呼んでいる。調音位置とは、各種の子音を発音するために使われる、声帯から口唇までの器官のいずれかの位置を指す。また、調音様式とは、一般に破裂音や摩擦音などと呼ばれる分類のことである。

スペクトルパラメータＳＦの周波数的な特徴と時間変化を観察することで、調音方式を識別することができる。識別される調音方式の種類は、少なくとも以下の３つとすることが望ましい。

（Ｓ１）破裂音（／ｋ／、／ｔ／、／ｐ／など）
（Ｓ２）調音位置が歯茎である摩擦音（「さ」、「す」、「せ」、「そ」の／ｓ／）
（Ｓ３）調音位置が歯茎と硬口蓋である摩擦音（「し」、「しゃ」などの／ｓｈ／）
以上の分類には破擦音が含まれていないが、破擦音は時間的に破裂音から摩擦音へと推移する子音であるので、上の３つが分類できれば自動的に識別できる。

以下、調音方式を推定する方法の具体例を示す。

図２は、調音方式ごとの時間的特徴と周波数的特徴をまとめた図表である。図２は、文献「板橋修一編著、『音声工学』、森北出版株式会社、２００５年発行」の第２章の内容に、発明者等が実際の広帯域音声信号を分析して得た知見を統合したものである。

時間的特徴に注目すると、破裂音と摩擦音の間には明確な違いがあることが分かる。すなわち、破裂音の直前には短い無音区間が存在するが、摩擦音の直前には無音区間が存在しない。また、破裂音のパワーは急激に増大するが、摩擦音は、２種類共にそのパワーの変化は緩やかである。従って、無音区間の後に急激にパワーが増大するという時間的特徴を捕らえることで、破裂音か否かを推定することができる。

周波数的特徴に注目すると、２種類の摩擦音の間には明確な違いがあることが分かる。すなわち、電話帯域において、調音位置が歯茎である摩擦音がほぼ平坦であるのに対して、調音位置が歯茎と硬口蓋である摩擦音は高周波に向けて増大傾向であるということである。従って、周波数スペクトルの傾きを捕らえることで、摩擦音の調音位置を推定することができる。

一方、破裂音の周波数的特徴は、後続母音のフォルマント周波数の影響を強く受けるため、周波数的特徴を用いて破裂音を特定することは難しい。また、摩擦音の時間的特徴を捕らえるには、定常又は緩やかに増大していることを検出しなければならず、この検出には数十ｍｓの観測を要することから、処理に大きな遅延が生じる。また、摩擦音の調音位置の違いは時間的特徴には反映されない。

周波数特性の実例を図面にて示す。図３は破裂音／ｋ／のパワースペクトルの例である。図４は調音位置が歯茎である摩擦音／ｓ／のパワースペクトルの例である。図５は調音位置が歯茎と硬口蓋である摩擦音／ｓｈ／のパワースペクトルの例である。図３の／ｋ／は、後続母音が／ａ／であるため、／ａ／のスペクトルからピッチを除いたような形にも見える。これは、調音位置が比較的声帯に近い軟口蓋であり、口の形が／ａ／と同じになっているためである。

図４の／ｓ／と図５の／ｓｈ／は、図２に示した通りの形状となっていることが分かる。

以上より、調音方式の推定には、以下のような手続きを踏むのが望ましい。

手続１：破裂音の時間的特徴を有するか否かを検査する。仮に、その特徴を有するのなら、破裂音であると判定し、そうでなければ手続２へ進む。

手続２：周波数スペクトルの傾きが平坦か増大傾向かを検査する。平坦ならば調音位置は歯茎であると判定し、増大傾向ならば調音位置は歯茎と硬口蓋であると判定する。

次に、調音方式の時間的特徴と周波数的特徴の検出方法を説明する。

破裂音の時間的特徴は、スペクトルパラメータＳＦに特徴的なフィルタリングを時間方向に施すことで検出することができる。「破裂音の直前には無音区間がある」とは、裏を返せば「破裂音以外の直前には無音区間がない（有音区間である）」ということを意味する。そこで、現在のパワーから過去１０ｍｓ〜３０ｍｓのパワーを減じるようなＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタを用意して、このＦＩＲフィルタをスペクトルパラメータＳＦにかけたものを破裂音時系列パラメータとすると、破裂音時系列パラメータは、破裂音の入力に対して、その他の入力に対するよりも相対的に大きくなる。従って、予め適当な破裂音閾値を定義しておいて、破裂音時系列パラメータが破裂音閾値より大きくなったら、該入力は破裂音であると判定する。

なお、スペクトルパラメータＳＦは少なくとも２つのパワーを有するベクトルパラメータだが、破裂音時系列パラメータの算出には、スペクトルパラメータＳＦの要素のうち少なくとも１つ以上を使って算出する。例えば、狭帯域音声信号Ｓの全帯域のパワーに上述のＦＩＲフィルタをかけることで、破裂音時系列パラメータを算出する。

摩擦音の周波数的特徴は、スペクトルパラメータＳＦの２つ以上の要素を用いて、周波数スペクトルの傾きに関する特徴を算出し、摩擦音周波数パラメータとする。具体的には、高域側のパワーを低域側のパワーや全体のパワーで除したパワー比や、スペクトル重心などを摩擦音周波数パラメータとすることで、調音位置が歯茎と硬口蓋のときの摩擦音周波数パラメータの方が、調音位置が歯茎のときの摩擦音周波数パラメータより相対的に大きくなる。従って、予め適当な摩擦音閾値を定義しておいて、摩擦音周波数パラメータが閾値未満ならば調音位置は歯茎であると判定し、摩擦音周波数パラメータが閾値以上ならば調音位置は歯茎と硬口蓋であると判定する。

以上では、無声音調音パラメータＳＡが、調音方式を破裂音、歯茎の摩擦音、歯茎と硬口蓋の摩擦音という３つの状態を示す離散値であるように書いたが、無声音調音パラメータＳＡを閾値で段階に区分せずに連続値として適用するようにしても良い。例えば、破裂音時系列パラメータは「破裂音らしさ」を表しており、摩擦音周波数パラメータは調音位置そのもの、すなわち「舌先の位置」を表しており、連続値のパラメータを用いることで、あいまいな無声音子音や、過渡状態の無声音子音の状態をも表すことができる。

無声音拡張包絡推定部２１２は、無声音調音パラメータＳＡを用いて、無声音の拡張帯域のスペクトル包絡を推定し、得られた拡張スペクトル包絡情報ＸＥＵが無声音拡張包絡整形部２１３に与えられる。無声音拡張包絡推定部２１２の詳しい動作は後述する。

無声音拡張包絡整形部２１３は、拡張スペクトル包絡情報ＸＥＵに基づいて、無声音音源信号ＸＲＵのスペクトル包絡を整形し、得られた無声拡張信号ＸＨＵが拡張信号合成部２１４に与えられる。無声音拡張包絡整形部２１３の詳しい動作は後述する。なお、無声拡張信号ＸＨＵに対する帯域制限を無声音拡張包絡整形部２１３で行うようにしても良い。

以下、無声音拡張包絡推定部２１２と無声音拡張包絡整形部２１３の動作の詳細について説明する。

無声音拡張包絡推定部２１２からの拡張スペクトル包絡情報ＸＥＵがどのようなパラメータで構成されるかは、無声音拡張包絡整形部２１３がどのようにスペクトル包絡を整形するかによって変わる。スペクトル包絡の整形方式は、無声音調音パラメータＳＡに基づいた整形を行う処理であれば、どのような方式でも良い。ここでは、３つの具体例を、それぞれ周波数領域方式、合成フィルタ方式、イコライザ方式と称して紹介する。

周波数領域方式では、スペクトル包絡の整形を、周波数領域で、無声音音源信号ＸＲＵに対する拡張スペクトル包絡情報ＸＥＵの乗算によって行う。この場合、拡張スペクトル包絡情報ＸＥＵは、スペクトルゲインによって構成される。例えば、無声音音源信号ＸＲＵをＦＦＴによって周波数スペクトルに変換し、該周波数スペクトルにスペクトルゲインである拡張スペクトル包絡情報ＸＥＵを乗じ、その後、ＩＦＦＴ（逆高速フーリエ変換）によって、拡張スペクトル包絡情報ＸＥＵを乗じられた周波数スペクトルを時間波形へ戻し、この時間波形を無声拡張信号ＸＨＵとして出力する。

合成フィルタ方式では、無声音音源信号ＸＲＵのスペクトル包絡の整形を、時間領域でフィルタリングによって行う。この場合、拡張スペクトル包絡情報ＸＥＵは、フィルタ係数によって構成される。周波数領域方式におけるスペクトルゲインに相当するフィルタ係数を用いて無声音音源信号ＸＲＵをフィルタリングし、その出力を無声拡張信号ＸＨＵとして出力する。

イコライザ方式では、スペクトル包絡の整形を少なくとも１つ以上のイコライザフィルタによって行う。この場合、拡張スペクトル包絡情報ＸＥＵは、イコライザフィルタのパラメータによって構成される。なお、複数のイコライザフィルタを適用する場合には縦続接続する。拡張スペクトル包絡情報ＸＥＵは、イコライザの少なくともゲインパラメータを含むことが望ましく、Ｑパラメータ又は／及び周波数パラメータを含んでいても良い。イコライザによって整形された信号を無声拡張信号ＸＨＵとして出力する。

次に、スペクトル包絡をどのように整形するかについて説明する。ここでは図２の電話帯域外（４ｋＨｚ〜８ｋＨｚ）の周波数的特徴に注目する。この電話帯域外の周波数的特徴に基づいて、スペクトル包絡を整形するようにすれば、整形後の無声拡張信号ＸＨＵは、同様な周波数的特徴を有するものとなって好ましい。以下、イコライザ方式を適用したスペクトル包絡の整形方法の具体例を説明する。

２つのイコライザフィルタを用意し、増幅／減衰帯域の中心周波数を意味する周波数パラメータはそれぞれ４ｋＨｚと８ｋＨｚに固定する。ここでは、それぞれのイコライザフィルタを４ｋＨｚイコライザと８ｋＨｚイコライザと称する。Ｑパラメータ（先鋭度パラメータ）は、中心周波数から４ｋＨｚ離れた周波数には影響しないが、中心周波数から１ｋＨｚ〜２ｋＨｚほど離れた周波数には十分影響するような、緩いＱ特性を持つ値を設定する。そして今、無声音調音パラメータＳＡが、破裂音、摩擦音（歯茎）、摩擦音（歯茎と硬口蓋）を示す３値で表現されているとした場合、図６に示すように、イコライザのゲインパラメータを設定する。例えば、無声音拡張包絡推定部２１２は、無声音調音パラメータＳＡが規定する調音方式が「破裂音」であれば、４ｋＨｚイコライザのゲインパラメータを±０ｄＢとすると共に、８ｋＨｚイコライザのゲインパラメータを−６ｄＢとする拡張スペクトル包絡情報ＸＥＵを無声音拡張包絡整形部２１３に与える。なお、摩擦音（歯茎と硬口蓋）において、本来４ｋＨｚ〜８ｋＨｚのスペクトル包絡は平坦であるにも関わらず、４ｋＨｚイコライザのゲインパラメータを＋３ｄＢとしているのは、±０ｄＢとするよりも「し」（／ｓｈｉ／）や「ち」（／ｃｈｉ／）の明瞭度と了解度がより向上したという経験則に基づいている。

拡張信号合成部２１４は、有声拡張信号ＸＨＶと無声拡張信号ＸＨＵとを加算合成し、得られた拡張信号ＸＨが加算部１０７に与えられる。

ここで、有声音拡張部２０８及び無声音音源生成部２０９が、有声音／無声音の判別結果に応じて動作し、有声拡張信号ＸＨＶと無声拡張信号ＸＨＵのパワーが適切に制御されている場合には、拡張信号合成部２１４は有声拡張信号ＸＨＶと無声拡張信号ＸＨＵとを単純に加算して拡張信号ＸＨを算出する。

一方、有声拡張信号ＸＨＶと無声拡張信号ＸＨＵのパワーが適切に制御されていない場合には、拡張信号合成部２１４において、これを適切に制御しなければならないことがある。例えば、狭帯域音声信号Ｓに基づいて有声音らしさＬＶ（又は無声音らしさＬＵ）を算出し、有声音らしさＬＶ（又は無声音らしさＬＵ）に基づいて、有声音混合係数ＣＶと無声音混合係数ＣＵを算出し、（１）式に従って拡張信号ＸＨを算出する。有声音らしさＬＶには、例えば、一次自己相関係数を用いることができる。また、無声音らしさＬＵに、ゼロ交差比やグラディエントインデックスを用いることができる。グラディエントインデックスについては、例えば、文献「ＮａｏｆｕｍｉＡｏｋｉ，”ＡＢａｎｄＥｘｔｅｎｓｉｏｎＴｅｃｈｎｉｑｕｅｆｏｒＮａｒｒｏｗ−ＢａｎｄＴｅｌｅｐｈｏｎｙＳｐｅｅｃｈＢａｓｅｄｏｎＦｕｌｌＷａｖｅＲｅｃｔｉｆｉｃａｔｉｏｎ”，ＩＥＩＣＥＴｒａｎｓ．Ｃｏｍｍｕｎ．，Ｖｏｌ．Ｅ９３−Ｂ（３），ｐｐ．７２９−７３１，２０１０」に記載されている。有声音混合係数ＣＶと無声音混合係数ＣＵは、有声音らしさＬＶを一次自己相関係数とした場合、例えば、（２）式、（３）式に従って算出する。

ＸＨ＝ＣＶ・ＸＨＶ＋ＣＵ・ＸＨＵ …（１）
ＣＶ＝（ＬＶ＋１）／２ …（２）
ＣＵ＝１−ＣＶ …（３）
拡張信号合成部２１４から出力された拡張信号ＸＨは、加算部１０７において、サンプリング変換部１０６によって狭帯域音声信号Ｓがアップサンプリングされて得られたベースバンド信号ＸＬと加算され、これにより、擬似広帯域音声信号Ｘが得られる。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、有声音区間の有声拡張信号と無声音区間の無声拡張信号とを合成して拡張信号を生成するにつき、無声音のスペクトル包絡を調音方式に基づいて整形して無声拡張信号を得るようにしたので、音声の明瞭度や了解度が改善されて、聴覚的にクリアな伸びのある擬似広帯域音声信号を得ることができる。

（Ｂ）第２の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第２の実施形態を説明する。

第２の実施形態に係る音声帯域拡張装置の全体構成も、第１の実施形態の説明で用いた図１で表すことができる。この第２の実施形態では周波数解析部２１０において抽出するスペクトルパラメータＳＦの要素が異なる。

第１の実施形態における周波数解析部２１０では、狭帯域音声信号Ｓの全帯域（０Ｈｚ〜４ｋＨｚ）の解析結果によってスペクトルパラメータＳＦを構成していた。すなわち、第１の実施形態のスペクトルパラメータＳＦは、有声音において、ピッチ成分のパワーを含んでいることとなる。

しかし、有声音と無声音は、時刻に基づいて完全に切り分けられるものでなく、僅かにオーバーラップすることがある。すなわち、無声音の始端及び終端の少なくとも一方がピッチ成分を含むことがあるために、無声音の調音方式（特に、摩擦音の調音位置）を正しく推定できない場合がある。

そこで、この第２の実施形態では、ピッチ成分を含まないようにスペクトルパラメータＳＦを構成する。第２の実施形態における周波数解析部２１０は、狭帯域音声信号Ｓを少なくとも３つ以上の帯域に分割し、低域側の少なくとも１つ以上の帯域を含まず、高域側の少なくとも２つ以上の帯域を選択して、それぞれのパワーをスペクトルパラメータＳＦとする。例えば、６５０Ｈｚ〜１７５０Ｈｚ、１７５０Ｈｚ〜２８５０Ｈｚ、２８５０Ｈｚ〜４０００Ｈｚの３帯域のパワーをスペクトルパラメータＳＦとする。この例の場合、０Ｈｚ〜６５０Ｈｚの帯域は、スペクトルパラメータＳＦに反映されていない。

このようにしても、無声音調音方式推定部２１１は、スペクトルパラメータＳＦに基づいて、周波数的特徴や時間的特徴を捉えることができる。例えば、３帯域のパワーの合成パワーを利用して時間的特徴を捉えることができ、また、３帯域のパワーの大小関係に基づいて、平坦か、高周波に向けて増大傾向にあるかを判別することができる。

上述したように複数の帯域分割を行って、低域を含まずに高域側の複数の帯域のパワーをスペクトルパラメータＳＦとすることにより、無声音調音方式推定部２１１は、ピッチ成分の有無に関わらず、調音方式を推定することが可能となる。

第２の実施形態によれば、第１の実施形態と同様な効果に加え、以下の効果を奏することができる。

第２の実施形態によれば、有声音とオーバーラップしている無声音においても調音方式を高い精度で推定することができ、その結果、より音声の明瞭度や了解度が改善された擬似広帯域音声信号を得ることができる。

（Ｃ）第３の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第３の実施形態を説明する。

第３の実施形態に係る音声帯域拡張装置の全体構成も、第１の実施形態の説明で用いた図１で表すことができる。この第３の実施形態では、無声音調音方式推定部２１１において使用する破裂音の時間的特徴が異なる。

第１の実施形態における無声音調音方式推定部２１１では、破裂音を、図２の時間的特徴に基づいて推定していた。すなわち、以下の２つの特徴に注目することで、破裂音を推定していた。

（Ｆ１）破裂音の直前には短い無音区間がある
（Ｆ２）無音区間の後、パワーが急激に増大する
ここで、改めて破裂音の時間波形を観察すると、さらに特徴があることが分かる。図７は、日本語の「か」（／ｋａ／）の時間波形をプロットしたものである。第１の実施形態において捕らえていた時間的特徴は、図７の無音部、破裂部、母音部であった。しかし、厳密には、図７に示す通り、破裂部の後には気音部と呼ばれる／ｈ／に近い波形が存在する。パワーを時系列で観察すると、無音部では非常に弱く、破裂部で瞬時に増大し、気音部でいったん減衰した後、母音部で緩やかに増大する、といった特徴を捕らえることができる。実際に、図７の音声のパワーを観測すると、図８に示すようになり、気音部でパワーが減衰していることが分かる。

そこで、この第３の実施形態の無声音調音方式推定部２１１では、急激なパワーの増大に加えて、その直後に起きるごく短期間のパワーの減衰をも捕らえて破裂音を検出する。第１の実施形態においては、現在のパワーから過去１０ｍｓ〜３０ｍｓのパワーを減じるようなＦＩＲフィルタを用意し、このＦＩＲフィルタにスペクトルパラメータＳＦをかけることによって、破裂音時系列パラメータを得ていた。第３の実施形態においては、現在のパワーから過去１０ｍｓ〜３０ｍｓと未来０ｍｓ〜１０ｍｓのパワーを減じるようなＦＩＲフィルタを用意して、このＦＩＲフィルタにスペクトルパラメータＳＦをかけることによって、破裂音時系列パラメータを得る。新しいＦＩＲフィルタは、未来のパワーを用いることから因果性を満たさないが、音声帯域拡張装置のシステム全体を１０ｍｓ遅延させ、遅延させた分のスペクトルパラメータＳＦをメモリに保持しておくことで、非因果的なＦＩＲフィルタリングを擬似的に実行することができる。

第３の実施形態によれば、第１の実施形態と同様な効果に加え、以下の効果を奏することができる。

第３の実施形態によれば、破裂音を高い精度で推定することができ、その結果、より音声の明瞭度や了解度が改善された擬似広帯域音声信号を得ることができる。

以上では、第３の実施形態の技術思想を、第１の実施形態に対して適用した場合を説明したが、第３の実施形態の技術思想を、第２の実施形態に対して適用するようにしても良い。

（Ｄ）第４の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第４の実施形態を説明する。

第４の実施形態に係る音声帯域拡張装置の全体構成も、第１の実施形態の説明で用いた図１で表すことができる。この第４の実施形態は、第３の実施形態と同様に、無声音調音方式推定部２１１において使用する破裂音の時間的特徴が第１の実施形態における無声音調音方式推定部２１１と異なる。

第４の実施形態における無声音調音方式推定部２１１は、破裂音時系列パラメータを算出するために使用する非因果的なＦＩＲフィルタリングの実現方法が第３の実施形態における無声音調音方式推定部２１１と異なる。

上述した第３の実施形態における無声音調音方式推定部２１１では、非因果的なＦＩＲフィルタを用いて、破裂音時系列パラメータを算出している。非因果的ＦＩＲフィルタリングを実現するために、第３の実施形態では、システム全体を遅延させていた。しかし、システム全体を遅延させることは、擬似広帯域音声信号の出力を遅延させるため、例えば、ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩＰ）などによる音声通話システムでは受け入れがたい実現方法である。

そこで、この第４の実施形態では、フィルタリングに必要な未来のパワーを現在と過去のパワーの時系列から予測することで、システムに新たな遅延を増やさずに非因果的フィルタリングを実現する。

予測したパワーには誤差が含まれるため、無声音調音方式の推定精度への影響が懸念される。この懸念について以下で考察する。

音声は数十ｍｓ程度の短い区間ではほぼ定常と見なせる。従って、パワーの観測周期を十分に短くすれば、パワーの変化も定常的になるため、予測誤差を小さく抑えることができる。また、パワーの観測周期を短くすることは、短い期間で変化する破裂音の時間的特徴を捕らえる上でも良い影響をもたらす。一方、パワーの観測周期を短くすることで、狭帯域音声信号Ｓに含まれる低周波成分の影響を受け易くなり、パワーの時系列が振動し易くなるが、短い期間ではこの振動も定常なので、予測誤差を大きくする要因とはならない。また、パワーの予測には現在より以前の観測値しか用いない、すなわち、過去の予測値は用いないため、時間が経つにつれて予測誤差が蓄積されるという問題も生じない。従って、予測誤差によって無声音調音方式の推定精度が著しく低下することはない。

第４の実施形態によれば、第１の実施形態と同様な効果に加え、以下の効果を奏することができる。

第４の実施形態によっても、破裂音を高い精度で推定することができ、その結果、より音声の明瞭度や了解度が改善された擬似広帯域音声信号を得ることができる。ここで、第４の実施形態によれば、第３の実施形態にあるようなシステム全体の遅延がなく、それでいて破裂音を第３の実施形態と同等の高い精度で推定することができるので、ＶｏＩＰのような音声通話システムにも適用可能である。

以上では、第４の実施形態の技術思想を、第１の実施形態に対して適用した場合を説明したが、第４の実施形態の技術思想を、第２の実施形態に対して適用するようにしても良い。

（Ｅ）第５の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第５の実施形態を、図面を参照しながら説明する。

図９は、第５の実施形態に係る音声帯域拡張装置の全体構成を示すブロック図であり、上述した第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図９において、第５の実施形態の音声帯域拡張装置３００は、図１に示した第１の実施形態に係る音声帯域拡張装置２００の構成に加え、平滑化部３１５を有する。第５の実施形態の音声帯域拡張装置３００は、平滑化部３１５を有する点と、無声音調音パラメータＳＡが無声音拡張包絡推定部２１２に加えて平滑化部３１５にも与えられる点と、無声音拡張包絡整形部２１３に与えられるパラメータが平滑化拡張スペクトル包絡情報ＸＥＵｓｍである点が、第１の実施形態に係る音声帯域拡張装置２００と異なっている。

平滑化部３１５は、無声音調音パラメータＳＡに基づいて、拡張スペクトル包絡情報ＸＥＵを平滑化し、得られた平滑化拡張スペクトル包絡情報ＸＥＵｓｍが無声音拡張包絡整形部２１３に与えられる。

無声音に限らず、調音方式は、口全体の変形及び移動、並びに、呼気の変化によって変化する。ほとんどの場合、この変化は瞬時的ではなく、スムーズに行われる。無声音においても摩擦音はスムーズに変化する。すなわち、有声音から摩擦音へと移行するときには、舌は、直前の有声音の調音位置から該当する摩擦音の調音位置へと徐々に移動し、摩擦音から有声音へと移行するときには、舌は、摩擦音の調音位置から直後の有声音の調音位置へと徐々に移動する。一方、破裂音の場合には、直前に必ず無音部が存在し、その間に口腔内で呼気の圧力が高められ、圧縮された呼気を瞬時に開放することで破裂部へと移行するため、破裂音の調音方式は瞬時に変化する。

以上に鑑み、平滑化部３１５は、無声音調音パラメータＳＡが摩擦音を示している場合には、平滑化によって得られた平滑化拡張スペクトル包絡情報ＸＥＵｓｍを無声音拡張包絡整形部２１３に与え、無声音調音パラメータＳＡが破裂音を示している場合には、無声音拡張包絡推定部２１２から与えられた拡張スペクトル包絡情報ＸＥＵをそのまま（ＸＥＵｓｍ＝ＸＥＵ）、無声音拡張包絡整形部２１３に与える。

平滑化方法としては、（４）式に示すような時定数フィルタを用いることが好ましく、平滑化の度合は、１０ｍｓ〜５０ｍｓで収束する程度が良い。しかし、平滑化の方法や度合はこれに限定されるものではない。なお、（４）式中の演算子「←」は、右辺から左辺への代入を意味しており、ａは、０以上１未満の範囲の値をとる、平滑化の度合を調整する時定数である。

ＸＥＵｓｍ ← ａ・ＸＥＵｓｍ＋（１−ａ）・ＸＥＵ …（４）
破裂音の場合には、上述したように平滑化されない。但し、無声音拡張包絡整形部２１３の特性が瞬時に変わることでインパルス的又はステップ的な雑音が発生する場合には、破裂音の拡張スペクトル包終情報ＸＥＵを摩擦音と同じように平滑化するのが良く、このときの平滑化の度合いは１ｍｓ〜５ｍｓで収束する程度とすれば良い。

第５の実施形態によれば、第１の実施形態と同様な効果に加え、以下の効果を奏することができる。

第５の実施形態によれば、無声音の拡張スペクトル包絡が調音方式に基づいて適切に平滑化されるので、より自然性の高い高音質な擬似広帯域音声信号を得ることができる。

以上では、第５の実施形態の技術思想を、第１の実施形態に対して適用した場合を説明したが、第５の実施形態の技術思想を、第２、第３又は第４の実施形態に対して適用するようにしても良い。

（Ｆ）他の実施形態
上記各実施形態においては、有声拡張信号ＸＨＶと無声拡張信号ＸＨＵとを加算合成し、得られた拡張信号ＸＨにベースバンド信号ＸＬを加算合成して擬似広帯域音声信号Ｘを得る場合を示したが、有声拡張信号ＸＨＶと、無声拡張信号ＸＨＵと、ベースバンド信号ＸＬの合成順序は、これに限定されるものではない。例えば、有声拡張信号ＸＨＶとベースバンド信号ＸＬを加算合成した後に、無声拡張信号ＸＨＵを加算合成して、擬似広帯域音声信号Ｘを得るようにしても良い。

上記各実施形態の音声帯域拡張装置へ入力される狭帯域音声信号Ｓは、対向する通信装置から送信されてきたものであっても良く、また、記録媒体などから読み出したものであっても良い。また、上記各実施形態の音声帯域拡張装置が得た擬似広帯域音声信号Ｘは、スピーカなどから発音出力されても良く、他の装置に送信されても良く、また、記録媒体に記録されても良い。

上記各実施形態における無声拡張信号ＸＨＵを形成する構成部分を、専用装置や専用プログラム（無声音拡張装置若しくは無声音拡張プログラム）として構築し、市販に供するようにしても良い。

２００、３００…音声帯域拡張装置、１０６…サンプリング変換部、１０７…加算部、２０８…有声音拡張部、２０９…無声音音源生成部、２１０…周波数解析部、２１１…無声音調音方式推定部、２１２…無声音拡張包絡推定部、２１３…無声音拡張包絡整形部、２１４…拡張信号合成部、３１５…平滑化部。

Claims

周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置であって、
無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、
上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、
推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、
得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段と
を備えることを特徴とする音声帯域拡張装置。
上記無声音拡張包絡推定手段が、推定された上記無声音調音方式に基づいて、第１義的に定まる当初無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定本体と、当初無声音拡張スペクトル包絡情報を平滑化する平滑化部とを有し、推定された上記無声音調音方式に応じて、無声音拡張スペクトル包絡情報として平滑化された無声音拡張スペクトル包絡情報を出力することを特徴とする請求項１に記載の音声帯域拡張装置。
上記平滑化部は、推定された上記無声音調音方式に応じて異なる平滑化を実行することを特徴とする請求項２に記載の音声帯域拡張装置。
上記周波数解析手段は、少なくとも２つ以上の帯域のパワー値を含み、そのうちの少なくとも１つ以上のパワー値が、上記狭帯域音声信号を２つ以上の帯域に分割した帯域信号のいずれかのパワー値である上記スペクトルパラメータを出力することを特徴とする請求項１〜３のいずれかに記載の音声帯域拡張装置。
上記周波数解析手段は、出力する上記スペクトルパラメータに、ピッチ成分のパワーを有していないパワー値を少なくとも１つ以上含めることを特徴とする請求項１〜４のいずれかに記載の音声帯域拡張装置。
上記無声音調音方式推定手段は、無声音の調音方式が破裂音であるか、若しくは摩擦音であるかを識別することを特徴とする請求項１〜５のいずれかに記載の音声帯域拡張装置。
上記無声音調音方式推定手段は、摩擦音を、調音位置が歯茎である摩擦音と、調音位置が歯茎と硬口蓋である摩擦音と区別して識別することを特徴とする請求項６に記載の音声帯域拡張装置。
上記無声音調音方式推定手段は、上記スペクトルパラメータの少なくとも１つ以上のパワー値の変化が、所定範囲内の時間の無音レベルを得た後、破裂音のときに生じるような傾きで増大するという時間的特徴があったか否かで、上記破裂音であるか否かを推定することを特徴とする請求項６又は７に記載の音声帯域拡張装置。
上記無声音調音方式推定手段は、上記傾きの増大の直後にパワー値が減衰するという上記時間的特徴があったか否かで、上記破裂音であるか否かを推定することを特徴とする請求項８に記載の音声帯域拡張装置。
上記無声音調音方式推定手段は、入力された上記スペクトルパラメータから、所定の低域におけるスペクトルの傾きに関する特徴を得、得られた傾きが平坦か否かという上記周波数的特徴があったか否かで、調音位置が歯茎である摩擦音か否かを推定することを特徴とする請求項７に記載の音声帯域拡張装置。
上記無声音調音方式推定手段は、入力された上記スペクトルパラメータから、所定の低域におけるスペクトルの傾きに関する特徴を得、得られた傾きが高周波に向けて増大しているか否かという上記周波数的特徴があったか否かで、調音位置が歯茎と硬口蓋である摩擦音か否かを推定することを特徴とする請求項７又は１０に記載の音声帯域拡張装置。
周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、
無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、
上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、
推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、
得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段と
して機能させることを特徴とする音声帯域拡張プログラム。
周波数帯域が制限された狭帯域音声信号における無声音を、制限帯域外の拡張帯域の成分を含むように拡張する無声音拡張装置であって、
無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、
上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、
推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、
得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段と
を備えることを特徴とする無声音拡張装置。
周波数帯域が制限された狭帯域音声信号における無声音を、制限帯域外の拡張帯域の成分を含むように拡張する無声音拡張装置に搭載されたコンピュータを、
無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、
上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、
推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、
得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段と
して機能させることを特徴とする無声音拡張プログラム。