JP2012163919A

JP2012163919A - 音声信号処理装置、および音声信号処理方法、並びにプログラム

Info

Publication number: JP2012163919A
Application number: JP2011026241A
Authority: JP
Inventors: Yuki Mitsufuji; 祐基光藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-02-09
Filing date: 2011-02-09
Publication date: 2012-08-30
Also published as: CN102637436A; US20120201399A1

Abstract

【課題】音声信号に対する高精度なの周波数帯域拡大処理を実行する装置、方法を提供する。
【解決手段】入力音声信号の周波数分析結果に基づいて、低周波数帯域の包絡情報である低域包絡情報を算出する。さらに、学習用音声信号に基づく学習データ、例えば低域包絡情報から高周波数帯域の包絡情報である高域包絡情報を算出する学習データを適用して、入力音声信号対応の低域包絡情報から入力信号対応の高域包絡情報を推定して生成する。さらに、推定処理により生成した入力信号対応の高域包絡情報に対応する高周波数帯域信号を入力音声信号に合成して周波数帯域を拡大した出力音声信号を生成する。高域の包絡利得と包絡形状を、学習データを用いて推定することで高精度な帯域拡大が実現される。
【選択図】図１

Description

本発明は、音声信号処理装置、および音声信号処理方法、並びにプログラムに関する。さらに、詳細には入力信号に対する周波数帯域拡大処理を行う音声信号処理装置、および音声信号処理方法、並びにプログラムに関する。

データ通信やデータ記録処理に際しては、データ量の削減のために圧縮処理が行われることが多い。しかし、例えば音声信号を圧縮して伝送あるいは記録すると、オリジナルの音声データに含まれていた周波数帯域部分が失われる場合がある。

従って、圧縮データを伸長して再生した場合、元のオリジナルの音声データとは異なる音声データとして再生されてしまうことがある。
このような圧縮データの伸長処理に際して、圧縮処理に際して失われた帯域部分を復元して伸長する構成についていくつか提案されている。
例えば特許文献１（特開２００７−１７９０８号公報）には、圧縮処理に際して失われた高域信号の生成処理を行う帯域拡大処理について開示している。

しかし、従来の帯域拡大処理における問題点として、簡易な構成では高精度な拡大処理が困難となり、一方、高精度な拡大を実現するためには処理負荷や処理時間が増大し、装置としてのコストも大きくなるという問題点がある。

特開２００７−１７９０８号公報

本発明は、このような状況に鑑みてなされたものであり、簡易な構成で、より精度の高い帯域拡大処理を実現する音声信号処理装置、および音声信号処理方法、並びにプログラムを提供することを目的とする。

本発明の第１の側面は、
入力音声信号の周波数分析を実行する周波数分析部と、
前記周波数分析部の周波数分析結果に基づいて、低周波数帯域の包絡情報である低域包絡情報を算出する低域包絡算出部と、
学習用音声信号に基づいて予め生成した学習データであり、低域包絡情報から高周波数帯域の包絡情報である高域包絡情報を算出するための学習データを適用して、前記入力音声信号対応の低域包絡情報から、入力信号対応の推定高域包絡情報を生成する高域包絡情報推定部と、
前記入力音声信号に、前記高域包絡情報推定部の生成した推定高域包絡情報に対応する高周波数帯域信号を合成して周波数帯域を拡大した出力音声信号を生成する周波数合成部を有する音声信号処理装置にある。

さらに、本発明の音声信号処理装置の一実施態様において、前記学習データは、低域の包絡利得情報からの高域の包絡利得情報を推定するための包絡利得情報と、低域の包絡形状情報からの高域の包絡形状情報を推定するための包絡形状情報を含み、前記高域包絡情報推定部は、前記学習データに含まれる包絡利得情報を適用して、前記入力音声信号対応の低域包絡利得情報から、入力信号対応の推定高域包絡利得情報を推定する高域包絡利得推定部と、前記学習データに含まれる包絡形状情報を適用して、前記入力音声信号対応の低域包絡形状情報から、入力信号対応の推定高域包絡形状情報を推定する高域包絡形状推定部を有する。

さらに、本発明の音声信号処理装置の一実施態様において、前記高域包絡形状推定部は、前記低域包絡算出部の算出した入力音声信号の低域包絡情報に対するフィルタリング処理により生成した整形低域包絡情報を入力して入力信号対応の推定高域包絡形状情報を推定する。

さらに、本発明の音声信号処理装置の一実施態様において、前記周波数分析部は、前記入力音声信号の時間周波数分析を行い、時間周波数スペクトルを生成する。

さらに、本発明の音声信号処理装置の一実施態様において、前記低域包絡算出部は、前記周波数分析部の生成する入力音声信号の時間周波数スペクトルを入力し、低域ケプストラムを生成する。

さらに、本発明の音声信号処理装置の一実施態様において、前記高域包絡情報推定部は、前記学習データに含まれる包絡利得情報を適用して、前記入力音声信号対応の低域包絡利得情報から、入力信号対応の推定高域包絡利得情報を推定する高域包絡利得推定部を有し、前記高域包絡利得推定部は、入力音声信号に基づいて生成された低域ケプストラム情報に対して、前記学習データに含まれる包絡利得情報を適用して、前記入力音声信号対応の低域包絡利得情報から、入力信号対応の推定高域包絡利得情報を推定する。

さらに、本発明の音声信号処理装置の一実施態様において、前記高域包絡情報推定部は、前記学習データに含まれる包絡形状情報を適用して、前記入力音声信号対応の低域包絡形状情報から、入力信号対応の推定高域包絡形状情報を推定する高域包絡形状推定部を有し、前記高域包絡形状推定部は、入力音声信号に基づいて生成された整形低域ケプストラム情報に基づいて、前記学習データに含まれる包絡形状情報を利用した処理により、入力音声信号に対応する高域包絡形状情報の推定を行う。

さらに、本発明の音声信号処理装置の一実施態様において、前記高域包絡形状推定部は、ＧＭＭ（ガウス混合モデル）を用いた推定処理により、入力音声信号に対応する高域包絡形状情報の推定を行う。

さらに、本発明の音声信号処理装置の一実施態様において、前記音声信号処理装置は、前記入力音声信号に含まれない高周波数帯域の周波数を含む学習用音声信号に基づいて前記学習データを生成する学習処理部を有し、前記高域包絡情報推定部は、前記学習処理部の生成した学習データを適用して、前記入力音声信号対応の低域包絡情報から、入力信号対応の推定高域包絡情報を生成する。

さらに、本発明の第２の側面は、
第一の信号から第一の包絡情報を算出する機能と、
収音または伝送機能の少なくともいずれかを含む環境要因を排除する目的で第一の包絡情報の時間方向のＤＣ成分をフィルタによって除去する機能と、
フィルタ後の第一の包絡情報を線形変換した第二の包絡情報を第二の信号の包絡情報とし、第一の信号と合成する機能を備える音声信号処理装置にある。

さらに、本発明の第３の側面は、
低域の信号から低域の包絡情報を算出する機能と、
低域の包絡情報が、予め大量データの学習により分類されている複数のグループに属する確率を算出する機能と、
低域の包絡情報を、複数のグループにそれぞれ割り当てられている線形変換式によって線形変換を行い複数の高域包絡情報を生成する機能と、
時間軸において滑らかな高域包絡情報を生成する目的で複数の高域包絡情報を複数のグループに属する確率で混合することによって得られた高域の包絡情報を高域の信号の包絡情報とし、低域の信号と合成する機能を備える音声信号処理装置にある。

さらに、本発明の第４の側面は、
音声信号処理装置において入力音声信号に対する周波数帯域拡大処理を実行する音声信号処理方法であり、
周波数分析部が、入力音声信号の周波数分析を実行する周波数分析ステップと、
低域包絡算出部が、前記周波数分析ステップにおける周波数分析結果に基づいて、低周波数帯域の包絡情報である低域包絡情報を算出する低域包絡算出ステップと、
高域包絡情報推定部が、学習用音声信号に基づいて予め生成した学習データであり、低域包絡情報から高周波数帯域の包絡情報である高域包絡情報を算出するための学習データを適用して、前記入力音声信号対応の低域包絡情報から、入力信号対応の推定高域包絡情報を生成する高域包絡情報推定ステップと、
周波数合成部が、前記入力音声信号に、前記高域包絡情報推定部の生成した推定高域包絡情報に対応する高周波数帯域信号を合成して周波数帯域を拡大した出力音声信号を生成する周波数合成ステップを実行する音声信号処理方法にある。

さらに、本発明の第５の側面は、
音声信号処理装置において入力音声信号に対する処理を実行する音声信号処理方法であり、
第一の信号から第一の包絡情報を算出し、
収音または伝送機能の少なくともいずれかを含む環境要因を排除する目的で第一の包絡情報の時間方向のＤＣ成分をフィルタによって除去し、
フィルタ後の第一の包絡情報を線形変換した第二の包絡情報を第二の信号の包絡情報とし、第一の信号と合成する音声信号処理方法にある。

さらに、本発明の第６の側面は、
音声信号処理装置において入力音声信号に対する処理を実行する音声信号処理方法であり、
低域の信号から低域の包絡情報を算出し、
低域の包絡情報が、予め大量データの学習により分類されている複数のグループに属する確率を算出し、
低域の包絡情報を、複数のグループにそれぞれ割り当てられている線形変換式によって線形変換を行い複数の高域包絡情報を生成し、
時間軸において滑らかな高域包絡情報を生成する目的で複数の高域包絡情報を複数のグループに属する確率で混合することによって得られた高域の包絡情報を高域の信号の包絡情報とし、低域の信号と合成する音声信号処理方法にある。

さらに、本発明の第７の側面は、
音声信号処理装置において入力音声信号に対する周波数帯域拡大処理を実行させるプログラムであり、
周波数分析部に、入力音声信号の周波数分析を実行させる周波数分析ステップと、
低域包絡算出部に、前記周波数分析ステップにおける周波数分析結果に基づいて、低周波数帯域の包絡情報である低域包絡情報を算出させる低域包絡算出ステップと、
高域包絡情報推定部に、学習用音声信号に基づいて予め生成した学習データであり、低域包絡情報から高周波数帯域の包絡情報である高域包絡情報を算出するための学習データを適用して、前記入力音声信号対応の低域包絡情報から、入力信号対応の推定高域包絡情報を生成させる高域包絡情報推定ステップと、
周波数合成部に、前記入力音声信号に、前記高域包絡情報推定部の生成した推定高域包絡情報に対応する高周波数帯域信号を合成して周波数帯域を拡大した出力音声信号を生成させる周波数合成ステップを、
実行させるプログラムにある。

なお、本発明のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本発明の一実施例の構成によれば、音声信号に対する高精度なの周波数帯域拡大処理を実行する装置、方法が実現される。
例えば、本発明の一実施例の構成においては、入力音声信号の周波数分析結果に基づいて、低周波数帯域の包絡情報である低域包絡情報を算出する。さらに、学習用音声信号に基づく学習データ、例えば低域包絡情報から高周波数帯域の包絡情報である高域包絡情報を算出する学習データを適用して、入力音声信号対応の低域包絡情報から入力信号対応の高域包絡情報を推定して生成する。さらに、推定処理により生成した入力信号対応の高域包絡情報に対応する高周波数帯域信号を入力音声信号に合成して周波数帯域を拡大した出力音声信号を生成する。高域の包絡利得と包絡形状を、学習データを用いて推定することで高精度な帯域拡大が実現される。

音声信号処理装置の構成例について説明する図である。周波数分析処理と包絡情報算出処理について説明する図である。音源によって包絡形状（正確には次数毎のケプストラム）の時間変動が異なる様子を示した図である。音声信号の包絡形状にＤＣ成分が含まれる場合と、含まれない場合の包絡形状の時間変動を示す図である。包絡形状ＤＣ成分の時系列データを示す図である。包絡形状のＤＣ成分の周波数領域の様子を示した図である。ＫｍｅａｎｓとＧＭＭによるモデル化データを参照した包絡形状学習部における包絡形状の推定処理について説明する図である。ＫｍｅａｎｓとＧＭＭによるモデル化データを参照した高域包絡形状推定部の実行する高域包絡形状情報の推定処理について説明する図である。（ａ）Ｋｍｅａｎｓと（ｂ）ＧＭＭをそれぞれ使用した場合、写像元のデータがクラスタ境界を越えて変化すると、写像先のデータがどのように変化するかを説明する図である。

以下、図面を参照しながら本発明の音声信号処理装置、および音声信号処理方法、並びにプログラムの詳細について説明する。説明は以下の項目に従って行う。
１．本発明の音声信号処理装置の全体構成について
２．信号処理装置の各構成部の処理について
２．１．周波数分析部について
２．２．低域包絡算出部について
２．３．高域包絡算出部について
２．４．包絡情報整形部について
２．５．包絡利得学習部と包絡形状学習部について
２．６．高域包絡形状推定部について
２．７．高域包絡利得推定部について
２．８．中域包絡補正部について
２．９．高域包絡補正部について
２．１０．周波数合成部について

［１．本発明の信号処理装置の全体構成について］
まず、図１を参照して、この発明の実施の形態に係る信号処理装置の全体構成について説明する。
図１は、この発明の実施の形態に係る音声信号処理装置１００の一例を示す図である。図１に示す音声信号処理装置１００は、上段の学習処理部１１０と、下段の解析処理部１２０を有する。

解析処理部１２０に入力する入力音声信号８１の周波数帯域拡大処理を実行して、出力音声信号８２として出力する。この解析処理部１２０において実行する周波数帯域拡大処理に際して、学習処理部１１０が学習用音声信号５１に基づいて生成したデータを利用する。
学習処理部１１０は、学習用音声信号５１を入力して、学習用音声信号５１の解析により、例えば周波数包絡等の学習データを生成する。解析処理部１２０は、学習処理部１１０の生成した学習結果を利用して入力音声信号８１の周波数帯域拡大処理を行う。

図１に示すように、学習処理部１１０は、周波数分析部１１１、低域包絡算出部１１２、高域包絡算出部１１３、包絡情報整形部１１４、包絡利得学習部１１５、包絡形状学習部１１６を有する。
また解析処理部１２０は、周波数分析部１２１、低域包絡算出部１２２、包絡情報整形部１２３、高域包絡利得推定部１２４、高域包絡形状推定部１２５、中域包絡補正部１２６、高域包絡補正部１２７、周波数合成部１２８を有する。

図１に示す学習処理部１１０が学習対象として入力する学習用音声信号５１のサンプリング周波数（ｆｓ２）と、解析処理部１２０の出力信号、すなわち周波数帯域拡大処理を行った後の出力音声信号８２のサンプリング周波数（ｆｓ２）は同じである。
これらの２つの信号のサンプリング周波数（ｆｓ２）は、解析処理部１２０の入力信号、すなわち周波数帯域拡大処理の対象となる入力音声信号８１のサンプリング周波数（ｆｓ１）に対して２倍の値となっている。
なお、ｆｓ１，ｆｓ２はそれぞれサンプリング周波数を示し
（ｆｓ２）＝２×（ｆｓ１）
上記の対応関係である。

すなわち、解析処理部１２０の入力する入力音声信号８１のサンプリング周波数（ｆｓ１）は周波数帯域の圧縮された信号であり、解析処理部１２０は、この入力信号の周波数帯域の拡大処理を実行して２倍のサンプリング周波数（ｆｓ２）の出力音声信号８２を生成して出力する。
解析処理部１２０はこの帯域拡大処理に際して、出力音声信号８２のサンプリング周波数（ｆｓ２）と同じサンプリング周波数（ｆｓ２）に対する学習データを学習処理部１１０から取得してこの学習データを利用して高精度な周波数帯域拡大処理を実行する。
以下、各構成部の処理の詳細について説明する。

［２．信号処理装置の各構成部の処理について］
（２．１．周波数分析部について）
図１に示すように、周波数分析部は、学習処理部１１０と解析処理部１２０の双方に設定されている。
図１に示す学習処理部１１０の周波数分析部１１１は、サンプリング周波数（ｆｓ２）の学習用音声信号５１を入力し、この学習用音声信号５１に対して周波数分析を行う。
また、解析処理部１２０の周波数分析部１２１は、周波数帯域拡大処理の対象となる入力音声信号８１に対して時間周波数分析を行う。

これらの周波数分析部１１１と、周波数分析部１２１において実行する時間周波数分析処理について、図２を参照して説明する。
周波数分析部１１１と、周波数分析部１２１は、入力音声信号に対する時間周波数分析を実行する。

マイク等を介して入力する入力信号をｘとする。図２の最上段に入力信号ｘの例を示す。横軸が時間（またはサンプル番号）、縦軸が振幅である。
学習処理部１１０の周波数分析部１１１に対する入力信号ｘは、サンプリング周波数（ｆｓ２）の学習用音声信号５１である。
また、解析処理部１２０の周波数分析部１２１に対する入力信号ｘは、周波数帯域拡大処理の処理対象信号であるサンプリング周波数（ｆｓ１）の入力音声信号８１である。

まず、周波数分析部１１１と、周波数分析部１２１は、入力信号ｘから固定サイズのフレーム分割を行い、入力フレーム信号ｘ（ｎ，ｌ）を得る。
図２のステップＳ１０１の処理である。
図２に示す例では、フレーム分割のサイズをＮとし、各フレームのシフト量（ｓｆ）をフレームの大きさＮの５０％とし、各フレームを重複させた設定としている。

さらに、入力フレーム信号ｘ（ｎ，ｌ）に対して、所定の窓関数：ｗを乗算して窓関数適用信号ｗｘ（ｎ，ｌ）を得る。窓関数は例えばハニング窓の平方根を計算したものが適用可能である。
窓関数適用信号ｗｘ（ｎ，ｌ）は、以下の（式１）によって示される。

・・・・・（式１）

上記式（式１）において、
ｘ：入力信号、
ｎ：時間インデックス、ｎ＝０，…，Ｎ−１、ｌ＝０，…，Ｌ−１
（Ｎはフレームの大きさ）
ｌ：フレーム番号、ｌ＝０，…，Ｌ−１
（Ｌは全フレーム数）
ｗ＿ａｎａ：窓関数、
ｗｘ：窓関数適用信号、
である。

なお、窓関数：ｗ＿ａｎａは、上記の例ではハニング窓の平方根を計算した窓関数を適用しているが、この他、サイン窓などの窓関数も使用可能である。
フレームの大きさＮは、例えば、０．０２ｓｅｃ相当のサンプル数（Ｎ＝サンプリング周波数ｆｓ＊０．０２）である。ただし、それ以外の大きさでも構わない。
また、図２に示す例では、フレームのシフト量（ｓｆ）はフレームの大きさ（Ｎ）の５０％とし、各フレームを重複した設定としているが、それ以外のシフト量でも構わない。

上記（式１）に従って得られた窓関数適用信号ｗｘ（ｎ，ｌ）に対して、以下に示す（式２）に従って時間周波数分析を行い、時間周波数スペクトルＸａｎａ（ｋ，ｌ）を得る。

・・・・・（式２）

上記式（式２）において、
ｗｘ：窓関数適用信号、
ｊ：純虚数、
Ｍ：ＤＦＴ（離散フーリエ変換）のポイント数、
ｋ：周波数インデックス、
Ｘａｎａ：時間周波数スペクトル、
である。

窓関数適用信号ｗｘ（ｎ，ｌ）に対する時間周波数分析処理としては、例えば、ＤＦＴ（離散フーリエ変換）による周波数分析が適用可能である。その他、ＤＣＴ（離散コサイン変換）やＭＤＣＴ（修正離散コサイン変換）などの他の周波数分析を用いてもよい。また、必要であれば、ＤＦＴ（離散フーリエ変換）のポイント数Ｍに合わせて適切に零詰めを行ってもよい。ＤＦＴのポイント数Ｍは、Ｎ以上の２のべき乗の値としているが、それ以外のポイント数でも構わない。

（２．２．低域包絡算出部について）
低域包絡算出部も、上記の周波数分析部と同様、図１に示すように学習処理部１１０と解析処理部１２０の双方に設定されている。

学習処理部１１０の低域包絡算出部１１２は、サンプリング周波数（ｆｓ２）の学習用音声信号５１に対する周波数分析部１１１の分析結果として得られる時間周波数スペクトルから選択される低周波数帯域（例えばｆｓ１／２未満）の周波数に相当するスペクトルに対する処理によって低域の包絡情報を算出する。

一方、解析処理部１２０の低域包絡算出部１２２は、サンプリング周波数（ｆｓ１）の入力音声信号８１に対する周波数分析部１２１の分析結果として得られる時間周波数スペクトルから選択される低周波数帯域（例えばｆｓ１／２未満）の周波数に相当するスペクトルに対する処理によって低域の包絡情報を算出する。

これら２つの低域包絡算出部１１２と、低域包絡算出部１２２は、処理対象が異なるのみで、実行する処理は同じである。すなわち、周波数分析部の分析結果として得られる時間周波数スペクトルから選択される低周波数帯域（例えばｆｓ１／２未満）の周波数に相当するスペクトルに対する処理によって低域の包絡情報を算出する。
以下、この処理について説明する。

低域包絡算出部１１２，１２２では、周波数分析部１１１，１２１より供給された０以上ｆｓ１／２未満の周波数に相当する時間周波数スペクトルＸａｎａ（ｋ，ｌ）からスペクトルの微細構造を取り除き、包絡情報を算出する。例えば以下の（式３）に従って、低域包絡情報に相当する低域ケプストラムＣｌｏｗを算出する。

・・・・・（式３）

上記式（式３）において、
ｉ：ケプストラムインデックス、
Ｃｌｏｗ：低域ケプストラム、
である。

なお、この低域包絡算出部１１２，１２２の処理は、図２に示すステップＳ１０２、Ｓ１０３の処理に対応する。
図２に示すステップＳ１０２は、上記（式３）に従った各フレーム対応の低域包絡情報の算出処理である。
ステップＳ１０３は、上記（式３）に従って算出された各フレーム対応の低域包絡情報を、
周波数（周波数ビン）を行、
時間（フレーム）を列、
としたＮ行Ｌ列の行列として、行列の各要素を示したものである。

上記（式３）に示すように、低域包絡算出部１１２，１２２は、ＬＦＣＣ（線形周波数ケプストラム係数、以下ケプストラム）を算出し、低次項の係数のみを利用することにより低域包絡情報を取得する。

なお、低域包絡算出部１１２，１２２における低域包絡情報の算出処理は、上記のようなＬＦＣＣ（線形周波数ケプストラム係数、以下ケプストラム）の適用処理に限らず、例えば、ＬＰＣＣ（線形予測ケプストラム係数）、ＭＦＣＣ（メル周波数ケプストラム係数）、ＰＬＰＣＣ（知覚線形予測ケプストラム係数）などのその他のケプストラムや、その他の周波数包絡情報を用いた構成としてもよい。

図１に示す上段の学習処理部１１０の低域包絡算出部１１２は、学習用音声信号５１に対して、上記の（式３）に従って算出した低域ケプストラムＣｌｏｗ（ｉ，ｌ）を、包絡利得学習部１１５と包絡情報整形部１１４へ供給する。

また、図１の下段の解析処理部１２０の低域包絡算出部１２２は、入力音声信号８１に対して、上記の（式３）に従って算出した低域ケプストラムＣｌｏｗ（ｉ，ｌ）を、高域包絡利得推定部１２４と包絡情報整形部１２３へ供給する。

（２．３．高域包絡算出部について）
次に、高域包絡算出部の処理について説明する。
高域包絡算出部は、図１に示すように学習処理部１１０に設けられている。
学習処理部１１０の高域包絡算出部１１３は、サンプリング周波数（ｆｓ２）の学習用音声信号５１に対する周波数分析部１１１の分析結果として得られる時間周波数スペクトルから選択される高周波数帯域（例えばｆｓ１／２以上ｆｓ２／２未満）の周波数に相当するスペクトルに対する処理によって高域の包絡情報を算出する。

高域包絡算出部１１３は、周波数分析部１１１より供給されたｆｓ１／２以上ｆｓ２／２未満の周波数に相当する時間周波数スペクトルＸａｎａ（ｋ，ｌ）からスペクトルの微細構造を取り除き、包絡情報を算出する。例えば以下の（式４）に従って、高域包絡情報に相当する高域ケプストラムＣｈｉｇｈを算出する。

・・・・・（式４）

上記式（式４）において、
ｉ：ケプストラムインデックス、
Ｃｈｉｇｈ：低域ケプストラム、
である。

上記のように、本実施例においてはＬＦＣＣ（線形周波数ケプストラム係数、以下ケプストラム）を算出し、低次項の係数のみを利用することにより包絡情報を取得している。ただし、高域包絡算出部１１３における高域包絡情報の算出に際しては、ＬＦＣＣ（線形周波数ケプストラム係数、以下ケプストラム）に限らず、例えば、ＬＰＣＣ（線形予測ケプストラム係数）、ＭＦＣＣ（メル周波数ケプストラム係数）、ＰＬＰＣＣ（知覚線形予測ケプストラム係数）などのその他のケプストラムや、その他の周波数包絡情報を用いる構成としてもよい。

図１に示す上段の学習処理部１１０の低域包絡算出部１１２は、学習用音声信号５１に対して、上記（式４）に従って算出した高域ケプストラムＣｈｉｇｈ（ｉ，ｌ）を、包絡情報整形部１１４と、包絡利得学習部１１５、および包絡形状学習部１１６へ供給する。

（２．４．包絡情報整形部について）
包絡情報整形部は、図１に示すように学習処理部１１０と解析処理部１２０の双方に設定されている。

学習処理部１１０の包絡情報整形部１１４は、サンプリング周波数（ｆｓ２）の学習用音声信号５１に基づいて、
低域包絡算出部１１２が生成した低域包絡情報、
を入力し、フィルタリング処理により包絡情報の整形を実行し、整形包絡情報を生成して包絡形状学習部１１６に提供する。

一方、解析処理部１２０の包絡情報整形部１２３は、サンプリング周波数（ｆｓ１）の入力音声信号８１に基づいて、
低域包絡算出部１２２が生成した低域包絡情報、
を入力し、この包絡情報のフィルタリング処理により包絡情報の整形を実行し、整形包絡情報を生成して高域包絡形状推定部１２５に提供する。

より、具体的には、学習処理部１１０の包絡情報整形部１１４は、サンプリング周波数（ｆｓ２）の学習用音声信号５１に基づいて、

低域包絡算出部１１２が生成した低域包絡情報、
すなわち、上記（式３）に従って算出した低域ケプストラムＣｌｏｗ（ｉ，ｌ）を入力し、包絡情報：Ｃｌｏｗ（ｉ，ｌ）、に対して、予め定めた次数Ｒまでを残し、以下を削除するフィルタリング処理を行う包絡情報の整形を実行し、整形包絡情報:Ｃ'ｌｏｗ（ｉ，ｌ）を生成して包絡情報学習部１１６に提供する。

一方、解析処理部１２０の包絡情報整形部１２３は、サンプリング周波数（ｆｓ１）の入力音声信号８１に基づいて、
低域包絡算出部１２２が生成した低域包絡情報、すなわち、上記（式３）に従って算出した低域ケプストラムＣｌｏｗ（ｉ，ｌ）
を入力し、この包絡情報：Ｃｌｏｗ（ｉ，ｌ）を、次数毎にフレーム方向にフィルタ処理を行い、変調周波数のＤＣ成分と２５Ｈｚ以上の高周波成分を除去する整形を実行し、整形包絡情報（Ｃ'ｌｏｗ（ｉ，ｌ））を生成して高域包絡形状推定部１２５に提供する。

図３は、音源によって包絡形状（正確には次数毎のケプストラム）の時間変動が異なる様子を示した図である。
（ａ）非音声信号の包絡形状の時間変動、
（ｂ）音声信号の包絡形状の時間変動
これらの２つの異なる音源からの音声信号の包絡形状の時間変動の例を示している。
縦軸が振幅（周波数）、横軸が時間に対応する。

（ａ）の非音声信号の包絡形状の時間変動では、低周波から高周波まで一様な周期成分がランダムな位相を伴って混合されていることがうかがえる。
一方、（ｂ）の音声信号の包絡形状の時間変動は、音の立ち上がりや立ち下がりが一定の周期（主に２５Ｈｚ以下）を含んで規則的に変動している。
これらのことから、音声信号と非音声信号が混合された信号の場合、２５Ｈｚ未満の時間変動に関しては音声信号が比較的支配的であり、２５Ｈｚ以上の時間変動に関しては非音声信号が比較的支配的であると判断できる。

従って、２５Ｈｚ以上の高周波時間変動成分を除去、または低減することにより、非音声信号の時間変動を抑える効果があり、それと同時にフレーム間の急激な時間変動を抑え安定させる効果があると推定できる。

図４は、音声信号の包絡形状にＤＣ成分が含まれる場合と、含まれない場合の包絡形状の時間変動を示している。
（ｃ）ＤＣ成分がない音声信号の包絡形状の時間変動
（ｄ）ＤＣ成分がある音声信号の包絡形状の時間変動
これらの２つの音声信号の包絡形状の時間変動の例を示している。
縦軸が振幅（周波数）、横軸が時間に対応する。

（ｃ）に示すＤＣ成分を含まない音声信号の包絡形状の時間変動データは、全区間平均を計算すると理論上平均値は０になる。
一方、（ｄ）に示すＤＣ成分を含む音声信号の包絡形状の時間変動データは、全区間平均を計算すると、理論上の平均値がＤＣ成分に等しくなる。
このように計算される時間方向のＤＣ成分は、ケプストラム次数毎に異なる。

図５には包絡形状ＤＣ成分の時系列の様子を示している。左奥から手前まで、ケプストラムの１次からR次までを並べており、手前から右奥まで、ケプストラムの時間変動を並べている。
１次からR次までのケプストラム成分の各々は、時間変動をしており、各々、固有のＤＣ成分を持っている。
１次からR次までのＤＣ成分を周波数変換して、パワースペクトル軸に戻して観察した場合、時不変の周波数包絡の形を求めることができる。

図６は、包絡形状のＤＣ成分の周波数領域の様子を示したものである。
図６（Ａ）は、ケフレンシー領域でＤＣ成分として観察された１次からR次までのケプストラムを示している。
この図６（Ａ）に示すケフレンシー領域でＤＣ成分として観察された１次からR次までのケプストラムを周波数変換してパワースペクトル領域に戻したデータが、図６（Ｂ）に示すデータである。
この図６（Ｂ）に示すように、静的な周波数特性が観察される。
このように、１次からR次までのＤＣ成分を周波数変換して、パワースペクトル軸に戻して観察することで、静的な周波数包絡の形を求めることができる。

この図６（Ｂ）に示すＤＣ成分の周波数特性は時間変動に依存せず一定の周波数包絡であり、収音時のマイクのアナログ特性や残響成分に相当する場合や、あるいは、コーデックのプリ・ポストフィルタの特性に相当する場合であることが多い。
これらのＤＣ成分を除去することにより、乗法性歪み（マイク特性、残響）を低減する効果がある。

以上の事実を考慮し、学習処理部１１０の包絡情報整形部１１４と、解析処理部１２０の包絡情報整形部１２３は、包絡情報整形処理におけるフィルタ通過帯域を多くの音源において音声の時間包絡が取りうる時間変動を考慮した処理として行うことが好ましい。
学習処理部１１０の包絡情報整形部１１４と、解析処理部１２０の包絡情報整形部１２３は、例えば以下の（式５）に従って、整形包絡情報を生成する。

・・・・・（式５）

なお、上記（式５）においては、変調周波数を１００Ｈｚ（＝１／（０．０２＊０．５））と設定し、フィルタの伝達関数の分子の係数ｂ（ｍ）を［０．２５，０．２５，−０．２５，−０．２５］、分母の係数ａ（ｍ）を［１，−０．９８］とし、それぞれ係数の総数をＭＢ＝４、ＭＡ＝２としている。
なお、係数ａ（ｍ），ｂ（ｍ）は、変調周波数に応じて設定可能である。

学習処理部１１０の包絡情報整形部１１４は、サンプリング周波数（ｆｓ２）の学習用音声信号５１に基づいて、
低域包絡算出部１１２が生成した低域包絡情報、すなわち、上記（式３）に従って算出した低域ケプストラムＣｌｏｗ（ｉ，ｌ）
を入力し、包絡情報：Ｃｌｏｗ（ｉ，ｌ）に対して、上記（式５）に従って、整形包絡情報:Ｃ'ｌｏｗ（ｉ，ｌ）を生成して包絡情報学習部１１６に提供する。

一方、解析処理部１２０の包絡情報整形部１２３は、サンプリング周波数（ｆｓ１）の入力音声信号８１に基づいて、
低域包絡算出部１２２が生成した低域包絡情報、すなわち、上記（式３）に従って算出した低域ケプストラムＣｌｏｗ（ｉ，ｌ）
を入力し、この包絡情報：Ｃｌｏｗ（ｉ，ｌ）に対して、上記（式５）に従って、整形低域包絡情報、すなわち整形低域ケプストラム情報（Ｃ'ｌｏｗ（ｉ，ｌ））を生成して高域包絡形状推定部１２５に提供する。

（２．５．包絡利得学習部と包絡形状学習部について）
包絡利得学習部１１５と包絡形状学習部１１６は、図１に示すように学習処理部１１０に設定されている。

包絡利得学習部１１５と包絡形状学習部１１６は、学習用音声信号５１に基づいて生成された包絡情報としての以下の情報、すなわち、
低域ケプストラム情報Ｃｌｏｗ（ｉ，ｌ）、
高域ケプストラム情報Ｃｈｉｇｈ（ｉ，ｌ）、
整形ケプストラム情報Ｃ'ｌｏｗ（ｉ，ｌ）、
これらの情報に基づいて、学習用音声信号５１における低域と高域の包絡情報の関係を学習する。
具体的には、包絡利得学習部１１５は、低域の包絡利得情報からの高域の包絡利得情報を推定するための包絡利得情報として、［包絡利得推定情報Ａ］を算出する。
また、包絡形状学習部１１６は、低域の包絡形状情報からの高域の包絡形状情報を推定するための包絡形状情報として、［混合数Ｐ］、［混合係数πｐ］、［平均μｐ］、［共分散Σｐ］を算出する。

包絡利得学習部１１５と包絡形状学習部１１６は、包絡利得と包絡形状を別々に推定する。
包絡利得学習部１１５では、包絡利得をケプストラムの０次成分の推定処理として実行する。
包絡形状学習部１１６では、包絡形状をケプストラムの０次以外の低次の成分の推定によって実現している。

具体的には、包絡利得学習部１１５では、例えば回帰式によってケプストラムの０次成分の推定処理を行い、包絡利得を算出する。
一方、包絡形状学習部１１６では、例えば、ＧＭＭ（混合ガウスモデル）によってケプストラムの０次以外の低次の成分の推定を行い、包絡形状を算出する。

包絡利得学習部１１５における包絡利得推定処理においては、説明変数として低域ケプストラム情報Ｃｌｏｗ（ｉ，ｌ）の０次からＲ次までの成分とそれぞれの２乗値を用い、被説明変数として高域ケプストラム情報の０次成分Ｃｈｉｇｈ（０，１）を用いている。上記の説明変数の線形結合による推定値（切片項も含む）と、目標値である被説明変数との間の二乗和誤差関数Ｅ（Ａ）を最小にするような線形結合係数Ａを［包絡利得推定情報Ａ］として求める。二乗和誤差関数Ｅ（Ａ）は、以下の（式６）によって示される。

・・・・・（式６）

なお、上記（式６）において、
例えば、一例として、Ｒ＝４とし、２乗項を含めた非線形回帰を行う。
なお、その他のＲの値の使用や、ニューラルネットワークやカーネル回帰などのその他の回帰手法を用いても構わない。

また、包絡形状学習部１１６における包絡形状の推定では、例えばＧＭＭ（ガウス混合モデル）を用いた処理を行う。
包絡形状学習部１１６における包絡形状の推定では、例えばＧＭＭ（ガウス混合モデル）を用いて、ケプストラムの０次以外の低次の成分の推定を行い、包絡形状を算出する。具体的には、包絡形状情報である［混合数Ｐ］、［混合係数πｐ］、［平均μｐ］、［共分散Σｐ］を算出する。

なお、包絡形状の推定処理として行うケプストラムの０次以外の低次の成分の推定処理手法としては、ＧＭＭ（ガウス混合モデル）を用いた処理の他、例えば、コーデックにおいてベクトル量子化の手段として頻繁に用いられるＫｍｅａｎｓ手法の適用も可能である。しかし、Ｋｍｅａｎｓと比較して、ＧＭＭは自由度の高いモデル化手法である。具体的には、例えば、包絡形状のクラスタリング手法（ベクトル量子化手法）を用いた処理が適用可能である。なお、ＧＭＭの全てのクラスタにおける共分散の自由度を減らし、単位行列にした場合、理論的にはＫｍｅａｎｓとほぼ等しくなる。

図７〜図９は、ＫｍｅａｎｓとＧＭＭによるモデル化の比較を示す図である。
なお、図７〜図９に示すモデルは、多次元特徴量空間を２次元に簡略化して示している。
図７には、以下のモデル化データ例を示している。
（ａ）Ｋｍｅａｎｓ（クラスタ数：Ｐ＝１）によってモデル化を行った例
（ｂ）Ｋｍｅａｎｓ（クラスタ数：Ｐ＞１）によってモデル化を行った例
（ｃ）ＧＭＭ（クラスタ数：Ｐ＝１）によってモデル化を行った例
（ｄ）ＧＭＭ（クラスタ数：Ｐ＞１）によってモデル化を行った例

図７（ａ）は、Ｋｍｅａｎｓ（クラスタ数：Ｐ＝１）によってモデル化を行った例を示している。
図の円の外側を囲んでいる歪んだ形をした図形が、空間におけるデータ分布であるとした場合、Ｋｍｅａｎｓ（クラスタ数：Ｐ＝１）によってモデル化を行うと超球状に分布のモデル化が行われ、表現しきれない箇所が多々出現する。図７において、グレーの円または楕円部分がモデル化されている空間であり、残りの箇所がモデル化できなかった空間である。

このようにＫｍｅａｎｓのような超球状のモデルでは、１つのクラスタでは歪な空間を表現しきれないことが多い。よって、一般的には（ｂ）のように、多数のクラスタを使用（クラスタ数：Ｐ＞１）し、空間の分布を埋めることが多い。

一方、
（ｃ）ＧＭＭ（クラスタ数：Ｐ＝１）によってモデル化を行った例
の場合、モデルの共分散の自由度により、超球状から超楕円状に形を柔軟に変化させることが可能なため、データの分布に当てはまる体積がＫｍｅａｎｓより大きくなる。
（ｄ）ＧＭＭ（クラスタ数：Ｐ＞１）によってモデル化を行った例
のように複数のクラスタを使用した場合においても、各クラスタの大きさ、方向、形を個別に変形させることができるため、分布への当てはまる体積が大きい。

図７から理解される通り、
（ａ）Ｋｍｅａｎｓ（クラスタ数：Ｐ＝１）によってモデル化を行った例
より、
（ｃ）ＧＭＭ（クラスタ数：Ｐ＝１）によってモデル化を行った例
の方が同じクラスタ数１では、データの分布をより正確に表現できている。

また、（ｂ）と（ｃ）の比較においては、どちらも（ａ）よりも分布を正確に表現しているが、（ｂ）の方が必要なクラスタ数が多く、その情報を保持するためのメモリーを必要とする。一方（ｃ）に示すＧＭＭでは、各クラスタの共分散情報を保持しており、その情報がクラスタの大きさ、方向、形を決定している。対角成分以外全て零という自由度の縛りを入れたモデル（対角共分散モデル）の場合、同じクラスタ数という条件のもとで、Ｋｍｅａｎｓの二倍のメモリーを必要とする。Ｋｍｅａｎｓがクラスタの平均値の情報のみを保持しているのに対し、ＧＭＭでは対角共分散の情報を保持していることに起因する。

しかし、実際にはＧＭＭによる表現能力は極めて高く、実施例のような音声の包絡形状をモデル化の対象とした場合、ＧＭＭに比較して、Ｋｍｅａｎｓは約四倍のクラスタ数を必要とするため、結局Ｋｍｅａｎｓのメモリーコストの方が大きい。また、計算量に関しても、Ｋｍｅａｎｓと比較した場合、クラスタ数と同数のｌｏｇの計算負荷が追加コストとなるが、ＦＦＴなどの計算負荷と比較すると非常に小さい値である。

このような理由から、包絡形状学習部１１６における包絡形状の推定では、例えばＧＭＭ（ガウス混合モデル）を用いた処理を行う。
包絡形状学習部１１６における包絡形状の推定では、ＧＭＭ（ガウス混合モデル）を用いて、ケプストラムの０次以外の低次の成分の推定を行い、包絡形状を算出する。具体的には、包絡形状情報である［混合数Ｐ］、［混合係数πｐ］、［平均μｐ］、［共分散Σｐ］を算出する。

実際の学習処理では、整形ケプストラム情報Ｃ'ｌｏｗ（ｉ，ｌ）およびＣｈｉｇｈ（ｉ，ｌ）を一つの結合ベクトルＣａｌｌ（ｉ，ｌ）とし、ＥＭアルゴリズムによる対数事後確率最大化によって、Ｐ個のガウス分布のパラメータ、混合係数πｐ、平均μｐ、共分散Σｐを求める。
具体的には、以下に示す（式７）に従って、包絡形状情報である［混合数Ｐ］、［混合係数πｐ］、［平均μｐ］、［共分散Σｐ］を算出する。

・・・・・（式７）

なお、結合ベクトルを作成する際、整形ケプストラム情報Ｃ'ｌｏｗ（ｉ，ｌ）およびＣｈｉｇｈ（ｉ，ｌ）に、それぞれ予め決められた重み係数αｌｏｗ（ｒ）、αｈｉｇｈ（ｒ）を乗じる。例えば、Ｒ＝４とし、重み係数αｌｏｗ（ｒ）、αｈｉｇｈ（ｒ）ともに［０．５，０．７５，１．０，１．２５］とする。なお、重み係数の設定は様々な設定が可能である。

このように、
包絡利得学習部１１５では、
説明変数：低域ケプストラム情報Ｃｌｏｗ（ｉ，ｌ）の０次からＲ次までの成分とそれぞれの２乗値、
被説明変数：高域ケプストラム情報の０次成分Ｃｈｉｇｈ（０，ｉ）を用い、
説明変数の線形結合による推定値（切片項も含む）と、目標値である被説明変数との間の二乗和誤差関数Ｅ（Ａ）を前記の（式６）に従って算出し、この二乗和誤差関数Ｅ（Ａ）を最小にするような線形結合係数Ａを［包絡利得推定情報Ａ］として求める。

また、包絡形状学習部１１６では、上述したように例えばＧＭＭ（ガウス混合モデル）を用いて、ケプストラムの０次以外の低次の成分の推定を行い、包絡形状を算出する。具体的には、包絡形状情報である［混合数Ｐ］、［混合係数πｐ］、［平均μｐ］、［共分散Σｐ］を算出する。

図１に示すように、包絡利得学習部１１５の算出した［包絡利得推定情報Ａ］は、解析処理部１２０の高域包絡利得推定部１２４に提供される。
また、包絡形状学習部１１６の算出した包絡形状情報である［混合数Ｐ］、［混合係数πｐ］、［平均μｐ］、［共分散Σｐ］は、解析処理部１２０の高域包絡形状推定部１２５へ提供される。

（２．６．高域包絡形状推定部について）
次に、図１に示す解析処理部１２０内に設けられた高域包絡形状推定部１２５の処理について説明する。
解析処理部１２０内の高域包絡形状推定部１２５は、解析処理部１２０内の包絡情報整形部１２３から入力音声信号８１に基づいて生成された整形低域ケプストラム情報Ｃ'ｌｏｗ（ｉ，ｌ）を入力する。
さらに、学習処理部１１０の包絡形状学習部１１６から、学習用音声信号５１に基づく解析結果として得られた包絡形状情報である［混合数Ｐ］、［混合係数πｐ］、［平均μｐ］、［共分散Σｐ］を入力する。

高域包絡形状推定部１２５は、入力音声信号８１に基づいて生成された整形低域ケプストラム情報Ｃ'ｌｏｗ（ｉ，ｌ）に対して、学習用音声信号５１に基づく包絡形状情報を利用した処理を実行することにより、入力音声信号８１に対応する高域包絡形状情報Ｃ＾ｈｉｇｈ（ｉ，ｌ）の推定を行う。
ただし、ｉ＝１，…，Ｒである。

図８、図９を参照して、高域包絡形状推定部１２５の実行する高域包絡形状情報の推定処理について説明する。なお、先に説明したように、図７〜図９は、ＫｍｅａｎｓとＧＭＭによるモデル化の比較を示す図であり、図７〜図９に示すモデルは、多次元特徴量空間を２次元に簡略化して示している。

図８、図９は、ＫｍｅａｎｓとＧＭＭの二つの異なる手法を用いた場合、低域包絡形状（写像元）から高域包絡形状（写像先）への線形変換の様子が、どのように異なるかを描いた図である。

Ｋｍｅａｎｓの場合、写像元がどのクラスタに属するかを、クラスタ重心までの距離を計算した後、属するクラスタの回帰直線を写像関数として、低域包絡形状から高域包絡形状への線形変換を行う。クラスタ重心と回帰係数は学習部において事前に決定されているものとする。
図８には、
（ａ）Ｋｍｅａｎｓ＋線形回帰を利用した線形変換処理
（ｂ）ＧＭＭの事後確率を利用した場合の線形変換処理
これらの処理例を説明する図である。

図８（ａ）に示すＫｍｅａｎｓ＋線形回帰を利用した線形変換処理例においては、二次元特徴量空間の分布に二つのクラスタ（クラスタ１、クラスタ２）が当てはめられている。学習処理時は写像元と写像先のデータが存在するため、双方のデータを用いてクラスタリングによる学習を行うが、帯域拡大処理時には写像先の情報は不明であり、写像元の低域包絡情報のみを保持しているため、写像元のデータのみを用いてクラスタ重心への距離計算を行い、クラスタリングを行う。

図８（ａ）に示す例において、クラスタ重心までの距離がクラスタ１の方が小さい場合には回帰直線１を、クラスタ２の方が小さい場合には回帰直線２を使用して線形変換を行い写像先の結果を求める。仮にクラスタ境界にデータが存在する場合、写像関数が、回帰直線１から回帰直線２へ切り替わるため、得られる結果が不安定であり、時間方向の不連続が起きやすい。

図８（ｂ）に示すＧＭＭの事後確率を利用した場合の線形変換処理例においては、基本的にはＫｍｅａｎｓと同様、距離を測り属するクラスタを求めるが、Ｋｍｅａｎｓと異なる点として、データが各クラスタにどの程度存在する可能性があるかを確率として計算することが可能であるという特徴がある。

図８（ｂ）に示す例では、クラスタ１に近いほど、クラスタ１に属する確率は高く、クラスタ２に属する確率は低くなる。クラスタ２に近い場合は逆の結果となる。この特徴を利用して、各クラスタにおけるデータの存在確率（一般的にはクラスの事後確率と呼ばれる）を用いて、各々のクラスタの回帰直線を混合することにより滑らかな混合曲線を作ることができ、連続的な写像を実現できる。図８の（ｂ）では二つのクラスタの各々の存在確率を使用し、回帰直線を混合して混合曲線を描いたものである。写像元のデータはこの連続的な混合曲線によって写像される。

図９は、図８と同様、
（ａ）Ｋｍｅａｎｓ＋線形回帰を利用した線形変換処理
（ｂ）ＧＭＭの事後確率を利用した場合の線形変換処理
これらの処理例を説明する図である。
図９は、（ａ）Ｋｍｅａｎｓと（ｂ）ＧＭＭをそれぞれ使用した場合、写像元のデータがクラスタ境界を越えて変化すると、写像先のデータがどのように変化するかを説明する図である。
写像元のデータの値がａからａ＋δへと極小さな変化をした場合の例について示している。

（ａ）Ｋｍｅａｎｓ＋線形回帰を利用した線形変換処理
この処理を行った場合は、図９（ａ）に示すように、クラスタが１から２へと変化するため、線形変換に使用される回帰係数が大きく変化し、写像先において大きな値の変化をする。
一方、
（ｂ）ＧＭＭの事後確率を利用した場合の線形変換処理
この処理を行った場合は、図９（ｂ）に示すように、クラスタ１からクラスタ２へと変化するが、与えられる写像関数は、存在確率によって混合され連続的な混合曲線であるため、写像先においても小さな値の変化しか起こらない。
この現象は、推定結果の時間方向の滑らかさ、という形で知覚される。

このように、ＧＭＭを使用した手法においては、フレーム間にて滑らかな推定を行うことが可能であり、自然界に存在する音響信号の時間変動に比較的近い結果となる。仮にクラスタ間の距離が大きい場合、Ｋｍｅａｎｓによる手法では音質的不連続を招くが、ＧＭＭによる手法では連続的である。また、多くのクラスタを配置しなくても、クラスタの間を補間する効果も期待できるため、Ｋｍｅａｎｓと比較して少ないクラスタ数で実現でき、コストパフォーマンスの面で優れていると言える。

このように、図１に示す解析処理部１２０内に設けられた高域包絡形状推定部１２５は、解析処理部１２０内の包絡情報整形部１２３から入力音声信号８１に基づいて生成された整形低域ケプストラム情報Ｃ'ｌｏｗ（ｉ，ｌ）を入力し、学習処理部１１０の包絡形状学習部１１６から入力する学習用音声信号５１に基づく解析結果として得られた包絡形状情報を利用して、ＧＭＭ手法を適用して、以下に示す（式８）に従って、入力音声信号８１に対応する高域包絡形状情報Ｃ＾ｈｉｇｈ（ｉ，ｌ）の推定を行う。

具体的には、ＧＭＭ手法を適用した以下に示す（式８）に従って、学習処理部１１０の包絡形状学習部１１６から入力する包絡形状情報である［混合数Ｐ］、［混合係数πｐ］、［平均μｐ］、［共分散Σｐ］を適用して、入力音声信号８１に対応する高域包絡形状情報Ｃ＾ｈｉｇｈ（ｉ，ｌ）を算出する。

・・・・・（式８）

このように、高域包絡形状推定部１２５は、入力音声信号８１に基づいて生成された整形低域ケプストラム情報Ｃ'ｌｏｗ（ｉ，ｌ）に学習時と同じ重み係数αｌｏｗ（ｒ）を乗じたのち、学習用音声信号５１に基づく包絡形状情報を利用した処理により、入力音声信号８１に対応する高域包絡形状情報Ｃ＾ｈｉｇｈ（ｉ，ｌ）の推定を行う。
ただし、ｉ＝１，…，Ｒである。
高域包絡形状推定部１２５は、上記（式８）に従って算出した推定高域ケプストラムＣ^ｈｉｇｈ（ｉ，ｌ）を高域包絡補正部１２７へ供給する。

（２．７．高域包絡利得推定部について）
次に、図１に示す解析処理部１２０内に設けられた高域包絡利得推定部１２４の処理について説明する。
解析処理部１２０内の高域包絡利得推定部１２４は、解析処理部１２０内の低域包絡算出部１２２から入力音声信号８１に基づいて生成された低域ケプストラム情報Ｃｌｏｗ（ｉ，ｌ）を入力する。
さらに、学習処理部１１０の包絡利得学習部１１５から、学習用音声信号５１に基づく解析結果として得られた包絡利得情報である［回帰係数Ａ］を入力する。

高域包絡利得推定部１２４は、入力音声信号８１に基づいて生成された低域ケプストラム情報Ｃｌｏｗ（ｉ，ｌ）に対して、学習用音声信号５１に基づく包絡利得情報である［回帰係数Ａ］を利用した処理を実行することにより、入力音声信号８１に対応する高域包絡利得の推定を行う。

具体的には、回帰モデルによって高域包絡利得の推定を行い、以下に示す（式９）に従って、高域ケプストラムの０次成分Ｃ^{^}ｈｉｇｈ（０，ｌ）を推定する。ただし、ｉ＝０，…，Ｒである。

・・・・・（式９）

なお、高域ケプストラムの０次成分Ｃ^{^}ｈｉｇｈ（０，ｌ）は、高域包絡利得情報を表している。例えば、Ｒ＝４とし、２乗項を含めた非線形回帰を行う。ただし高域包絡利得の推定処理としては、上記式に従った処理の他、ニューラルネットワークやカーネル回帰などのその他の回帰手法を用いてもよい。

高域包絡利得推定部１２４が上記（式９）に従って算出した高域包絡利得情報Ｃ^ｈｉｇｈ（０，ｌ）は、高域包絡補正部１２７に供給される。

（２．８．中域包絡補正部について）
次に、図１に示す解析処理部１２０内に設けられた中域包絡補正部１２６の処理について説明する。
解析処理部１２０内の中域包絡補正部１２６は、解析処理部１２０内の周波数分析部１２１から入力音声信号８１に基づいて生成された時間周波数スペクトルＸａｎａ（ｋ，ｌ）を入力する。
さらに、解析処理部１２０内の低域包絡算出部１２２から、入力音声信号８１に基づいて生成された低域ケプストラムＣｌｏｗ（ｉ，ｌ）を入力する。

中域包絡補正部１２６は、周波数分析部１２１から入力音声信号８１に基づいて生成された時間周波数スペクトルＸａｎａ（ｋ，ｌ）の中域の周波数帯域部分、例えばｆｓ１／４以上ｆｓ１／２以下のスペクトルに相当する部分と、低域包絡算出部１２２より供給された低域ケプストラムＣｌｏｗ（ｉ，ｌ）を用いて、周波数軸上で平坦化されたスペクトル信号を生成する。

まず、低域ケプストラムＣｌｏｗ（ｉ，ｌ）のうち、ケプストラムの低次数以外の係数を０にした後、パワースペクトル領域へ戻し、以下の（式１０）に従って、リフタ―低域スペクトルＸ_{ｌｉｆｔ＿ｌ}（ｋ，ｌ）を得る。

・・・・・（式１０）

次に、中域包絡補正部１２６は、上記（式１０）に従って得られたリフタ―低域スペクトルＸ_{ｌｉｆｔ＿ｌ}（ｋ）の、中域部分（ｆｓ１／４以上ｆｓ１／２以下）のスペクトルに相当する部分（この場合、ｋ＝Ｍ／４，…，Ｍ／２）を用いて、時間周波数スペクトルＸａｎａ（ｋ，ｌ）の同じ周波数部分を割り、平坦化を行った後、周波数ｆｓ１／４を中心にして、低域側にミラーリングを行い、中域スペクトルＸｗｈｉｔｅ（ｋ，ｌ）を得る。
中域スペクトルＸｗｈｉｔｅ（ｋ，ｌ）は、以下に示す（式１１）に従って算出する。

・・・・・（式１１）

中域包絡補正部１２６が、上記の（式１０）、（式１１）に従って算出した中域スペクトルＸｗｈｉｔｅ（ｋ，ｌ）は、高域包絡補正部１２７へ供給される。

（２．９．高域包絡補正部について）
次に、図１に示す解析処理部１２０内に設けられた高域包絡補正部１２７の処理について説明する。
解析処理部１２０内の高域包絡補正部１２７は、解析処理部１２０内の中域包絡補正部１２６から入力音声信号８１に基づいて生成された中域スペクトルＸｗｈｉｔｅ（ｋ，ｌ）を入力する。
さらに、解析処理部１２０内の高域包絡利得推定部１２４から、学習データである包絡利得情報を利用して推定された入力音声信号８１の高域包絡利得情報Ｃｈｉｇｈ（０，ｌ）を入力する。
さらに、解析処理部１２０内の高域包絡形状推定部１２５から、学習データである包絡形状情報を利用して推定された入力音声信号８１の高域包絡形状情報Ｃｈｉｇｈ（ｉ，ｈ）を入力する。

高域包絡補正部１２７は、これらの入力情報に基づいて、入力音声信号８１の高域包絡情報の補正を行う。具体的な処理は以下の通りである。

高域包絡補正部１２７は、中域包絡補正部１２６から入力音声信号８１に基づいて生成された中域スペクトルＸｗｈｉｔｅ（ｋ，ｌ）入力し、この中域スペクトルＸｗｈｉｔｅ（ｋ，ｌ）に対して、高域包絡利得推定部１２４の生成した高域包絡利得情報Ｃｈｉｇｈ（０，ｌ）と、高域包絡形状推定部１２５の生成した高域包絡利得情報Ｃｈｉｇｈ（ｉ，ｌ）（ただし、ｉ＝１，…，Ｒ）を用いて、包絡を補正する。

まず、高域包絡利得推定部１２４の生成した高域包絡利得情報Ｃｈｉｇｈ（０，ｌ）と高域包絡形状推定部１２５の生成した高域包絡利得情報Ｃｈｉｇｈ（ｉ，ｌ）をパワースペクトルによる包絡情報へ戻し、以下の（式１２）に従って、リフター高域スペクトルＸ_{ｌｉｆｔ＿ｈ}（ｋ，ｌ）を得る。

・・・・・（式１２）

高域包絡補正部１２７は、上記（式１２）に従って得られたリフター高域スペクトルＸ_{ｌｉｆｔ＿ｈ}（ｋ，ｌ）を適用して、以下に示す（式１３）に従って、中域スペクトルＸｗｈｉｔｅ（ｋ，ｌ）を補正し、補正済み中域スペクトルＸ'ｗｈｉｔｅ（ｋ，ｌ）を得る。

・・・・・（式１３）

さらに、高域包絡補正部１２７は、上記（式１２）に従って補正されたスペクトルＸ'ｗｈｉｔｅ（ｋ，ｌ）を周波数ｆｓ１／２（この場合、ｋ＝Ｍ／２）を中心にして反転させ、元々スペクトルが存在していた低域スペクトルには０を挿入し、以下の（式１４）に示す高域スペクトルＸｈｉｇｈ（ｋ，ｌ）を得る。

・・・・・（式１４）

この結果、周波数ｆｓ２（この場合、ＦＦＴポイント数は２Ｍ）の高域スペクトルＸｈｉｇｈ（ｋ，ｌ）信号が生成される。
高域包絡補正部１２７の生成した高域スペクトルＸｈｉｇｈ（ｋ，ｌ）は、周波数合成部１２８へ供給される。

（２．１０．周波数合成部について）
次に、図１に示す解析処理部１２０内に設けられた周波数合成部１２８の処理について説明する。
周波数合成部１２８は、解析処理部１２０内の高域包絡補正部１２７から高域スペクトルＸｈｉｇｈ（ｋ，ｌ）を入力する。
さらに、周波数分析部１２１から、入力音声信号８１に基づいて生成された周波数スペクトルＸａｎａ（ｋ，ｌ）を入力する。

周波数合成部１２８は、解析処理部１２０内の高域包絡補正部１２７から高域スペクトルＸｈｉｇｈ（ｋ，ｌ）と、周波数分析部１２１より供給された０以上ｆｓ１／２以下に相当する周波数スペクトルＸａｎａ（ｋ，ｌ）（この場合、ｋ＝０，…，Ｍ／２）の部分を用いて、以下の（式１５）に従って、合成スペクトルＸｓｙｎ（ｋ，ｌ）を求める。

・・・・・（式１５）

周波数合成部１２８は、上記（式１５）に従って算出した合成スペクトルＸｓｙｎ（ｋ，ｌ）に逆周波数変換を行い、時間領域の合成信号ｘｓｙｎ（ｎ，ｌ）を得る。
以下に示す（式１６）に従って、時間領域の合成信号ｘｓｙｎ（ｎ，ｌ）を得る。

・・・・・（式１６）

なお、本実施例においては、逆周波数変換にＩＤＦＴ（逆離散フーリエ変換）を用いているが、周波数分析部で使用した変換の逆変換に相当するものを用いればよい。ただし、フレームの大きさＮは拡張された周波数ｆｓ２における０．０２ｓｅｃ相当のサンプル数（Ｎ＝サンプリング周波数ｆｓ２＊０．０２）であり、ＤＦＴポイント数ＭはＮ以上の２のべき乗の値であるため、上述に用いていたＮ、Ｍとはサイズが異なることに注意が必要である。

周波数合成部１２８は、上記（式１６）に従って算出した合成信号ｘｓｙｎ（ｎ，ｌ）に窓関数ｗ_ｓｙｎ（ｎ）を掛け、オーバーラップ加算を行うことで、フレーム合成を行い、出力信号ｙ（ｎ）を生成する。。

具体的な出力信号ｙ（ｎ）の算出式と、窓関数w_ｓｙｎ（ｎ）を以下の（式１７）に示す。

・・・・・（式１７）

なお、上記処理では、窓関数にハニング窓の平方根を用いて５０％のオーバーラップ加算を行っているが、サイン窓などのその他の窓や、５０％以外のオーバーラップ比率であっても構わない。
周波数合成部１２８が上記（式１７）に従って算出した信号ｙ（ｎ）が、図１に示す音声信号処理装置１００の出力音声信号８２として出力される。
この出力音声信号８２はサンプリング周波数（ｆｓ２）となり、入力音声信号のサンプリング周波数（ｆｓ１）の２倍のサンナプリング周波数を持つ周波数帯域の拡大された音声信号となる。

なお、上記の実施例では、図１に示す音声信号処理装置１００として、学習処理部１１０と、解析処理部１２０の２つの処理部を有する構成例として説明したが、学習処理部１１０の学習結果として得られる学習データを予め記憶部に格納する構成としてもよい。すなわち、記憶部に格納された学習データを解析処理部１２０が必要に応じて取得して入力信号に対する処理を行う構成としてもよい。この構成の場合は、学習処理部を省略した解析処理部と学習結果としての学習データを格納した記憶部によって音声信号処理装置を構成することか可能である。

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本発明の一実施例の構成によれば、音声信号に対する高精度なの周波数帯域拡大処理を実行する装置、方法が実現される。
例えば、本発明の一実施例の構成においては、入力音声信号の周波数分析結果に基づいて、低周波数帯域の包絡情報である低域包絡情報を算出する。さらに、学習用音声信号に基づく学習データ、例えば低域包絡情報から高周波数帯域の包絡情報である高域包絡情報を算出する学習データを適用して、入力音声信号対応の低域包絡情報から入力信号対応の高域包絡情報を推定して生成する。さらに、推定処理により生成した入力信号対応の高域包絡情報に対応する高周波数帯域信号を入力音声信号に合成して周波数帯域を拡大した出力音声信号を生成する。高域の包絡利得と包絡形状を、学習データを用いて推定することで高精度な帯域拡大が実現される。

５１学習用音声信号
８１入力音声信号
８２出力音声信号
１００音声信号処理装置
１１０学習処理部
１１１周波数分析部
１１２低域包絡算出部
１１３高域包絡算出部
１１４包絡情報整形部
１１５包絡利得学習部
１１６包絡形状学習部
１２０解析処理部
１２１周波数分析部
１２２低域包絡算出部
１２３包絡情報整形部
１２４高域包絡利得推定部
１２５高域包絡形状推定部
１２６中域包絡補正部
１２７高域包絡補正部
１２８周波数合成部

Claims

入力音声信号の周波数分析を実行する周波数分析部と、
前記周波数分析部の周波数分析結果に基づいて、低周波数帯域の包絡情報である低域包絡情報を算出する低域包絡算出部と、
学習用音声信号に基づいて予め生成した学習データであり、低域包絡情報から高周波数帯域の包絡情報である高域包絡情報を算出するための学習データを適用して、前記入力音声信号対応の低域包絡情報から、入力信号対応の推定高域包絡情報を生成する高域包絡情報推定部と、
前記入力音声信号に、前記高域包絡情報推定部の生成した推定高域包絡情報に対応する高周波数帯域信号を合成して周波数帯域を拡大した出力音声信号を生成する周波数合成部を有する音声信号処理装置。
前記学習データは、
低域の包絡利得情報からの高域の包絡利得情報を推定するための包絡利得情報と、
低域の包絡形状情報からの高域の包絡形状情報を推定するための包絡形状情報を含み、
前記高域包絡情報推定部は、
前記学習データに含まれる包絡利得情報を適用して、前記入力音声信号対応の低域包絡利得情報から、入力信号対応の推定高域包絡利得情報を推定する高域包絡利得推定部と、
前記学習データに含まれる包絡形状情報を適用して、前記入力音声信号対応の低域包絡形状情報から、入力信号対応の推定高域包絡形状情報を推定する高域包絡形状推定部を有する請求項１に記載の音声信号処理装置。
前記高域包絡形状推定部は、
前記低域包絡算出部の算出した入力音声信号の低域包絡情報に対するフィルタリング処理により生成した整形低域包絡情報を入力して入力信号対応の推定高域包絡形状情報を推定する請求項２に記載の音声信号処理装置。
前記周波数分析部は、
前記入力音声信号の時間周波数分析を行い、時間周波数スペクトルを生成する請求項１に記載の音声信号処理装置。
前記低域包絡算出部は、
前記周波数分析部の生成する入力音声信号の時間周波数スペクトルを入力し、低域ケプストラムを生成する請求項１に記載の音声信号処理装置。
前記高域包絡情報推定部は、
前記学習データに含まれる包絡利得情報を適用して、前記入力音声信号対応の低域包絡利得情報から、入力信号対応の推定高域包絡利得情報を推定する高域包絡利得推定部を有し、
前記高域包絡利得推定部は、入力音声信号に基づいて生成された低域ケプストラム情報に対して、前記学習データに含まれる包絡利得情報を適用して、前記入力音声信号対応の低域包絡利得情報から、入力信号対応の推定高域包絡利得情報を推定する請求項１に記載の音声信号処理装置。
前記高域包絡情報推定部は、
前記学習データに含まれる包絡形状情報を適用して、前記入力音声信号対応の低域包絡形状情報から、入力信号対応の推定高域包絡形状情報を推定する高域包絡形状推定部を有し、
前記高域包絡形状推定部は、入力音声信号に基づいて生成された整形低域ケプストラム情報に基づいて、前記学習データに含まれる包絡形状情報を利用した処理により、入力音声信号に対応する高域包絡形状情報の推定を行う請求項１に記載の音声信号処理装置。
前記高域包絡形状推定部は、ＧＭＭ（ガウス混合モデル）を用いた推定処理により、入力音声信号に対応する高域包絡形状情報の推定を行う請求項７に記載の音声信号処理装置。
前記音声信号処理装置は、
前記入力音声信号に含まれない高周波数帯域の周波数を含む学習用音声信号に基づいて前記学習データを生成する学習処理部を有し、
前記高域包絡情報推定部は、
前記学習処理部の生成した学習データを適用して、前記入力音声信号対応の低域包絡情報から、入力信号対応の推定高域包絡情報を生成する請求項１に記載の音声信号処理装置。
第一の信号から第一の包絡情報を算出する機能と、
収音または伝送機能の少なくともいずれかを含む環境要因を排除する目的で第一の包絡情報の時間方向のＤＣ成分をフィルタによって除去する機能と、
フィルタ後の第一の包絡情報を線形変換した第二の包絡情報を第二の信号の包絡情報とし、第一の信号と合成する機能を備える音声信号処理装置。
低域の信号から低域の包絡情報を算出する機能と、
低域の包絡情報が、予め大量データの学習により分類されている複数のグループに属する確率を算出する機能と、
低域の包絡情報を、複数のグループにそれぞれ割り当てられている線形変換式によって線形変換を行い複数の高域包絡情報を生成する機能と、
時間軸において滑らかな高域包絡情報を生成する目的で複数の高域包絡情報を複数のグループに属する確率で混合することによって得られた高域の包絡情報を高域の信号の包絡情報とし、低域の信号と合成する機能を備える音声信号処理装置。
音声信号処理装置において入力音声信号に対する周波数帯域拡大処理を実行する音声信号処理方法であり、
周波数分析部が、入力音声信号の周波数分析を実行する周波数分析ステップと、
低域包絡算出部が、前記周波数分析ステップにおける周波数分析結果に基づいて、低周波数帯域の包絡情報である低域包絡情報を算出する低域包絡算出ステップと、
高域包絡情報推定部が、学習用音声信号に基づいて予め生成した学習データであり、低域包絡情報から高周波数帯域の包絡情報である高域包絡情報を算出するための学習データを適用して、前記入力音声信号対応の低域包絡情報から、入力信号対応の推定高域包絡情報を生成する高域包絡情報推定ステップと、
周波数合成部が、前記入力音声信号に、前記高域包絡情報推定部の生成した推定高域包絡情報に対応する高周波数帯域信号を合成して周波数帯域を拡大した出力音声信号を生成する周波数合成ステップを実行する音声信号処理方法。
音声信号処理装置において入力音声信号に対する処理を実行する音声信号処理方法であり、
第一の信号から第一の包絡情報を算出し、
収音または伝送機能の少なくともいずれかを含む環境要因を排除する目的で第一の包絡情報の時間方向のＤＣ成分をフィルタによって除去し、
フィルタ後の第一の包絡情報を線形変換した第二の包絡情報を第二の信号の包絡情報とし、第一の信号と合成する音声信号処理方法。
音声信号処理装置において入力音声信号に対する処理を実行する音声信号処理方法であり、
低域の信号から低域の包絡情報を算出し、
低域の包絡情報が、予め大量データの学習により分類されている複数のグループに属する確率を算出し、
低域の包絡情報を、複数のグループにそれぞれ割り当てられている線形変換式によって線形変換を行い複数の高域包絡情報を生成し、
時間軸において滑らかな高域包絡情報を生成する目的で複数の高域包絡情報を複数のグループに属する確率で混合することによって得られた高域の包絡情報を高域の信号の包絡情報とし、低域の信号と合成する音声信号処理方法。
音声信号処理装置において入力音声信号に対する周波数帯域拡大処理を実行させるプログラムであり、
周波数分析部に、入力音声信号の周波数分析を実行させる周波数分析ステップと、
低域包絡算出部に、前記周波数分析ステップにおける周波数分析結果に基づいて、低周波数帯域の包絡情報である低域包絡情報を算出させる低域包絡算出ステップと、
高域包絡情報推定部に、学習用音声信号に基づいて予め生成した学習データであり、低域包絡情報から高周波数帯域の包絡情報である高域包絡情報を算出するための学習データを適用して、前記入力音声信号対応の低域包絡情報から、入力信号対応の推定高域包絡情報を生成させる高域包絡情報推定ステップと、
周波数合成部に、前記入力音声信号に、前記高域包絡情報推定部の生成した推定高域包絡情報に対応する高周波数帯域信号を合成して周波数帯域を拡大した出力音声信号を生成させる周波数合成ステップを、
実行させるプログラム。