JP6089789B2 - 音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラム - Google Patents

音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラム Download PDF

Info

Publication number
JP6089789B2
JP6089789B2 JP2013039607A JP2013039607A JP6089789B2 JP 6089789 B2 JP6089789 B2 JP 6089789B2 JP 2013039607 A JP2013039607 A JP 2013039607A JP 2013039607 A JP2013039607 A JP 2013039607A JP 6089789 B2 JP6089789 B2 JP 6089789B2
Authority
JP
Japan
Prior art keywords
unvoiced
unvoiced sound
sound
extended
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013039607A
Other languages
English (en)
Other versions
JP2014167558A (ja
Inventor
大 藤枝
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2013039607A priority Critical patent/JP6089789B2/ja
Publication of JP2014167558A publication Critical patent/JP2014167558A/ja
Application granted granted Critical
Publication of JP6089789B2 publication Critical patent/JP6089789B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラムに関し、例えば、電話機器(ソフトフォン等を含む)に適用し得るものである。
レガシーな電話機器で伝送できる音声信号の周波数帯域は、約300Hzから3.4kHzである。このような電話帯域に帯域制限された狭帯域音声信号の音声は、本来の音声よりもこもった音質になるため、言葉が聞き取り難くなるといった問題が生じる。
この問題を解決するために、3.4kHz以上の拡張信号を追加して広帯域音声信号へと拡張することで、音声の明瞭性を向上させる帯域拡張技術が開発されており、例えば、電話機器が出力する音声信号の音質の向上を図っている。
従来の音声帯域拡張装置として、例えば、特許文献1に示されるものがある。図10は、特許文献1に記載の従来の音声帯域拡張装置の全体構成を示している。図10において、従来の音声帯域拡張装置100は、LPC(Linear Predictive coding)分析部101、包絡拡張部102、音源信号拡張部103、LPC合成部104、フィルタ部105、サンプリング変換部106及び加算部107を有する。
入力された狭帯域音声信号Sは、LPC分析部101とサンプリング変換部106に与えられる。LPC分析部101は、狭帯域音声信号Sに対して線形予測分析を行うことでスペクトル包絡情報SEと残差信号SRを抽出し、スペクトル包絡情報SEを包絡拡張部102に与え、残差信号SRを音源信号拡張部103に与える。包絡拡張部102は、スペクトル包絡情報SEを所望の周波数帯域に線形写像関数により帯域を拡張し、得られた拡張スペクトル包絡情報XEをLPC合成部104に与える。音源信号拡張部103は、残差信号SRを非線形処理により所望の周波数帯域の特性を有する信号へ変換し、得られた拡張残差信号XRをLPC合成部104に与える。LPC合成部104は、拡張スペクトル包絡情報XEと拡張残差信号XRを用いて音声をLPC合成し、得られた拡張音声信号XH0をフィルタ部105に与れる。フィルタ部105は、拡張音声信号XH0から、狭帯域音声信号Sに付加すべき周波数帯域成分を濾波し、得られた拡張信号XHを加算部107に与える。サンプリング変換部106は、狭帯域音声信号Sを、周波数特性を保持しながら狭帯域音声信号Sよりも高いサンプリング周波数の信号に変換し、得られたベースバンド音声XLを加算部107に与える。加算部107は、ベースバンド信号XLと拡張信号XHを加算し、擬似広帯域音声信号Xを得る。
特許文献1によれば、線形写像関数によりスペクトル包絡情報を帯域拡張しているので、少ない計算量で正確なスペクトル包絡情報を得ることができ、非線形処理により残差信号の帯域拡張をしているので、音声の調波構造を保持したまま広帯域化が可能となり、より自然な擬似広帯域音声信号を得ることが可能となるとしている。
特開平7−52558号公報
しかし、特許文献1に記載の方法では、スペクトル包絡情報の推定及び拡張を、LPC分析及びLPC合成によって行っているので、拡張された無声音のスペクトル包絡が不正確になるという課題があった。
この課題について詳しく説明する。LPC分析によって音声からスペクトル包絡情報と音源情報(残差信号)を抽出することは、音声が自己回帰モデル(ARモデル)で生成されることを仮定している。すなわち、音響管(声道)の奥の方(声帯)に音源生成部が存在して、音源生成部が呼気によって駆動されて音源信号を生成し、音源信号が音響管を通ってスペクトル包絡が整形されて口唇から放射される、というモデルである。
従って、有声音においては、鼻腔の影響を除けば、音声の生成過程はARモデルによって近似的に表現することができる。
一方、無声音においては、音源生成部は声帯ではなく、声道の中のいずれかの位置となる。例えば、/s/は舌先を上の歯茎の近くまで運び、舌先と歯茎との間で音源信号を生成する。このとき、声帯は完全に開いた状態となっているため、声帯は音源信号を生成しない。従って、音源信号は口唇の近くで生じ、声道内で響いて口唇から放射される。ところが、ARモデルを仮定しているLPC分析では、音源生成部が音響管の始端(声帯)でなく、音響管(声道)の途中又は終端(口唇)にあるようなシステムを正しく分析することはできない。このため、特許文献1の記載技術のように、LPC分析及びLPC合成によって無声音の分析及び合成を行うと、狭帯域音声における無声音のスペクトル包絡が不正確となり、拡張スペクトル包絡も不正確となるため、結果として、言葉の音質と了解度を改善できないという課題があった。
本発明は、上記課題に鑑みてなされたものであり、無声音区間における擬似広帯域音声信号の言葉の音質と了解度を高めることができる音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラムを提供することを目的としている。
第1の本発明は、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置であって、(1)無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、(2)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(3)上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、(4)推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、(5)得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段とを備えることを特徴とする。
第2の本発明の音声帯域拡張プログラムは、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、(1)無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、(2)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(3)上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、(4)推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、(5)得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段として機能させることを特徴とする。
第3の本発明は、周波数帯域が制限された狭帯域音声信号における無声音を、制限帯域外の拡張帯域の成分を含むように拡張する無声音拡張装置であって、(1)無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、(2)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(3)上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、(4)推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、(5)得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段とを備えることを特徴とする。
第4の本発明の無声音拡張プログラムは、周波数帯域が制限された狭帯域音声信号における無声音を、制限帯域外の拡張帯域の成分を含むように拡張する無声音拡張装置に搭載されたコンピュータを、(1)無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、(2)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(3)上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、(4)推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、(5)得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段として機能させることを特徴とする。
本発明によれば、無声音のスペクトル包絡を精度良く推定、拡張でき、音声の明瞭度や了解度が改善されて、聴覚的にクリアな伸びのある擬似広帯域音声信号を得ることが音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラムを提供できる。
第1の実施形態の音声帯域拡張装置の全体構成を示す機能ブロック図である。 調音方式ごとの時間的特徴と周波数的特徴をまとめた図表である。 破裂音/k/のパワースペクトルの例を示す説明図である。 調音位置が歯茎である摩擦音/s/のパワースペクトルの例を示す説明図である。 調音位置が歯茎と硬口蓋である摩擦音/sh/のパワースペクトルの例を示す説明図である。 第1の実施形態の音声帯域拡張装置における無声音拡張整形部を構成するイコライザフィルタの調音方式ごとのゲインパラメータを示す図表である。 破裂音を含む「か」(/ka/)の音声波形の例を示す説明図である。 破裂音を含む「か」(/ka/)のパワーの時系列データの例を示す説明図である。 第5の実施形態の音声帯域拡張装置の全体構成を示す機能ブロック図である。 特許文献1に記載の従来の音声帯域拡張装置の全体構成を示す機能ブロック図である。
(A)第1の実施形態
以下、本発明による音声帯域拡張装置及びプログラムの第1の実施形態を、図面を参照しながら説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の音声帯域拡張装置の機能的構成を示すブロック図であり、上述した図10との同一、対応部分には同一、対応符号を付して示している。第1の実施形態の音声帯域拡張装置は、その各部をハードウェアによって構成しても良く、また、CPUと、CPUが実行するプログラム(音声帯域拡張プログラム)として構成しても良いが(例えば、図1に示す各ブロックの機能をプログラムのサブルーチンとして構成しても良い)、機能的には、図1で表すことができる。
なお、以下では便宜上、電話帯域は300Hz〜3.4kHzの帯域を指し、拡張帯域は0Hz〜300Hz及び3.4kHzより高い周波数の帯域を指すものとする。
図1において、第1の実施形態の音声帯域拡張装置200は、従来の音声帯域拡張装置100と同様なサンプリング変換部106及び加算部107と、第1の実施形態で特有な有声音拡張部208.無声音音源生成部209、周波数解析部210、無声音調音方式推定部211、無声音拡張包絡推定部212、無声音拡張包絡整形部213及び拡張信号合成部214を有する。
有声音拡張部208は、所定の音声帯域拡張方法を用いて、狭帯域音声信号Sから有声拡張信号XHVを生成し、拡張信号合成部214に与える。
無声音音源生成部209は、所定の方法を用いて、無声拡張信号の音源信号XRUを生成し、無声音音源信号XRUを無声音拡張包絡整形部213に与える。
周波数解析部210は、狭帯域音声信号Sの周波数解析を行ってスペクトルパラメータSFを抽出し、スペクトルパラメータSFを無声音調音方式推定部211に与える。
無声音調音方式推定部211は、スペクトルパラメータSFに基づいて無声音の調音方式を推定し、得られた無声音調音パラメータSAを無声音拡張包絡推定部212に与える。
無声音拡張包絡推定部212は、無声音調音パラメータSAを用いて、無声音の拡張帯域のスペクトル包絡を推定し、得られた拡張スペクトル包絡情報XEUを無声音拡張包絡整形部213に与える。
無声音拡張包絡整形部213は、拡張スペクトル包絡情報XEUに基づいて、無声音音源信号XRUのスペクトル包絡を整形し、得られた無声拡張信号XHUを拡張信号合成部214に与える。
拡張信号合成部214は、有声拡張信号XHVと無声拡張信号XHUとを加算合成し、得られた拡張信号XHを加算部107に与える。
(A−2)第1の実施形態の動作
次に、第1の実施形態の音声帯域拡張装置200の動作を説明する。以下では、従来の音声帯域拡張装置100には存在しない構成要素の動作を中心に説明し、サンプリング変換部106及び加算部107の動作については、その説明を省略する。
有声音拡張部208は、所定の音声帯域拡張方法を用いて、狭帯域音声信号Sから有声拡張信号XHVを生成し、得られた有声拡張信号XHVが拡張信号合成部214に与えられる。
ここで、所定の音声帯域拡張方法には、公知の技術を用いることができる。例えば、上述した図10に示すように、LPC分析部101、包絡拡張部102、音源信号拡張部103及びLPC合成部104によって有声音拡張部208を構成すること(特許文献1参照)で有声拡張信号XHVを生成しても良い。また、有声音拡張部208は、別途設けられた有声音/無声音判定部(図示せず)が、狭帯域音声信号Sに基づいて有声音か無声音かを判定した結果が有声音のときのみ、拡張動作するようにしても良く、有声音/無声音に拘わらずに拡張しても良い(後者の場合、後段の拡張信号合成部214に何らかの工夫が必要となることがある)。また、有声拡張信号XHVが有する帯域は、有声拡張信号XHVが加算部107に入力されるまでに拡張帯域に制限されなければいけないが、この帯域制限を有声音拡張部208の構成にフィルタ部(図10の符号105参照)を含めることによって有声音拡張部208で行うようにしても良い。
無声音音源生成部209は、所定の方法を用いて無声拡張信号の音源信号XRUを生成し、得られた無声音音源信号XRUが無声音拡張包絡整形部213に与えられる。
無声音音源信号XRUの生成方法には、公知の技術を用いることができる。例えば、特許文献1の記載技術のように、LPC分析の残差信号を非線形処理した信号を無声音音源信号XRUとしても良く、また、何らかの雑音を発生させる雑音生成部が出力した雑音を無声音音源信号XRUとしても良い。また、無声音音源生成部209は、別途設けられた有声音/無声音判定部(図示せず)が、狭帯域音声信号Sに基づいて有声音か無声音かを判定した結果が無声音のときのみ、拡張動作するようにしても良く、有声音/無声音に拘わらずに生成しても良い(後者の場合、後段の拡張信号合成部214に何らかの工夫が必要となることがある)。なお、無声音音源信号XRUが有する帯域は、無声音音源信号XRUが加算部107に入力されるまでに拡張帯域に制限されなければいけないが、この帯域制限を無声音音源生成部209で行うようにしても良い。
周波数解析部210は、狭帯域音声信号Sの周波数解析を行って、スペクトルパラメータSFを抽出し、得られたスペクトルパラメータSFが無声音調音方式推定部211に与えられる。
周波数解析の方法には、FFT(高速フーリエ変換)やウェーブレット変換のような基底変換方法を用いても良く、フィルタバンクを用いても良い。また、スペクトルパラメータSFの要素は、少なくとも2帯域以上に分割された帯域の両方のパワーを含むか、又は、少なくとも2帯域以上に分割された帯域の高域側のパワーと狭帯域音声信号Sそのもののパワーを含むことが望ましい。
無声音調音方式推定部211は、スペクトルパラメータSFに基づいて無声音の調音方式を推定し、得られた無声音調音パラメータSAが無声音拡張包絡推定部212に与えられる。
ここでは、調音位置と調音様式の2つをまとめて調音方式と呼んでいる。調音位置とは、各種の子音を発音するために使われる、声帯から口唇までの器官のいずれかの位置を指す。また、調音様式とは、一般に破裂音や摩擦音などと呼ばれる分類のことである。
スペクトルパラメータSFの周波数的な特徴と時間変化を観察することで、調音方式を識別することができる。識別される調音方式の種類は、少なくとも以下の3つとすることが望ましい。
(S1)破裂音(/k/、/t/、/p/など)
(S2)調音位置が歯茎である摩擦音(「さ」、「す」、「せ」、「そ」の/s/)
(S3)調音位置が歯茎と硬口蓋である摩擦音(「し」、「しゃ」などの/sh/)
以上の分類には破擦音が含まれていないが、破擦音は時間的に破裂音から摩擦音へと推移する子音であるので、上の3つが分類できれば自動的に識別できる。
以下、調音方式を推定する方法の具体例を示す。
図2は、調音方式ごとの時間的特徴と周波数的特徴をまとめた図表である。図2は、文献「板橋修一編著、『音声工学』、森北出版株式会社、2005年発行」の第2章の内容に、発明者等が実際の広帯域音声信号を分析して得た知見を統合したものである。
時間的特徴に注目すると、破裂音と摩擦音の間には明確な違いがあることが分かる。すなわち、破裂音の直前には短い無音区間が存在するが、摩擦音の直前には無音区間が存在しない。また、破裂音のパワーは急激に増大するが、摩擦音は、2種類共にそのパワーの変化は緩やかである。従って、無音区間の後に急激にパワーが増大するという時間的特徴を捕らえることで、破裂音か否かを推定することができる。
周波数的特徴に注目すると、2種類の摩擦音の間には明確な違いがあることが分かる。すなわち、電話帯域において、調音位置が歯茎である摩擦音がほぼ平坦であるのに対して、調音位置が歯茎と硬口蓋である摩擦音は高周波に向けて増大傾向であるということである。従って、周波数スペクトルの傾きを捕らえることで、摩擦音の調音位置を推定することができる。
一方、破裂音の周波数的特徴は、後続母音のフォルマント周波数の影響を強く受けるため、周波数的特徴を用いて破裂音を特定することは難しい。また、摩擦音の時間的特徴を捕らえるには、定常又は緩やかに増大していることを検出しなければならず、この検出には数十msの観測を要することから、処理に大きな遅延が生じる。また、摩擦音の調音位置の違いは時間的特徴には反映されない。
周波数特性の実例を図面にて示す。図3は破裂音/k/のパワースペクトルの例である。図4は調音位置が歯茎である摩擦音/s/のパワースペクトルの例である。図5は調音位置が歯茎と硬口蓋である摩擦音/sh/のパワースペクトルの例である。図3の/k/は、後続母音が/a/であるため、/a/のスペクトルからピッチを除いたような形にも見える。これは、調音位置が比較的声帯に近い軟口蓋であり、口の形が/a/と同じになっているためである。
図4の/s/と図5の/sh/は、図2に示した通りの形状となっていることが分かる。
以上より、調音方式の推定には、以下のような手続きを踏むのが望ましい。
手続1:破裂音の時間的特徴を有するか否かを検査する。仮に、その特徴を有するのなら、破裂音であると判定し、そうでなければ手続2へ進む。
手続2:周波数スペクトルの傾きが平坦か増大傾向かを検査する。平坦ならば調音位置は歯茎であると判定し、増大傾向ならば調音位置は歯茎と硬口蓋であると判定する。
次に、調音方式の時間的特徴と周波数的特徴の検出方法を説明する。
破裂音の時間的特徴は、スペクトルパラメータSFに特徴的なフィルタリングを時間方向に施すことで検出することができる。「破裂音の直前には無音区間がある」とは、裏を返せば「破裂音以外の直前には無音区間がない(有音区間である)」ということを意味する。そこで、現在のパワーから過去10ms〜30msのパワーを減じるようなFIR(Finite Impulse Response)フィルタを用意して、このFIRフィルタをスペクトルパラメータSFにかけたものを破裂音時系列パラメータとすると、破裂音時系列パラメータは、破裂音の入力に対して、その他の入力に対するよりも相対的に大きくなる。従って、予め適当な破裂音閾値を定義しておいて、破裂音時系列パラメータが破裂音閾値より大きくなったら、該入力は破裂音であると判定する。
なお、スペクトルパラメータSFは少なくとも2つのパワーを有するベクトルパラメータだが、破裂音時系列パラメータの算出には、スペクトルパラメータSFの要素のうち少なくとも1つ以上を使って算出する。例えば、狭帯域音声信号Sの全帯域のパワーに上述のFIRフィルタをかけることで、破裂音時系列パラメータを算出する。
摩擦音の周波数的特徴は、スペクトルパラメータSFの2つ以上の要素を用いて、周波数スペクトルの傾きに関する特徴を算出し、摩擦音周波数パラメータとする。具体的には、高域側のパワーを低域側のパワーや全体のパワーで除したパワー比や、スペクトル重心などを摩擦音周波数パラメータとすることで、調音位置が歯茎と硬口蓋のときの摩擦音周波数パラメータの方が、調音位置が歯茎のときの摩擦音周波数パラメータより相対的に大きくなる。従って、予め適当な摩擦音閾値を定義しておいて、摩擦音周波数パラメータが閾値未満ならば調音位置は歯茎であると判定し、摩擦音周波数パラメータが閾値以上ならば調音位置は歯茎と硬口蓋であると判定する。
以上では、無声音調音パラメータSAが、調音方式を破裂音、歯茎の摩擦音、歯茎と硬口蓋の摩擦音という3つの状態を示す離散値であるように書いたが、無声音調音パラメータSAを閾値で段階に区分せずに連続値として適用するようにしても良い。例えば、破裂音時系列パラメータは「破裂音らしさ」を表しており、摩擦音周波数パラメータは調音位置そのもの、すなわち「舌先の位置」を表しており、連続値のパラメータを用いることで、あいまいな無声音子音や、過渡状態の無声音子音の状態をも表すことができる。
無声音拡張包絡推定部212は、無声音調音パラメータSAを用いて、無声音の拡張帯域のスペクトル包絡を推定し、得られた拡張スペクトル包絡情報XEUが無声音拡張包絡整形部213に与えられる。無声音拡張包絡推定部212の詳しい動作は後述する。
無声音拡張包絡整形部213は、拡張スペクトル包絡情報XEUに基づいて、無声音音源信号XRUのスペクトル包絡を整形し、得られた無声拡張信号XHUが拡張信号合成部214に与えられる。無声音拡張包絡整形部213の詳しい動作は後述する。なお、無声拡張信号XHUに対する帯域制限を無声音拡張包絡整形部213で行うようにしても良い。
以下、無声音拡張包絡推定部212と無声音拡張包絡整形部213の動作の詳細について説明する。
無声音拡張包絡推定部212からの拡張スペクトル包絡情報XEUがどのようなパラメータで構成されるかは、無声音拡張包絡整形部213がどのようにスペクトル包絡を整形するかによって変わる。スペクトル包絡の整形方式は、無声音調音パラメータSAに基づいた整形を行う処理であれば、どのような方式でも良い。ここでは、3つの具体例を、それぞれ周波数領域方式、合成フィルタ方式、イコライザ方式と称して紹介する。
周波数領域方式では、スペクトル包絡の整形を、周波数領域で、無声音音源信号XRUに対する拡張スペクトル包絡情報XEUの乗算によって行う。この場合、拡張スペクトル包絡情報XEUは、スペクトルゲインによって構成される。例えば、無声音音源信号XRUをFFTによって周波数スペクトルに変換し、該周波数スペクトルにスペクトルゲインである拡張スペクトル包絡情報XEUを乗じ、その後、IFFT(逆高速フーリエ変換)によって、拡張スペクトル包絡情報XEUを乗じられた周波数スペクトルを時間波形へ戻し、この時間波形を無声拡張信号XHUとして出力する。
合成フィルタ方式では、無声音音源信号XRUのスペクトル包絡の整形を、時間領域でフィルタリングによって行う。この場合、拡張スペクトル包絡情報XEUは、フィルタ係数によって構成される。周波数領域方式におけるスペクトルゲインに相当するフィルタ係数を用いて無声音音源信号XRUをフィルタリングし、その出力を無声拡張信号XHUとして出力する。
イコライザ方式では、スペクトル包絡の整形を少なくとも1つ以上のイコライザフィルタによって行う。この場合、拡張スペクトル包絡情報XEUは、イコライザフィルタのパラメータによって構成される。なお、複数のイコライザフィルタを適用する場合には縦続接続する。拡張スペクトル包絡情報XEUは、イコライザの少なくともゲインパラメータを含むことが望ましく、Qパラメータ又は/及び周波数パラメータを含んでいても良い。イコライザによって整形された信号を無声拡張信号XHUとして出力する。
次に、スペクトル包絡をどのように整形するかについて説明する。ここでは図2の電話帯域外(4kHz〜8kHz)の周波数的特徴に注目する。この電話帯域外の周波数的特徴に基づいて、スペクトル包絡を整形するようにすれば、整形後の無声拡張信号XHUは、同様な周波数的特徴を有するものとなって好ましい。以下、イコライザ方式を適用したスペクトル包絡の整形方法の具体例を説明する。
2つのイコライザフィルタを用意し、増幅/減衰帯域の中心周波数を意味する周波数パラメータはそれぞれ4kHzと8kHzに固定する。ここでは、それぞれのイコライザフィルタを4kHzイコライザと8kHzイコライザと称する。Qパラメータ(先鋭度パラメータ)は、中心周波数から4kHz離れた周波数には影響しないが、中心周波数から1kHz〜2kHzほど離れた周波数には十分影響するような、緩いQ特性を持つ値を設定する。そして今、無声音調音パラメータSAが、破裂音、摩擦音(歯茎)、摩擦音(歯茎と硬口蓋)を示す3値で表現されているとした場合、図6に示すように、イコライザのゲインパラメータを設定する。例えば、無声音拡張包絡推定部212は、無声音調音パラメータSAが規定する調音方式が「破裂音」であれば、4kHzイコライザのゲインパラメータを±0dBとすると共に、8kHzイコライザのゲインパラメータを−6dBとする拡張スペクトル包絡情報XEUを無声音拡張包絡整形部213に与える。なお、摩擦音(歯茎と硬口蓋)において、本来4kHz〜8kHzのスペクトル包絡は平坦であるにも関わらず、4kHzイコライザのゲインパラメータを+3dBとしているのは、±0dBとするよりも「し」(/shi/)や「ち」(/chi/)の明瞭度と了解度がより向上したという経験則に基づいている。
拡張信号合成部214は、有声拡張信号XHVと無声拡張信号XHUとを加算合成し、得られた拡張信号XHが加算部107に与えられる。
ここで、有声音拡張部208及び無声音音源生成部209が、有声音/無声音の判別結果に応じて動作し、有声拡張信号XHVと無声拡張信号XHUのパワーが適切に制御されている場合には、拡張信号合成部214は有声拡張信号XHVと無声拡張信号XHUとを単純に加算して拡張信号XHを算出する。
一方、有声拡張信号XHVと無声拡張信号XHUのパワーが適切に制御されていない場合には、拡張信号合成部214において、これを適切に制御しなければならないことがある。例えば、狭帯域音声信号Sに基づいて有声音らしさLV(又は無声音らしさLU)を算出し、有声音らしさLV(又は無声音らしさLU)に基づいて、有声音混合係数CVと無声音混合係数CUを算出し、(1)式に従って拡張信号XHを算出する。有声音らしさLVには、例えば、一次自己相関係数を用いることができる。また、無声音らしさLUに、ゼロ交差比やグラディエントインデックスを用いることができる。グラディエントインデックスについては、例えば、文献「Naofumi Aoki,”A Band Extension Technique for Narrow−Band Telephony Speech Based on Full Wave Rectification”, IEICE Trans. Commun.,Vol.E93−B(3),pp.729−731,2010」に記載されている。有声音混合係数CVと無声音混合係数CUは、有声音らしさLVを一次自己相関係数とした場合、例えば、(2)式、(3)式に従って算出する。
XH=CV・XHV+CU・XHU …(1)
CV=(LV+1)/2 …(2)
CU=1−CV …(3)
拡張信号合成部214から出力された拡張信号XHは、加算部107において、サンプリング変換部106によって狭帯域音声信号Sがアップサンプリングされて得られたベースバンド信号XLと加算され、これにより、擬似広帯域音声信号Xが得られる。
(A−3)第1の実施形態の効果
第1の実施形態によれば、有声音区間の有声拡張信号と無声音区間の無声拡張信号とを合成して拡張信号を生成するにつき、無声音のスペクトル包絡を調音方式に基づいて整形して無声拡張信号を得るようにしたので、音声の明瞭度や了解度が改善されて、聴覚的にクリアな伸びのある擬似広帯域音声信号を得ることができる。
(B)第2の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第2の実施形態を説明する。
第2の実施形態に係る音声帯域拡張装置の全体構成も、第1の実施形態の説明で用いた図1で表すことができる。この第2の実施形態では周波数解析部210において抽出するスペクトルパラメータSFの要素が異なる。
第1の実施形態における周波数解析部210では、狭帯域音声信号Sの全帯域(0Hz〜4kHz)の解析結果によってスペクトルパラメータSFを構成していた。すなわち、第1の実施形態のスペクトルパラメータSFは、有声音において、ピッチ成分のパワーを含んでいることとなる。
しかし、有声音と無声音は、時刻に基づいて完全に切り分けられるものでなく、僅かにオーバーラップすることがある。すなわち、無声音の始端及び終端の少なくとも一方がピッチ成分を含むことがあるために、無声音の調音方式(特に、摩擦音の調音位置)を正しく推定できない場合がある。
そこで、この第2の実施形態では、ピッチ成分を含まないようにスペクトルパラメータSFを構成する。第2の実施形態における周波数解析部210は、狭帯域音声信号Sを少なくとも3つ以上の帯域に分割し、低域側の少なくとも1つ以上の帯域を含まず、高域側の少なくとも2つ以上の帯域を選択して、それぞれのパワーをスペクトルパラメータSFとする。例えば、650Hz〜1750Hz、1750Hz〜2850Hz、2850Hz〜4000Hzの3帯域のパワーをスペクトルパラメータSFとする。この例の場合、0Hz〜650Hzの帯域は、スペクトルパラメータSFに反映されていない。
このようにしても、無声音調音方式推定部211は、スペクトルパラメータSFに基づいて、周波数的特徴や時間的特徴を捉えることができる。例えば、3帯域のパワーの合成パワーを利用して時間的特徴を捉えることができ、また、3帯域のパワーの大小関係に基づいて、平坦か、高周波に向けて増大傾向にあるかを判別することができる。
上述したように複数の帯域分割を行って、低域を含まずに高域側の複数の帯域のパワーをスペクトルパラメータSFとすることにより、無声音調音方式推定部211は、ピッチ成分の有無に関わらず、調音方式を推定することが可能となる。
第2の実施形態によれば、第1の実施形態と同様な効果に加え、以下の効果を奏することができる。
第2の実施形態によれば、有声音とオーバーラップしている無声音においても調音方式を高い精度で推定することができ、その結果、より音声の明瞭度や了解度が改善された擬似広帯域音声信号を得ることができる。
(C)第3の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第3の実施形態を説明する。
第3の実施形態に係る音声帯域拡張装置の全体構成も、第1の実施形態の説明で用いた図1で表すことができる。この第3の実施形態では、無声音調音方式推定部211において使用する破裂音の時間的特徴が異なる。
第1の実施形態における無声音調音方式推定部211では、破裂音を、図2の時間的特徴に基づいて推定していた。すなわち、以下の2つの特徴に注目することで、破裂音を推定していた。
(F1)破裂音の直前には短い無音区間がある
(F2)無音区間の後、パワーが急激に増大する
ここで、改めて破裂音の時間波形を観察すると、さらに特徴があることが分かる。図7は、日本語の「か」(/ka/)の時間波形をプロットしたものである。第1の実施形態において捕らえていた時間的特徴は、図7の無音部、破裂部、母音部であった。しかし、厳密には、図7に示す通り、破裂部の後には気音部と呼ばれる/h/に近い波形が存在する。パワーを時系列で観察すると、無音部では非常に弱く、破裂部で瞬時に増大し、気音部でいったん減衰した後、母音部で緩やかに増大する、といった特徴を捕らえることができる。実際に、図7の音声のパワーを観測すると、図8に示すようになり、気音部でパワーが減衰していることが分かる。
そこで、この第3の実施形態の無声音調音方式推定部211では、急激なパワーの増大に加えて、その直後に起きるごく短期間のパワーの減衰をも捕らえて破裂音を検出する。第1の実施形態においては、現在のパワーから過去10ms〜30msのパワーを減じるようなFIRフィルタを用意し、このFIRフィルタにスペクトルパラメータSFをかけることによって、破裂音時系列パラメータを得ていた。第3の実施形態においては、現在のパワーから過去10ms〜30msと未来0ms〜10msのパワーを減じるようなFIRフィルタを用意して、このFIRフィルタにスペクトルパラメータSFをかけることによって、破裂音時系列パラメータを得る。新しいFIRフィルタは、未来のパワーを用いることから因果性を満たさないが、音声帯域拡張装置のシステム全体を10ms遅延させ、遅延させた分のスペクトルパラメータSFをメモリに保持しておくことで、非因果的なFIRフィルタリングを擬似的に実行することができる。
第3の実施形態によれば、第1の実施形態と同様な効果に加え、以下の効果を奏することができる。
第3の実施形態によれば、破裂音を高い精度で推定することができ、その結果、より音声の明瞭度や了解度が改善された擬似広帯域音声信号を得ることができる。
以上では、第3の実施形態の技術思想を、第1の実施形態に対して適用した場合を説明したが、第3の実施形態の技術思想を、第2の実施形態に対して適用するようにしても良い。
(D)第4の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第4の実施形態を説明する。
第4の実施形態に係る音声帯域拡張装置の全体構成も、第1の実施形態の説明で用いた図1で表すことができる。この第4の実施形態は、第3の実施形態と同様に、無声音調音方式推定部211において使用する破裂音の時間的特徴が第1の実施形態における無声音調音方式推定部211と異なる。
第4の実施形態における無声音調音方式推定部211は、破裂音時系列パラメータを算出するために使用する非因果的なFIRフィルタリングの実現方法が第3の実施形態における無声音調音方式推定部211と異なる。
上述した第3の実施形態における無声音調音方式推定部211では、非因果的なFIRフィルタを用いて、破裂音時系列パラメータを算出している。非因果的FIRフィルタリングを実現するために、第3の実施形態では、システム全体を遅延させていた。しかし、システム全体を遅延させることは、擬似広帯域音声信号の出力を遅延させるため、例えば、VoIP(Voice over IP)などによる音声通話システムでは受け入れがたい実現方法である。
そこで、この第4の実施形態では、フィルタリングに必要な未来のパワーを現在と過去のパワーの時系列から予測することで、システムに新たな遅延を増やさずに非因果的フィルタリングを実現する。
予測したパワーには誤差が含まれるため、無声音調音方式の推定精度への影響が懸念される。この懸念について以下で考察する。
音声は数十ms程度の短い区間ではほぼ定常と見なせる。従って、パワーの観測周期を十分に短くすれば、パワーの変化も定常的になるため、予測誤差を小さく抑えることができる。また、パワーの観測周期を短くすることは、短い期間で変化する破裂音の時間的特徴を捕らえる上でも良い影響をもたらす。一方、パワーの観測周期を短くすることで、狭帯域音声信号Sに含まれる低周波成分の影響を受け易くなり、パワーの時系列が振動し易くなるが、短い期間ではこの振動も定常なので、予測誤差を大きくする要因とはならない。また、パワーの予測には現在より以前の観測値しか用いない、すなわち、過去の予測値は用いないため、時間が経つにつれて予測誤差が蓄積されるという問題も生じない。従って、予測誤差によって無声音調音方式の推定精度が著しく低下することはない。
第4の実施形態によれば、第1の実施形態と同様な効果に加え、以下の効果を奏することができる。
第4の実施形態によっても、破裂音を高い精度で推定することができ、その結果、より音声の明瞭度や了解度が改善された擬似広帯域音声信号を得ることができる。ここで、第4の実施形態によれば、第3の実施形態にあるようなシステム全体の遅延がなく、それでいて破裂音を第3の実施形態と同等の高い精度で推定することができるので、VoIPのような音声通話システムにも適用可能である。
以上では、第4の実施形態の技術思想を、第1の実施形態に対して適用した場合を説明したが、第4の実施形態の技術思想を、第2の実施形態に対して適用するようにしても良い。
(E)第5の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第5の実施形態を、図面を参照しながら説明する。
図9は、第5の実施形態に係る音声帯域拡張装置の全体構成を示すブロック図であり、上述した第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
図9において、第5の実施形態の音声帯域拡張装置300は、図1に示した第1の実施形態に係る音声帯域拡張装置200の構成に加え、平滑化部315を有する。第5の実施形態の音声帯域拡張装置300は、平滑化部315を有する点と、無声音調音パラメータSAが無声音拡張包絡推定部212に加えて平滑化部315にも与えられる点と、無声音拡張包絡整形部213に与えられるパラメータが平滑化拡張スペクトル包絡情報XEUsmである点が、第1の実施形態に係る音声帯域拡張装置200と異なっている。
平滑化部315は、無声音調音パラメータSAに基づいて、拡張スペクトル包絡情報XEUを平滑化し、得られた平滑化拡張スペクトル包絡情報XEUsmが無声音拡張包絡整形部213に与えられる。
無声音に限らず、調音方式は、口全体の変形及び移動、並びに、呼気の変化によって変化する。ほとんどの場合、この変化は瞬時的ではなく、スムーズに行われる。無声音においても摩擦音はスムーズに変化する。すなわち、有声音から摩擦音へと移行するときには、舌は、直前の有声音の調音位置から該当する摩擦音の調音位置へと徐々に移動し、摩擦音から有声音へと移行するときには、舌は、摩擦音の調音位置から直後の有声音の調音位置へと徐々に移動する。一方、破裂音の場合には、直前に必ず無音部が存在し、その間に口腔内で呼気の圧力が高められ、圧縮された呼気を瞬時に開放することで破裂部へと移行するため、破裂音の調音方式は瞬時に変化する。
以上に鑑み、平滑化部315は、無声音調音パラメータSAが摩擦音を示している場合には、平滑化によって得られた平滑化拡張スペクトル包絡情報XEUsmを無声音拡張包絡整形部213に与え、無声音調音パラメータSAが破裂音を示している場合には、無声音拡張包絡推定部212から与えられた拡張スペクトル包絡情報XEUをそのまま(XEUsm=XEU)、無声音拡張包絡整形部213に与える。
平滑化方法としては、(4)式に示すような時定数フィルタを用いることが好ましく、平滑化の度合は、10ms〜50msで収束する程度が良い。しかし、平滑化の方法や度合はこれに限定されるものではない。なお、(4)式中の演算子「←」は、右辺から左辺への代入を意味しており、aは、0以上1未満の範囲の値をとる、平滑化の度合を調整する時定数である。
XEUsm ← a・XEUsm+(1−a)・XEU …(4)
破裂音の場合には、上述したように平滑化されない。但し、無声音拡張包絡整形部213の特性が瞬時に変わることでインパルス的又はステップ的な雑音が発生する場合には、破裂音の拡張スペクトル包終情報XEUを摩擦音と同じように平滑化するのが良く、このときの平滑化の度合いは1ms〜5msで収束する程度とすれば良い。
第5の実施形態によれば、第1の実施形態と同様な効果に加え、以下の効果を奏することができる。
第5の実施形態によれば、無声音の拡張スペクトル包絡が調音方式に基づいて適切に平滑化されるので、より自然性の高い高音質な擬似広帯域音声信号を得ることができる。
以上では、第5の実施形態の技術思想を、第1の実施形態に対して適用した場合を説明したが、第5の実施形態の技術思想を、第2、第3又は第4の実施形態に対して適用するようにしても良い。
(F)他の実施形態
上記各実施形態においては、有声拡張信号XHVと無声拡張信号XHUとを加算合成し、得られた拡張信号XHにベースバンド信号XLを加算合成して擬似広帯域音声信号Xを得る場合を示したが、有声拡張信号XHVと、無声拡張信号XHUと、ベースバンド信号XLの合成順序は、これに限定されるものではない。例えば、有声拡張信号XHVとベースバンド信号XLを加算合成した後に、無声拡張信号XHUを加算合成して、擬似広帯域音声信号Xを得るようにしても良い。
上記各実施形態の音声帯域拡張装置へ入力される狭帯域音声信号Sは、対向する通信装置から送信されてきたものであっても良く、また、記録媒体などから読み出したものであっても良い。また、上記各実施形態の音声帯域拡張装置が得た擬似広帯域音声信号Xは、スピーカなどから発音出力されても良く、他の装置に送信されても良く、また、記録媒体に記録されても良い。
上記各実施形態における無声拡張信号XHUを形成する構成部分を、専用装置や専用プログラム(無声音拡張装置若しくは無声音拡張プログラム)として構築し、市販に供するようにしても良い。
200、300…音声帯域拡張装置、106…サンプリング変換部、107…加算部、208…有声音拡張部、209…無声音音源生成部、210…周波数解析部、211…無声音調音方式推定部、212…無声音拡張包絡推定部、213…無声音拡張包絡整形部、214…拡張信号合成部、315…平滑化部。

Claims (14)

  1. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置であって、
    無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、
    推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、
    得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段と
    を備えることを特徴とする音声帯域拡張装置。
  2. 上記無声音拡張包絡推定手段が、推定された上記無声音調音方式に基づいて、第1義的に定まる当初無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定本体と、当初無声音拡張スペクトル包絡情報を平滑化する平滑化部とを有し、推定された上記無声音調音方式に応じて、無声音拡張スペクトル包絡情報として平滑化された無声音拡張スペクトル包絡情報を出力することを特徴とする請求項1に記載の音声帯域拡張装置。
  3. 上記平滑化部は、推定された上記無声音調音方式に応じて異なる平滑化を実行することを特徴とする請求項2に記載の音声帯域拡張装置。
  4. 上記周波数解析手段は、少なくとも2つ以上の帯域のパワー値を含み、そのうちの少なくとも1つ以上のパワー値が、上記狭帯域音声信号を2つ以上の帯域に分割した帯域信号のいずれかのパワー値である上記スペクトルパラメータを出力することを特徴とする請求項1〜3のいずれかに記載の音声帯域拡張装置。
  5. 上記周波数解析手段は、出力する上記スペクトルパラメータに、ピッチ成分のパワーを有していないパワー値を少なくとも1つ以上含めることを特徴とする請求項1〜4のいずれかに記載の音声帯域拡張装置。
  6. 上記無声音調音方式推定手段は、無声音の調音方式が破裂音であるか、若しくは摩擦音であるかを識別することを特徴とする請求項1〜5のいずれかに記載の音声帯域拡張装置。
  7. 上記無声音調音方式推定手段は、摩擦音を、調音位置が歯茎である摩擦音と、調音位置が歯茎と硬口蓋である摩擦音と区別して識別することを特徴とする請求項6に記載の音声帯域拡張装置。
  8. 上記無声音調音方式推定手段は、上記スペクトルパラメータの少なくとも1つ以上のパワー値の変化が、所定範囲内の時間の無音レベルを得た後、破裂音のときに生じるような傾きで増大するという時間的特徴があったか否かで、上記破裂音であるか否かを推定することを特徴とする請求項6又は7に記載の音声帯域拡張装置。
  9. 上記無声音調音方式推定手段は、上記傾きの増大の直後にパワー値が減衰するという上記時間的特徴があったか否かで、上記破裂音であるか否かを推定することを特徴とする請求項8に記載の音声帯域拡張装置。
  10. 上記無声音調音方式推定手段は、入力された上記スペクトルパラメータから、所定の低域におけるスペクトルの傾きに関する特徴を得、得られた傾きが平坦か否かという上記周波数的特徴があったか否かで、調音位置が歯茎である摩擦音か否かを推定することを特徴とする請求項7に記載の音声帯域拡張装置。
  11. 上記無声音調音方式推定手段は、入力された上記スペクトルパラメータから、所定の低域におけるスペクトルの傾きに関する特徴を得、得られた傾きが高周波に向けて増大しているか否かという上記周波数的特徴があったか否かで、調音位置が歯茎と硬口蓋である摩擦音か否かを推定することを特徴とする請求項7又は10に記載の音声帯域拡張装置。
  12. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、
    無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、
    推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、
    得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段と
    して機能させることを特徴とする音声帯域拡張プログラム。
  13. 周波数帯域が制限された狭帯域音声信号における無声音を、制限帯域外の拡張帯域の成分を含むように拡張する無声音拡張装置であって、
    無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、
    推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、
    得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段と
    を備えることを特徴とする無声音拡張装置。
  14. 周波数帯域が制限された狭帯域音声信号における無声音を、制限帯域外の拡張帯域の成分を含むように拡張する無声音拡張装置に搭載されたコンピュータを、
    無声音に関する拡張信号を形成する元となる無声音音源信号を生成する無声音音源生成手段と、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記周波数解析部が得た上記スペクトルパラメータの時間的特徴及び周波数的特徴の少なくとも一方に基づいて、無声音調音方式の推定情報を得る無声音調音方式推定手段と、
    推定された上記無声音調音方式に基づいて、無声音に関する拡張信号に適用するスペクトル包絡情報である無声音拡張スペクトル包絡情報を得る無声音拡張包絡推定手段と、
    得られた上記無声音拡張スペクトル包絡情報に基づいて、上記無声音音源信号のスペクトル包絡を整形して無声音に関する拡張信号を得る無声音拡張包絡整形手段と
    して機能させることを特徴とする無声音拡張プログラム。
JP2013039607A 2013-02-28 2013-02-28 音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラム Active JP6089789B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013039607A JP6089789B2 (ja) 2013-02-28 2013-02-28 音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013039607A JP6089789B2 (ja) 2013-02-28 2013-02-28 音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2014167558A JP2014167558A (ja) 2014-09-11
JP6089789B2 true JP6089789B2 (ja) 2017-03-08

Family

ID=51617278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013039607A Active JP6089789B2 (ja) 2013-02-28 2013-02-28 音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6089789B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2956548B2 (ja) * 1995-10-05 1999-10-04 松下電器産業株式会社 音声帯域拡大装置
JPH10124089A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法

Also Published As

Publication number Publication date
JP2014167558A (ja) 2014-09-11

Similar Documents

Publication Publication Date Title
US6889182B2 (en) Speech bandwidth extension
KR101214684B1 (ko) 대역폭 확장 시스템에서 고-대역 에너지를 추정하기 위한 방법 및 장치
EP2144232B1 (en) Apparatus and methods for enhancement of speech
JP4294724B2 (ja) 音声分離装置、音声合成装置および声質変換装置
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
EP1638083B1 (en) Bandwidth extension of bandlimited audio signals
US20020128839A1 (en) Speech bandwidth extension
KR20070090143A (ko) 음성 신호들의 대역폭의 인공 확장을 위한 방법 및 장치
Kontio et al. Neural network-based artificial bandwidth expansion of speech
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP2010055000A (ja) 信号帯域拡張装置
JP2011033717A (ja) 雑音抑圧装置
JP2005157363A (ja) フォルマント帯域を利用したダイアログエンハンシング方法及び装置
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
JP6089789B2 (ja) 音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラム
JP5949379B2 (ja) 帯域拡張装置及び方法
JP2011150232A (ja) Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム
JP6065488B2 (ja) 帯域拡張装置及び方法
CN112201261A (zh) 基于线性滤波的频带扩展方法、装置及会议终端系统
Anikin Package ‘soundgen’
Alcaraz Meseguer Speech analysis for automatic speech recognition
JP6930089B2 (ja) 音響処理方法および音響処理装置
JP6163785B2 (ja) 音声帯域拡張装置及びプログラム
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170123

R150 Certificate of patent or registration of utility model

Ref document number: 6089789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150