JPH08160992A - 音質改善装置 - Google Patents
音質改善装置Info
- Publication number
- JPH08160992A JPH08160992A JP29955994A JP29955994A JPH08160992A JP H08160992 A JPH08160992 A JP H08160992A JP 29955994 A JP29955994 A JP 29955994A JP 29955994 A JP29955994 A JP 29955994A JP H08160992 A JPH08160992 A JP H08160992A
- Authority
- JP
- Japan
- Prior art keywords
- time
- series data
- waveform
- masked
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
(57)【要約】
【目的】 時間周波数マスキングを利用して音声の音質
を改善することができるような音質改善装置を提供す
る。 【構成】 音質改善装置は、マイクロホン1に入力され
た音声を、スペクトルを表わす特徴パラメータの時系列
データに変換して生成し、その生成された時系列データ
を時間周波数マスキング部7が時間周波数マスキングを
施して音質を改善するためのマスクされたスペクトルを
表わす特徴パラメータの時系列データを求めて、一方で
マイクロホン1に入力された音声からその予測誤差を示
す時系列データを生成し、時間周波数マスキング部7で
得られたマスクされたスペクトルを表わす特徴パラメー
タの時系列データと残差波形生成部23で予測誤差とし
て得られた予測誤差を示す時系列データとを用いて、マ
イクロホン1に入力された音声よりも音質が改善された
音声波形を生成してスピーカ11を駆動する。
を改善することができるような音質改善装置を提供す
る。 【構成】 音質改善装置は、マイクロホン1に入力され
た音声を、スペクトルを表わす特徴パラメータの時系列
データに変換して生成し、その生成された時系列データ
を時間周波数マスキング部7が時間周波数マスキングを
施して音質を改善するためのマスクされたスペクトルを
表わす特徴パラメータの時系列データを求めて、一方で
マイクロホン1に入力された音声からその予測誤差を示
す時系列データを生成し、時間周波数マスキング部7で
得られたマスクされたスペクトルを表わす特徴パラメー
タの時系列データと残差波形生成部23で予測誤差とし
て得られた予測誤差を示す時系列データとを用いて、マ
イクロホン1に入力された音声よりも音質が改善された
音声波形を生成してスピーカ11を駆動する。
Description
【0001】
【産業上の利用分野】この発明は、音質改善装置に関
し、特に、不明瞭な音声を明瞭度の高い音声に変換して
生成することができるような音質改善装置に関する。
し、特に、不明瞭な音声を明瞭度の高い音声に変換して
生成することができるような音質改善装置に関する。
【0002】
【従来の技術】従来、不明瞭な音声を明瞭にする方法と
しては、ホルマント周波数を求めてホルマント周波数の
時間的な動きを強調する方式[桑原尚夫,都木徹:“分
析合成による声質変換と嗄声改善への応用”,信学技
報,SP86-57, pp.45-52(1986-12)]、直前の音量により
音声信号レベルを調節する方式[吉住嘉之、目片強司、
山田義則、鈴木良二、経時マスキングを補償する音声強
調方式の検討、日本音響学会講演論文集、Vol.I, pp.3
63-364, 1991-10 ]、狭い周波数領域の音声のエネルギ
の平均から広い周波数領域の音声のエネルギの平均を除
く形式の側抑制を用いてホルマントを強調するもの[目
片強司、山田義則、鈴木良二、田中豊、補聴器への応用
を考慮したホルマント強調方式の検討、日本音響学会講
演論文集、Vol.I, pp.285-286, 1993-03 ]、などが挙
げられる。
しては、ホルマント周波数を求めてホルマント周波数の
時間的な動きを強調する方式[桑原尚夫,都木徹:“分
析合成による声質変換と嗄声改善への応用”,信学技
報,SP86-57, pp.45-52(1986-12)]、直前の音量により
音声信号レベルを調節する方式[吉住嘉之、目片強司、
山田義則、鈴木良二、経時マスキングを補償する音声強
調方式の検討、日本音響学会講演論文集、Vol.I, pp.3
63-364, 1991-10 ]、狭い周波数領域の音声のエネルギ
の平均から広い周波数領域の音声のエネルギの平均を除
く形式の側抑制を用いてホルマントを強調するもの[目
片強司、山田義則、鈴木良二、田中豊、補聴器への応用
を考慮したホルマント強調方式の検討、日本音響学会講
演論文集、Vol.I, pp.285-286, 1993-03 ]、などが挙
げられる。
【0003】
【発明が解決しようとする課題】ところで、時間周波数
マスキングの原理を用いた音声認識のための特徴パラメ
ータが提案された[相川、河原、東倉、“順向マスキン
グの時間周波数特性を模擬した動的ケプストラムを用い
た音韻認識”、電子情報通信学会論文誌、Vol. J76-A,
No.11, pp.1514-1521, 1991-11]。
マスキングの原理を用いた音声認識のための特徴パラメ
ータが提案された[相川、河原、東倉、“順向マスキン
グの時間周波数特性を模擬した動的ケプストラムを用い
た音韻認識”、電子情報通信学会論文誌、Vol. J76-A,
No.11, pp.1514-1521, 1991-11]。
【0004】しかし、このようなスペクトルからマスキ
ングパターンを求める演算が周波数と時間の関数になっ
ている時間周波数マスキングの原理が用いられること
で、ホルマント(音声スペクトルのうちエネルギが高い
周波数領域)の動き、強度などの音韻情報を強調しつ
つ、音韻明瞭性に不要なスペクトルの傾きやマイクロホ
ン周波数特性などが同時に抑圧されて、不明瞭な音質を
明瞭にするような音質改善装置については未だ提案され
ていない。
ングパターンを求める演算が周波数と時間の関数になっ
ている時間周波数マスキングの原理が用いられること
で、ホルマント(音声スペクトルのうちエネルギが高い
周波数領域)の動き、強度などの音韻情報を強調しつ
つ、音韻明瞭性に不要なスペクトルの傾きやマイクロホ
ン周波数特性などが同時に抑圧されて、不明瞭な音質を
明瞭にするような音質改善装置については未だ提案され
ていない。
【0005】ゆえに、本発明の目的は、上記のように未
だ提案されたことのない、時間周波数マスキングの原理
を用いて不明瞭な音声を明瞭な音声にして音質を改善す
ることのできるような音質改善装置を提供することであ
る。
だ提案されたことのない、時間周波数マスキングの原理
を用いて不明瞭な音声を明瞭な音声にして音質を改善す
ることのできるような音質改善装置を提供することであ
る。
【0006】
【課題を解決するための手段】請求項1の発明に係る音
質改善装置は、音声の明瞭度を高くして音質を改善する
音質改善装置であって、入力された音声波形を所定の時
系列データに変換生成しつつ、各時点のデータにマスキ
ングを施してマスクされた時系列データを生成する生成
手段と、生成手段は、各時点のデータに時間および周波
数の両者で規定されるマスキングを行なうマスキング手
段を含み、生成手段で生成されるマスクされた時系列デ
ータを入力された音声波形よりも明瞭度の高い音声波形
に変換する変換手段とを備えて構成される。
質改善装置は、音声の明瞭度を高くして音質を改善する
音質改善装置であって、入力された音声波形を所定の時
系列データに変換生成しつつ、各時点のデータにマスキ
ングを施してマスクされた時系列データを生成する生成
手段と、生成手段は、各時点のデータに時間および周波
数の両者で規定されるマスキングを行なうマスキング手
段を含み、生成手段で生成されるマスクされた時系列デ
ータを入力された音声波形よりも明瞭度の高い音声波形
に変換する変換手段とを備えて構成される。
【0007】請求項2では、請求項1の所定の時系列デ
ータは、スペクトル包絡の時系列データを含み、マスク
された時系列データは、マスクされたスペクトル包絡の
時系列データを含む。
ータは、スペクトル包絡の時系列データを含み、マスク
された時系列データは、マスクされたスペクトル包絡の
時系列データを含む。
【0008】請求項3では、請求項1の所定の時系列デ
ータは、スペクトル包絡を表わす特徴パラメータの時系
列データを含み、マスクされた時系列データは、マスク
されたスペクトル包絡を表わす特徴パラメータの時系列
データを含む。
ータは、スペクトル包絡を表わす特徴パラメータの時系
列データを含み、マスクされた時系列データは、マスク
されたスペクトル包絡を表わす特徴パラメータの時系列
データを含む。
【0009】請求項4では、請求項1または2の変換手
段は、入力された音声波形から音源情報を抽出して音源
波形の時系列データを生成し、その音源波形の時系列デ
ータを用いてマスクされた時系列データを明瞭度の高い
音声波形に変換する。
段は、入力された音声波形から音源情報を抽出して音源
波形の時系列データを生成し、その音源波形の時系列デ
ータを用いてマスクされた時系列データを明瞭度の高い
音声波形に変換する。
【0010】請求項5では、請求項1または3の変換手
段は、入力された音声波形から音源情報を抽出して音源
波形を表わす特徴パラメータの時系列データを生成し、
その音源波形を表わす特徴パラメータの時系列データを
用いてマスクされた時系列データを明瞭度の高い音声波
形に変換する。
段は、入力された音声波形から音源情報を抽出して音源
波形を表わす特徴パラメータの時系列データを生成し、
その音源波形を表わす特徴パラメータの時系列データを
用いてマスクされた時系列データを明瞭度の高い音声波
形に変換する。
【0011】請求項6では、請求項1の変換手段は、予
め定められた音源の音源波形を表わす時系列データを用
いてマスクされた時系列データを明瞭度の高い音声波形
に変換する。
め定められた音源の音源波形を表わす時系列データを用
いてマスクされた時系列データを明瞭度の高い音声波形
に変換する。
【0012】
【作用】請求項1の発明に係る音質改善装置は、入力さ
れた音声波形を所定の時系列データに変換生成しつつ、
各時点のデータに時間および周波数の両方で規定される
マスキングを行なってマスクされた時系列データを生成
し、マスクされた時系列データを入力された音声波形よ
りも明瞭度の高い音声波形に変換して、音声の音質を改
善することができる。
れた音声波形を所定の時系列データに変換生成しつつ、
各時点のデータに時間および周波数の両方で規定される
マスキングを行なってマスクされた時系列データを生成
し、マスクされた時系列データを入力された音声波形よ
りも明瞭度の高い音声波形に変換して、音声の音質を改
善することができる。
【0013】請求項2の発明に係る音質改善装置も、所
定の時系列データとしてスペクトル包絡の時系列データ
を用い、マスクされた時系列としてマスクされたスペク
トル包絡の時系列データを用いて、請求項1の作用と同
様に、音声の音質を改善することができる。
定の時系列データとしてスペクトル包絡の時系列データ
を用い、マスクされた時系列としてマスクされたスペク
トル包絡の時系列データを用いて、請求項1の作用と同
様に、音声の音質を改善することができる。
【0014】請求項3の発明に係る音質改善装置も、所
定の時系列データとしてスペクトル包絡を表わす特徴パ
ラメータの時系列データを用い、マスクされた時系列デ
ータとしてマスクされたスペクトル包絡を表わす特徴パ
ラメータの時系列データを用いて、請求項1の作用と同
様に、音声の音質を改善することができる。
定の時系列データとしてスペクトル包絡を表わす特徴パ
ラメータの時系列データを用い、マスクされた時系列デ
ータとしてマスクされたスペクトル包絡を表わす特徴パ
ラメータの時系列データを用いて、請求項1の作用と同
様に、音声の音質を改善することができる。
【0015】請求項4の発明に係る音質改善装置も、入
力された音声波形から音源情報を抽出して音源波形の時
系列データを生成し、その音源波形の時系列データを用
いてマスクされた時系列データを明瞭度の高い音声波形
に変換して、請求項1または2の作用と同様に、音声の
音質を改善することができる。
力された音声波形から音源情報を抽出して音源波形の時
系列データを生成し、その音源波形の時系列データを用
いてマスクされた時系列データを明瞭度の高い音声波形
に変換して、請求項1または2の作用と同様に、音声の
音質を改善することができる。
【0016】請求項5の発明に係る音質改善装置も、入
力された音声波形から音源情報を抽出して音源波形を表
わす特徴パラメータの時系列データを生成し、その音源
波形を表わす特徴パラメータの時系列データを用いてマ
スクされた時系列データを明瞭度の高い音声波形に変換
して、請求項1または3の作用と同様に、音声の音質を
改善することができる。
力された音声波形から音源情報を抽出して音源波形を表
わす特徴パラメータの時系列データを生成し、その音源
波形を表わす特徴パラメータの時系列データを用いてマ
スクされた時系列データを明瞭度の高い音声波形に変換
して、請求項1または3の作用と同様に、音声の音質を
改善することができる。
【0017】請求項6の発明に係る音質改善装置も、予
め定められた音源の音源波形を表わす時系列データを用
いてマスクされた時系列データを明瞭度の高い音声波形
に変換して、請求項1の作用と同様に、音声の音質を改
善することができる。
め定められた音源の音源波形を表わす時系列データを用
いてマスクされた時系列データを明瞭度の高い音声波形
に変換して、請求項1の作用と同様に、音声の音質を改
善することができる。
【0018】
【実施例】まず、この発明の原理について説明する。
【0019】時間周波数マスキングを受けた音声スペク
トルは、時間を遡るほど周波数平滑化された過去のスペ
クトルを累積して得られるマスキングパターンを現時点
のスペクトルから減算することにより得られる。対数ス
ペクトルの逆フーリエ変換で定義されるケプストラムを
特徴パラメータとする場合にはケプストラム次数による
異なる重みの系列が過去のケプストラム係数に乗算して
累積されることにより、現在の音声スペクトルをマスク
するマスキングパターンに対応するケプストラム係数が
求められ、これを現時点のケプストラム係数から減算す
ることにより求められる。このマスクされたスペクトル
を表わすケプストラムが動的ケプストラムと呼ばれる。
トルは、時間を遡るほど周波数平滑化された過去のスペ
クトルを累積して得られるマスキングパターンを現時点
のスペクトルから減算することにより得られる。対数ス
ペクトルの逆フーリエ変換で定義されるケプストラムを
特徴パラメータとする場合にはケプストラム次数による
異なる重みの系列が過去のケプストラム係数に乗算して
累積されることにより、現在の音声スペクトルをマスク
するマスキングパターンに対応するケプストラム係数が
求められ、これを現時点のケプストラム係数から減算す
ることにより求められる。このマスクされたスペクトル
を表わすケプストラムが動的ケプストラムと呼ばれる。
【0020】時間周波数マスキングの原理が用いられる
ことで、マスキングパターンは時間的周波数的に平滑化
された直前のスペクトルを表わすこととなる。時間周波
数平滑化によりスペクトルに含まれる時間的に変動する
成分や、周波数軸上の細かい成分は抑制される。このた
め、このマスキングパターンには時間的に一定なマイク
ロホンや伝送系の周波数特性が残ってくる。したがっ
て、このマスキングパターンを現時点のスペクトルから
減算することにより、音韻情報に担うホルマントそのも
の、およびその時間変化が強調され、かつ、マイクロホ
ンや伝送系の周波数特性などの時間的に一定の成分が軽
減される。
ことで、マスキングパターンは時間的周波数的に平滑化
された直前のスペクトルを表わすこととなる。時間周波
数平滑化によりスペクトルに含まれる時間的に変動する
成分や、周波数軸上の細かい成分は抑制される。このた
め、このマスキングパターンには時間的に一定なマイク
ロホンや伝送系の周波数特性が残ってくる。したがっ
て、このマスキングパターンを現時点のスペクトルから
減算することにより、音韻情報に担うホルマントそのも
の、およびその時間変化が強調され、かつ、マイクロホ
ンや伝送系の周波数特性などの時間的に一定の成分が軽
減される。
【0021】すなわち、音声がスペクトルに変換され、
時間周波数マスキングが施され、再び音声に変換される
ことで音韻情報が強調され、マイクロホンなどの音韻明
瞭性に不要な情報が除去された音声が生成される。
時間周波数マスキングが施され、再び音声に変換される
ことで音韻情報が強調され、マイクロホンなどの音韻明
瞭性に不要な情報が除去された音声が生成される。
【0022】次に、図面を用いて実施例を具体的に説明
する。図1は、この発明の一実施例による音質改善装置
を示した概略ブロック図である。
する。図1は、この発明の一実施例による音質改善装置
を示した概略ブロック図である。
【0023】図1を参照して、この実施例の音質改善装
置は、マイクロホン1と、波形生成部3と、スペクトル
変換部5と、スピーカ11とを含む。
置は、マイクロホン1と、波形生成部3と、スペクトル
変換部5と、スピーカ11とを含む。
【0024】波形生成部3は、A/D変換部13と、自
己相関分析部15と、線形予測分析部17と、パーコー
ル変換部19と、予測フィルタ系列生成部21と、残差
波形生成部23と、音声生成部37と、D/A変換部3
9とを含む。
己相関分析部15と、線形予測分析部17と、パーコー
ル変換部19と、予測フィルタ系列生成部21と、残差
波形生成部23と、音声生成部37と、D/A変換部3
9とを含む。
【0025】スペクトル変換部5は、A/D変換部13
と、自己相関分析部15と、線形予測分析部17と、ケ
プストラム分析部25と、時間周波数マスキング部7
と、マスクトスペクトル変換部27と、自己相関分析部
29と、線形予測分析部31と、パーコール変換部33
と、逆フィルタ系列生成部35と、音声生成部37と、
D/A変換部39とを含む。
と、自己相関分析部15と、線形予測分析部17と、ケ
プストラム分析部25と、時間周波数マスキング部7
と、マスクトスペクトル変換部27と、自己相関分析部
29と、線形予測分析部31と、パーコール変換部33
と、逆フィルタ系列生成部35と、音声生成部37と、
D/A変換部39とを含む。
【0026】スペクトル変換部5は、人間の口の形状を
規定する役割を果たすものであり、波形生成部3は、人
間の声帯の役割を果たすものである。
規定する役割を果たすものであり、波形生成部3は、人
間の声帯の役割を果たすものである。
【0027】次に、動作について説明する。マイクロホ
ン1に入った音声波形は、A/D変換部13でたとえば
サンプリング周波数11.025kHzのデジタル信号
に変換される。変換されたデジタル信号は自己相関分析
部15および残差波形生成部23に与えられる。自己相
関分析部15は、デジタル信号を一定の時間間隔として
たとえば5msでたとえば22次の自己相関関数に変換
する。自己相関分析部15で自己相関関数に変換された
デジタル信号に対して、線形予測分析部17でたとえば
20次の線形予測分析が行なわれて、線形予測係数が求
められる。求められた線形予測係数はケプストラム分析
部25およびパーコール変換部19に与えられる。
ン1に入った音声波形は、A/D変換部13でたとえば
サンプリング周波数11.025kHzのデジタル信号
に変換される。変換されたデジタル信号は自己相関分析
部15および残差波形生成部23に与えられる。自己相
関分析部15は、デジタル信号を一定の時間間隔として
たとえば5msでたとえば22次の自己相関関数に変換
する。自己相関分析部15で自己相関関数に変換された
デジタル信号に対して、線形予測分析部17でたとえば
20次の線形予測分析が行なわれて、線形予測係数が求
められる。求められた線形予測係数はケプストラム分析
部25およびパーコール変換部19に与えられる。
【0028】パーコール変換部19は、与えられた線形
予測係数をパーコール(偏自己相関)係数(または反射
係数)に変換して時間的補間を行ない、予測フィルタ系
列生成部21に与える。予測フィルタ系列生成部21で
は、時間的に補間された線形予測係数時系列が再び求め
られる。そして、その線形予測係数時系列が残差波形生
成部23に与えられ、残差波形生成部23は、A/D変
換部13から与えられた元の音声波形を示すデジタル信
号と予測フィルタ系列生成部21から与えられた線形予
測係数時系列に基づいて、予測誤差である残差波形を求
める。残差波形生成部23は、その残差波形を音声生成
部37に与える。
予測係数をパーコール(偏自己相関)係数(または反射
係数)に変換して時間的補間を行ない、予測フィルタ系
列生成部21に与える。予測フィルタ系列生成部21で
は、時間的に補間された線形予測係数時系列が再び求め
られる。そして、その線形予測係数時系列が残差波形生
成部23に与えられ、残差波形生成部23は、A/D変
換部13から与えられた元の音声波形を示すデジタル信
号と予測フィルタ系列生成部21から与えられた線形予
測係数時系列に基づいて、予測誤差である残差波形を求
める。残差波形生成部23は、その残差波形を音声生成
部37に与える。
【0029】一方で、ケプストラム分析部25は、与え
られた線形予測係数に対してケプストラム領域で時間周
波数マスキングの演算を行なう。マスクされたケプスト
ラム係数(動的ケプストラム)を第(1)式および第
(2)式に基づいて求める。
られた線形予測係数に対してケプストラム領域で時間周
波数マスキングの演算を行なう。マスクされたケプスト
ラム係数(動的ケプストラム)を第(1)式および第
(2)式に基づいて求める。
【0030】
【数1】
【0031】ここで、dk (i)は時点iのk次の動的
ケプストラム、ck (i)は、ケプストラム、l
k (n)は、スペクトル平滑化リフタ利得、Nはマスキ
ング継続時間、αは初期マスキング減衰率、βはマスキ
ング減衰率、q0はガウス型リフタ利得形状の初期標準
偏差、νは標準偏差減少速度である。
ケプストラム、ck (i)は、ケプストラム、l
k (n)は、スペクトル平滑化リフタ利得、Nはマスキ
ング継続時間、αは初期マスキング減衰率、βはマスキ
ング減衰率、q0はガウス型リフタ利得形状の初期標準
偏差、νは標準偏差減少速度である。
【0032】この図1に示す実施例では、N=4、α=
0.2、β=0.7、q0=18、ν=1が用いられ
る。ただし、nの時間間隔は2フレーム分の10msと
する。動的ケプストラムはマスキングパターンを減算す
るので、その値が元のケプストラムに比べて小さくな
る。これを防ぐために適当な倍率Gk がかけられる。た
とえば、第(3)式に示すようなGk などが適当であ
る。
0.2、β=0.7、q0=18、ν=1が用いられ
る。ただし、nの時間間隔は2フレーム分の10msと
する。動的ケプストラムはマスキングパターンを減算す
るので、その値が元のケプストラムに比べて小さくな
る。これを防ぐために適当な倍率Gk がかけられる。た
とえば、第(3)式に示すようなGk などが適当であ
る。
【0033】以上のような自己相関分析部15、線形予
測分析部17、パーコール変換部19、予測フィルタ系
列生成部21およびケプストラム分析部25は、自己相
関分析部15における時間間隔(上記の例では5ms)
で動作し、残差波形生成部23で得られる残差波形はA
/D変換部13においてサンプルされた音声信号の1サ
ンプル時点に対し1つずつ求められる。
測分析部17、パーコール変換部19、予測フィルタ系
列生成部21およびケプストラム分析部25は、自己相
関分析部15における時間間隔(上記の例では5ms)
で動作し、残差波形生成部23で得られる残差波形はA
/D変換部13においてサンプルされた音声信号の1サ
ンプル時点に対し1つずつ求められる。
【0034】図2は、図1に示す音質改善装置の時間周
波数マスキング部の動作を示したフロー図であり、図3
は、図1の時間周波数マスキング部の動作を説明するた
めの図である。
波数マスキング部の動作を示したフロー図であり、図3
は、図1の時間周波数マスキング部の動作を説明するた
めの図である。
【0035】図2および図3を用いて、時間周波数マス
キング部についてより詳しく説明する。
キング部についてより詳しく説明する。
【0036】まず、図2を参照して、ステップ(図面で
はSで表わす)1において、現時点iの処理が始められ
る。ステップ2において、ケスプストラム次数がk=1
と設定される。ステップ3において、過去の時点がn=
1と設定される。ステップ4において、k次マスキング
パターンがクリアされる。
はSで表わす)1において、現時点iの処理が始められ
る。ステップ2において、ケスプストラム次数がk=1
と設定される。ステップ3において、過去の時点がn=
1と設定される。ステップ4において、k次マスキング
パターンがクリアされる。
【0037】ステップ5において、n,kに依存したリ
フタ重みと時点i−nのk次のケプストラムとの乗算が
行なわれる。ステップ6において、マスキングパターン
に足し込みが行なわれ、ステップ7においてnの値が4
以上であるか否かが判定される。このnは、前述したよ
うにマスキング継続時間Nを4としたためである。n≧
4の場合にはステップ8に進み、n<4の場合にはステ
ップ5に戻る。ステップ8において、現時点iのk次の
ケプストラム係数からステップ6においてマスキングパ
ターンの足し込みが行なわれて得られたマスキングパタ
ーンのケプストラム展開係数を引く演算が行なわれる。
これは、ケプストラム次数を16としたためである。そ
して、ステップ9において時点iのk次動的ケプストラ
ムが得られる。
フタ重みと時点i−nのk次のケプストラムとの乗算が
行なわれる。ステップ6において、マスキングパターン
に足し込みが行なわれ、ステップ7においてnの値が4
以上であるか否かが判定される。このnは、前述したよ
うにマスキング継続時間Nを4としたためである。n≧
4の場合にはステップ8に進み、n<4の場合にはステ
ップ5に戻る。ステップ8において、現時点iのk次の
ケプストラム係数からステップ6においてマスキングパ
ターンの足し込みが行なわれて得られたマスキングパタ
ーンのケプストラム展開係数を引く演算が行なわれる。
これは、ケプストラム次数を16としたためである。そ
して、ステップ9において時点iのk次動的ケプストラ
ムが得られる。
【0038】ステップ10においてkが16以上である
か否かの判定が行なわれる。k≧16の場合にはステッ
プ11に進み、k<16の場合にはステップ3に戻る。
ステップ11においてi時点の処理が終了する。
か否かの判定が行なわれる。k≧16の場合にはステッ
プ11に進み、k<16の場合にはステップ3に戻る。
ステップ11においてi時点の処理が終了する。
【0039】なお、図2に示す時点iは、図1のケプス
トラム分析部25の時点を指す。時点iに関する繰返し
は、たとえば5ms毎に繰返され、図1の自己相関分析
部15から音声生成部37のループに組込まれて行なわ
れる。
トラム分析部25の時点を指す。時点iに関する繰返し
は、たとえば5ms毎に繰返され、図1の自己相関分析
部15から音声生成部37のループに組込まれて行なわ
れる。
【0040】次に、図3を用いて図2に示す処理を具体
的に説明する。たとえば、時系列データの一例のケプス
トラム系列101が時系列データ103a〜103mで
形成されている。各データ103a〜103mは1次か
ら16次までの低次から高次に及ぶケプストラム係数で
表わされたデータである。ここで、現時点iのデータと
してデータ103iが設定されていたとする。このデー
タ103iに対してケプストラム領域で時間周波数マス
キングの演算が行なわれる。
的に説明する。たとえば、時系列データの一例のケプス
トラム系列101が時系列データ103a〜103mで
形成されている。各データ103a〜103mは1次か
ら16次までの低次から高次に及ぶケプストラム係数で
表わされたデータである。ここで、現時点iのデータと
してデータ103iが設定されていたとする。このデー
タ103iに対してケプストラム領域で時間周波数マス
キングの演算が行なわれる。
【0041】ここで、時間周波数マスキングの演算が行
なわれるためには、スペクトル平滑化リフタ重みが必要
とされる。ケプストラム系列101のデータ103eに
対応したスペクトル平滑化リフタ重み105aがあり、
データ103fに対応したスペクトル平滑化リフタ重み
105bがあり、データ103gに対応したスペクトル
平滑化リフタ重み105cがあり、データ103hに対
応したスペクトル平滑化リフタ重み105dがあるとす
る。各スペクトル平滑化リフタ重み105a〜105d
は、1次から16次までの低次から高次に及ぶスペクト
ル平滑化リフタ重みである。このようなスペクトル平滑
化リフタ重み105a〜105dが用いられて、時間周
波数マスキングの演算が行なわれる。
なわれるためには、スペクトル平滑化リフタ重みが必要
とされる。ケプストラム系列101のデータ103eに
対応したスペクトル平滑化リフタ重み105aがあり、
データ103fに対応したスペクトル平滑化リフタ重み
105bがあり、データ103gに対応したスペクトル
平滑化リフタ重み105cがあり、データ103hに対
応したスペクトル平滑化リフタ重み105dがあるとす
る。各スペクトル平滑化リフタ重み105a〜105d
は、1次から16次までの低次から高次に及ぶスペクト
ル平滑化リフタ重みである。このようなスペクトル平滑
化リフタ重み105a〜105dが用いられて、時間周
波数マスキングの演算が行なわれる。
【0042】すなわち、まず、過去のケプストラムであ
るデータ103eにスペクトル平滑化リフタ重み105
aがかけられ、同様に過去のケプストラムであるデータ
103f〜103hに対応のスペクトル平滑化リフタ重
み105b〜105dがかけられて、加算が行なわれ
る。加算されることで、マスキングパターンのケプスト
ラム展開係数を表わすデータ107が得られる。そし
て、データ103iからケプストラム展開係数を表わす
データ107が減算されることで、動的ケプストラムの
系列111の1つのデータ109iが得られる。動的ケ
プストラム系列111のデータ109a〜109hおよ
び109i〜109mも同様にして得られる。そして、
データ109a〜109mで形成され、かつマスクされ
た時系列データの一例である時間周波数マスクされたス
ペクトルのケプストラム展開係数である動的ケプストラ
ム系列111が、時間周波数マスキング部7によって得
られる。
るデータ103eにスペクトル平滑化リフタ重み105
aがかけられ、同様に過去のケプストラムであるデータ
103f〜103hに対応のスペクトル平滑化リフタ重
み105b〜105dがかけられて、加算が行なわれ
る。加算されることで、マスキングパターンのケプスト
ラム展開係数を表わすデータ107が得られる。そし
て、データ103iからケプストラム展開係数を表わす
データ107が減算されることで、動的ケプストラムの
系列111の1つのデータ109iが得られる。動的ケ
プストラム系列111のデータ109a〜109hおよ
び109i〜109mも同様にして得られる。そして、
データ109a〜109mで形成され、かつマスクされ
た時系列データの一例である時間周波数マスクされたス
ペクトルのケプストラム展開係数である動的ケプストラ
ム系列111が、時間周波数マスキング部7によって得
られる。
【0043】次に、図1に戻って、このようにして得ら
れた動的ケプストラムは、マスクトスペクトル変換部2
7に与えられる。マスクトスペクトル変換部27は、与
えられた動的ケプストラムをマスクされたスペクトルに
変換する。自己相関分析部29は、マスクトスペクトル
変換部27でマスクされたスペクトルから逆フーリエ変
換により自己相関関数を求める。線形予測分析部31
は、自己相関分析部29で求められた自己相関に従って
線形予測分析を行なう。パーコール変換部33は、線形
予測分析部で得られた線形予測係数からパーコールパラ
メータを求め、これを時間的に補間する。逆フィルタ系
列生成部35は、補間された線形予測係数、すなわち予
測誤差から音声を求める逆フィルタの系列を生成する。
れた動的ケプストラムは、マスクトスペクトル変換部2
7に与えられる。マスクトスペクトル変換部27は、与
えられた動的ケプストラムをマスクされたスペクトルに
変換する。自己相関分析部29は、マスクトスペクトル
変換部27でマスクされたスペクトルから逆フーリエ変
換により自己相関関数を求める。線形予測分析部31
は、自己相関分析部29で求められた自己相関に従って
線形予測分析を行なう。パーコール変換部33は、線形
予測分析部で得られた線形予測係数からパーコールパラ
メータを求め、これを時間的に補間する。逆フィルタ系
列生成部35は、補間された線形予測係数、すなわち予
測誤差から音声を求める逆フィルタの系列を生成する。
【0044】音声生成部37は、逆フィルタ系列生成部
35で生成された逆フィルタの系列に対して残差波形生
成部23で得られた残差波形を与えることにより、音声
を生成する。D/A変換部39は、音声生成部37で得
られた音声波形を示すデジタル信号をアナログ信号に変
換する。そして、アナログ信号によりスピーカ11を駆
動して、マイクロホン11に与えた音声よりも明瞭度の
高い音声が得られて、音質の改善が行なわれる。
35で生成された逆フィルタの系列に対して残差波形生
成部23で得られた残差波形を与えることにより、音声
を生成する。D/A変換部39は、音声生成部37で得
られた音声波形を示すデジタル信号をアナログ信号に変
換する。そして、アナログ信号によりスピーカ11を駆
動して、マイクロホン11に与えた音声よりも明瞭度の
高い音声が得られて、音質の改善が行なわれる。
【0045】なお、自己相関分析部15から逆フィルタ
系列生成部35までの処理動作は、自己相関分析部15
の説明で示したような一定の時間ごとに行なわれる。
系列生成部35までの処理動作は、自己相関分析部15
の説明で示したような一定の時間ごとに行なわれる。
【0046】図1に示す実施例では、音声をスペクトル
包絡に変換する方法として線形予測分析によるものにつ
いて説明し、また音声を合成する基本技術としてPAR
COR(パーコール、偏自己相関係数)方式[板倉文
忠、新しい音声分析合成方式“PARCOR”、日経エ
レクトロニクス、2.12,pp.58-75,1973 ]を用いたもの
を示した。次に、他の実施例について説明する。図4
は、この発明の他の実施例による音質改善装置を示した
概略ブロック図である 。
包絡に変換する方法として線形予測分析によるものにつ
いて説明し、また音声を合成する基本技術としてPAR
COR(パーコール、偏自己相関係数)方式[板倉文
忠、新しい音声分析合成方式“PARCOR”、日経エ
レクトロニクス、2.12,pp.58-75,1973 ]を用いたもの
を示した。次に、他の実施例について説明する。図4
は、この発明の他の実施例による音質改善装置を示した
概略ブロック図である 。
【0047】図4を参照して、この実施例の音質改善装
置は、マイクロホン1と、波形生成部51と、スペクト
ル変換部53と、スピーカ11とを含む。
置は、マイクロホン1と、波形生成部51と、スペクト
ル変換部53と、スピーカ11とを含む。
【0048】波形生成部51は、A/D変換部13と、
スペクトル分析部59と、詳細包絡抽出部63と、スペ
クトル微細構造抽出部65と、複素スペクトル生成部7
1と、音声生成部73と、D/A変換部75とを含む。
スペクトル分析部59と、詳細包絡抽出部63と、スペ
クトル微細構造抽出部65と、複素スペクトル生成部7
1と、音声生成部73と、D/A変換部75とを含む。
【0049】スペクトル変換部53は、A/D変換部1
3と、スペクトル分析部59と、平滑化包絡抽出部61
と、ケプストラム分析部67と、時間周波数マスキング
部55と、マスクトスペクトル変換部69と、複素スペ
クトル生成部71と、音声生成部73と、D/A変換部
75とを含む。
3と、スペクトル分析部59と、平滑化包絡抽出部61
と、ケプストラム分析部67と、時間周波数マスキング
部55と、マスクトスペクトル変換部69と、複素スペ
クトル生成部71と、音声生成部73と、D/A変換部
75とを含む。
【0050】スペクトル変換部53は、人間における口
の形状を規定する役割を果たすものであり、波形生成部
51は、人間の声帯の役割を果たすものである。
の形状を規定する役割を果たすものであり、波形生成部
51は、人間の声帯の役割を果たすものである。
【0051】次に、動作について説明する。マイクロホ
ン1に入った音声は、A/D変換部13でたとえばサン
プリング周波数16kHzでデジタル信号に変換され
る。変換されたデジタル信号は、スペクトル分析部59
でたとえば8msのような一定の時間間隔で、たとえば
30msの窓長のHanning時間窓を用いて音声波
形を短時間フーリエ変換により複素スペクトルに変換さ
れる。たとえば4msを時定数とするラグ窓によりスペ
クトル平滑化が行なわれてスペクトル包絡が抽出され
る。
ン1に入った音声は、A/D変換部13でたとえばサン
プリング周波数16kHzでデジタル信号に変換され
る。変換されたデジタル信号は、スペクトル分析部59
でたとえば8msのような一定の時間間隔で、たとえば
30msの窓長のHanning時間窓を用いて音声波
形を短時間フーリエ変換により複素スペクトルに変換さ
れる。たとえば4msを時定数とするラグ窓によりスペ
クトル平滑化が行なわれてスペクトル包絡が抽出され
る。
【0052】また一方で、詳細包絡抽出部63で、たと
えば10msを時定数とするラグ窓によりスペクトルの
細かな平滑化が行なわれて詳細なスペクトル包絡が抽出
される。スペクトル分析部59で求められた複素スペク
トルが詳細包絡抽出部63で求められた詳細なスペクト
ル包絡によって除算されることにより、スペクトル微細
構造抽出部65においてはスペクトルの微細構造を表わ
す複素スペクトルが求められる。
えば10msを時定数とするラグ窓によりスペクトルの
細かな平滑化が行なわれて詳細なスペクトル包絡が抽出
される。スペクトル分析部59で求められた複素スペク
トルが詳細包絡抽出部63で求められた詳細なスペクト
ル包絡によって除算されることにより、スペクトル微細
構造抽出部65においてはスペクトルの微細構造を表わ
す複素スペクトルが求められる。
【0053】ケプストラム分析部67は、平滑化包絡抽
出部61で求められた平滑化スペクトル包絡から、たと
えば256次のケプストラム係数を求める。
出部61で求められた平滑化スペクトル包絡から、たと
えば256次のケプストラム係数を求める。
【0054】時間周波数マスキング部55は、ケプスト
ラム領域で時間周波数マスキングの演算を行なう。マス
クされたケプストラム係数(動的ケプストラム)は、図
1に示した実施例と同様に、第(4)式および第(5)
式が用いられることで求められる。
ラム領域で時間周波数マスキングの演算を行なう。マス
クされたケプストラム係数(動的ケプストラム)は、図
1に示した実施例と同様に、第(4)式および第(5)
式が用いられることで求められる。
【0055】
【数2】
【0056】ここで、dk (i)は、時点iのk次の動
的ケプストラム、ck (i)はケプストラム、l
k (n)はスペクトル平滑化リフタ利得、Nはマスキン
グ継続時間、αは初期マスキング減衰率、βはマスキン
グ減衰率、q0はガウス型リフタ利得形状の初期標準偏
差、νは標準偏差減少速度である。
的ケプストラム、ck (i)はケプストラム、l
k (n)はスペクトル平滑化リフタ利得、Nはマスキン
グ継続時間、αは初期マスキング減衰率、βはマスキン
グ減衰率、q0はガウス型リフタ利得形状の初期標準偏
差、νは標準偏差減少速度である。
【0057】この実施例では、N=4、α=0.2、β
=0.7、q0=36、ν=2が用いられる。
=0.7、q0=36、ν=2が用いられる。
【0058】動的ケプストラムはマスキングパターンを
減算するので、その値が元のケプストラムに比べて小さ
くなる。これを防ぐために適当な倍率Gk がかけられ
る。そのGk としては、たとえば第(6)式で決定され
る倍率が適当である。
減算するので、その値が元のケプストラムに比べて小さ
くなる。これを防ぐために適当な倍率Gk がかけられ
る。そのGk としては、たとえば第(6)式で決定され
る倍率が適当である。
【0059】スペクトル分析部59、平滑化包絡抽出部
61、詳細包絡抽出部63、スペクトル微細構造抽出部
65およびケプストラム分析部67は、前述したように
一定の時間間隔(この例では8ms)毎に動作を行な
う。
61、詳細包絡抽出部63、スペクトル微細構造抽出部
65およびケプストラム分析部67は、前述したように
一定の時間間隔(この例では8ms)毎に動作を行な
う。
【0060】そして、時間周波数マスキング部55は、
図1の時間周波数マスキング部7と同様の動作を行な
う。すなわち、図2および図3に示した処理に従って、
時間周波数マスキング部55は動作を行なう。
図1の時間周波数マスキング部7と同様の動作を行な
う。すなわち、図2および図3に示した処理に従って、
時間周波数マスキング部55は動作を行なう。
【0061】次に、時間周波数マスキング部55で得ら
れた動的ケプストラムであるスペクトル系列が、マスク
トスペクトル変換部69によってスペクトル包絡に変換
される。そして、複素スペクトル生成部71は、スペク
トル微細構造抽出部65で抽出されたスペクトルの微細
構造を表わす複素スペクトルと与えられたスペクトル包
絡とを掛け合わせて、新たな複素スペクトルを求める。
音声生成部73は、複素スペクトル生成部71で得られ
た複素スペクトルに対して逆変換を行ない、分析区間内
の音声波形を復元する。そしてそれまでの処理結果と加
え合わせられることにより、音声が生成される。D/A
変換部75は、生成された音声のデジタル信号をアナロ
グ信号に変換し、スピーカ11を駆動する。これによ
り、図1に示した実施例と同様に、マイクロホン1に入
力された音声に比べて音質が改善されて明瞭度のはっき
りした音声が得られる。
れた動的ケプストラムであるスペクトル系列が、マスク
トスペクトル変換部69によってスペクトル包絡に変換
される。そして、複素スペクトル生成部71は、スペク
トル微細構造抽出部65で抽出されたスペクトルの微細
構造を表わす複素スペクトルと与えられたスペクトル包
絡とを掛け合わせて、新たな複素スペクトルを求める。
音声生成部73は、複素スペクトル生成部71で得られ
た複素スペクトルに対して逆変換を行ない、分析区間内
の音声波形を復元する。そしてそれまでの処理結果と加
え合わせられることにより、音声が生成される。D/A
変換部75は、生成された音声のデジタル信号をアナロ
グ信号に変換し、スピーカ11を駆動する。これによ
り、図1に示した実施例と同様に、マイクロホン1に入
力された音声に比べて音質が改善されて明瞭度のはっき
りした音声が得られる。
【0062】図5は、この発明のさらに他の実施例によ
る音質改善装置の時間周波数マスキング部の動作を示し
たフロー図であって、図2および図3に示したケプスト
ラム領域での演算を周波数領域で演算する方法を示した
フロー図であり、図6は、図5に示されたフロー図に従
う時間周波数マスキングを説明するための図である。
る音質改善装置の時間周波数マスキング部の動作を示し
たフロー図であって、図2および図3に示したケプスト
ラム領域での演算を周波数領域で演算する方法を示した
フロー図であり、図6は、図5に示されたフロー図に従
う時間周波数マスキングを説明するための図である。
【0063】図5および図6を用いて、周波数領域での
演算について詳しく説明する。まず、図5を参照して、
ステップ111において、現時点iの処理が始められ
る。ステップ112において、マスキングパターンがク
リアされる。ステップ113において、遡る時間n=1
が設定される。
演算について詳しく説明する。まず、図5を参照して、
ステップ111において、現時点iの処理が始められ
る。ステップ112において、マスキングパターンがク
リアされる。ステップ113において、遡る時間n=1
が設定される。
【0064】ステップ114において、nに依存したス
ペクトル平滑化フィルタと時点i−nのスペクトルとの
間で重畳積分が行なわれる。そして、ステップ115に
おいてマスキングパターンに足し込みが行なわれ、ステ
ップ116においてnの値が4以上であるか否かが判定
される。このnは、前述したようにマスキング継続時間
nを4としたためである。n≧4の場合にはステップ1
17に進み、n<4の場合にはステップ113に戻る。
ステップ117において、現時点iのスペクトルからス
テップ115においてマスキングパターンの足し込みが
行なわれて得られたマスキングパターンを引く演算が行
なわれる。そして、ステップ118において、時点iの
マスクされたスペクトルが得られる。最後の処理である
ステップ119において、時点iの処理が終了する。
ペクトル平滑化フィルタと時点i−nのスペクトルとの
間で重畳積分が行なわれる。そして、ステップ115に
おいてマスキングパターンに足し込みが行なわれ、ステ
ップ116においてnの値が4以上であるか否かが判定
される。このnは、前述したようにマスキング継続時間
nを4としたためである。n≧4の場合にはステップ1
17に進み、n<4の場合にはステップ113に戻る。
ステップ117において、現時点iのスペクトルからス
テップ115においてマスキングパターンの足し込みが
行なわれて得られたマスキングパターンを引く演算が行
なわれる。そして、ステップ118において、時点iの
マスクされたスペクトルが得られる。最後の処理である
ステップ119において、時点iの処理が終了する。
【0065】なお、図5における時点iは、図1のケプ
ストラム分析部25および図4のケプストラム分析部6
7の時点に相当する。そして、図4のケプストラム分析
部67の時点iに関する繰返しは、たとえば8ms毎に
行なわれ、図4のスペクトル分析部59から音声生成部
73までの処理のループに組込まれて行なわれる。
ストラム分析部25および図4のケプストラム分析部6
7の時点に相当する。そして、図4のケプストラム分析
部67の時点iに関する繰返しは、たとえば8ms毎に
行なわれ、図4のスペクトル分析部59から音声生成部
73までの処理のループに組込まれて行なわれる。
【0066】次に、図6を用いて図5に示す処理を具体
的に説明する。図6を参照して、時系列データの一例の
スペクトル系列151が時系列データ153a〜153
mで形成されている。各データ153a〜153mは、
1次から128次の低周波数から高周波数に及ぶスペク
トルの値で表わされるデータである。ここで、たとえば
現時点iでのデータをデータ153iとする。過去のス
ペクトルであるデータ153e〜153hのそれぞれに
スペクトル平滑化フィルタ群の対応のフィルタ155
a,155b,155c,155dによる重畳積分(コ
ンボリューション)が施されて加算され、マスキングパ
ターンであるデータ157が得られる。現時点のスペク
トルであるデータ153iから得られたマスキングパタ
ーンであるデータ157が減算されることで、時間周波
数マスクされたスペクトル系列161の1つのデータ1
59iが得られる。データ159iよりも過去のデータ
159a〜159hおよび以降のデータ159j〜15
9mも、データ159iと同様にして得られる。データ
159a〜159mは、それぞれ低周波から高周波にわ
たるデータである。そして、時間周波数マスクされたス
ペクトル系列161は、マスクされた時系列データの一
例であり、データ159a〜159mによって形成され
る。
的に説明する。図6を参照して、時系列データの一例の
スペクトル系列151が時系列データ153a〜153
mで形成されている。各データ153a〜153mは、
1次から128次の低周波数から高周波数に及ぶスペク
トルの値で表わされるデータである。ここで、たとえば
現時点iでのデータをデータ153iとする。過去のス
ペクトルであるデータ153e〜153hのそれぞれに
スペクトル平滑化フィルタ群の対応のフィルタ155
a,155b,155c,155dによる重畳積分(コ
ンボリューション)が施されて加算され、マスキングパ
ターンであるデータ157が得られる。現時点のスペク
トルであるデータ153iから得られたマスキングパタ
ーンであるデータ157が減算されることで、時間周波
数マスクされたスペクトル系列161の1つのデータ1
59iが得られる。データ159iよりも過去のデータ
159a〜159hおよび以降のデータ159j〜15
9mも、データ159iと同様にして得られる。データ
159a〜159mは、それぞれ低周波から高周波にわ
たるデータである。そして、時間周波数マスクされたス
ペクトル系列161は、マスクされた時系列データの一
例であり、データ159a〜159mによって形成され
る。
【0067】このようなケプストラム領域での演算を周
波数領域で演算する音質改善装置であっても、図1に示
した実施例および図4に示した実施例と同様に、入力さ
れた音声に比べて音質が改善されて明瞭度のはっきりし
た音声が得られる。
波数領域で演算する音質改善装置であっても、図1に示
した実施例および図4に示した実施例と同様に、入力さ
れた音声に比べて音質が改善されて明瞭度のはっきりし
た音声が得られる。
【0068】以下、図1および図4に示した実施例の機
能とこれから容易に類推される方法の概要について説明
する。まず入力された音声波形をスペクトル包絡または
スペクトル包絡を表わすパラメータの時系列に変換す
る。また必要に応じてピッチまたはピッチ情報を含む線
形予測誤差などの駆動音源波形または駆動音源波形を表
わすパラメータの時系列に音声波形を変換する。また
は、駆動音源情報を、当該音声から抽出する代わりに、
予め定められた駆動音源の情報が直接入力される。
能とこれから容易に類推される方法の概要について説明
する。まず入力された音声波形をスペクトル包絡または
スペクトル包絡を表わすパラメータの時系列に変換す
る。また必要に応じてピッチまたはピッチ情報を含む線
形予測誤差などの駆動音源波形または駆動音源波形を表
わすパラメータの時系列に音声波形を変換する。また
は、駆動音源情報を、当該音声から抽出する代わりに、
予め定められた駆動音源の情報が直接入力される。
【0069】そして、現時点の直前のみ、または直前お
よび直後の、周波数平滑化された単一または複数個の過
去のスペクトル包絡から求められるマスキングパターン
を、現時点のスペクトル包絡から減算するなどの時間周
波数マスキング(覆い隠す)を施す。また必要に応じて
マスクされたスペクトルのうちの負になる部分をゼロに
置換え、あるいは、これと等価な演算を、対数スペクト
ル包絡をフーリエ変換して求めたケプストラムなどの特
徴パラメータに対して行なう。これにより、音韻知覚に
重要なホルマントを強調し、かつ音韻の知覚に不要なマ
イクロホンや伝送系の周波数特性の影響、定常雑音ある
いは振幅変調された広帯域雑音等による影響を軽減す
る。そしてこのマスキングを施されたスペクトル包絡時
系列をそのまま出力し、または音声波形に含まれている
駆動音源情報または人工的なピッチ情報を併用して音声
波形を生成して、明瞭度の低いぼやけた入力音声波形ま
たは音声スペクトル包絡を明瞭度の高いはっきりした音
声波形または音声スペクトル包絡に変換する。
よび直後の、周波数平滑化された単一または複数個の過
去のスペクトル包絡から求められるマスキングパターン
を、現時点のスペクトル包絡から減算するなどの時間周
波数マスキング(覆い隠す)を施す。また必要に応じて
マスクされたスペクトルのうちの負になる部分をゼロに
置換え、あるいは、これと等価な演算を、対数スペクト
ル包絡をフーリエ変換して求めたケプストラムなどの特
徴パラメータに対して行なう。これにより、音韻知覚に
重要なホルマントを強調し、かつ音韻の知覚に不要なマ
イクロホンや伝送系の周波数特性の影響、定常雑音ある
いは振幅変調された広帯域雑音等による影響を軽減す
る。そしてこのマスキングを施されたスペクトル包絡時
系列をそのまま出力し、または音声波形に含まれている
駆動音源情報または人工的なピッチ情報を併用して音声
波形を生成して、明瞭度の低いぼやけた入力音声波形ま
たは音声スペクトル包絡を明瞭度の高いはっきりした音
声波形または音声スペクトル包絡に変換する。
【0070】このような音質改善方法により、時間周波
数マスキングにより時間的に一定、または時間的に変動
するが平坦なスペクトルを持つ雑音が抑制されるため、
雑音が除かれた明瞭な音声に変換されて音質が改善され
る。このように明瞭な音声が得られることで、音声を強
調するが雑音を強調しない補聴器に対して有効に応用で
きる。また、時間周波数マスキングによりホルマント遷
移などの音韻の特徴が強調されるため、一般人の音声を
アナウンサのような明瞭な音声に変換して音質を改善で
きる。これにより、さらに外国語の聞取りが容易にな
る。すなわち、外国語を聞く場合、多くの場合にはバイ
リンガルでない限り、母国語にない外国語固有の音韻特
徴の抽出能力が低いため、時間周波数マスキングにより
音韻特徴が強調されれば、外国語の聞取りが容易にな
る。
数マスキングにより時間的に一定、または時間的に変動
するが平坦なスペクトルを持つ雑音が抑制されるため、
雑音が除かれた明瞭な音声に変換されて音質が改善され
る。このように明瞭な音声が得られることで、音声を強
調するが雑音を強調しない補聴器に対して有効に応用で
きる。また、時間周波数マスキングによりホルマント遷
移などの音韻の特徴が強調されるため、一般人の音声を
アナウンサのような明瞭な音声に変換して音質を改善で
きる。これにより、さらに外国語の聞取りが容易にな
る。すなわち、外国語を聞く場合、多くの場合にはバイ
リンガルでない限り、母国語にない外国語固有の音韻特
徴の抽出能力が低いため、時間周波数マスキングにより
音韻特徴が強調されれば、外国語の聞取りが容易にな
る。
【0071】
【発明の効果】以上のようにこの発明によれば、入力さ
れた音声波形を所定の時系列データに変換して生成しつ
つ、各時点のデータに時間および周波数でマスキングし
てマスキングされた時系列データを生成し、マスクされ
た時系列データを、入力された音声波形よりも明瞭度の
高い音声波形に変換して生成するので、音質の改善され
た音声を得ることができ、たとえば音声を強調するが雑
音を強調しない補聴器に応用でき、さらに、外国語の聞
取りを容易にするなどの効果が得られる。
れた音声波形を所定の時系列データに変換して生成しつ
つ、各時点のデータに時間および周波数でマスキングし
てマスキングされた時系列データを生成し、マスクされ
た時系列データを、入力された音声波形よりも明瞭度の
高い音声波形に変換して生成するので、音質の改善され
た音声を得ることができ、たとえば音声を強調するが雑
音を強調しない補聴器に応用でき、さらに、外国語の聞
取りを容易にするなどの効果が得られる。
【図1】この発明の一実施例による音質改善装置を示し
た概略ブロック図である。
た概略ブロック図である。
【図2】図1の時間周波数マスキング部の動作を説明す
るためのフロー図である。
るためのフロー図である。
【図3】図1の時間周波数マスキング部の動作を説明す
るための図である。
るための図である。
【図4】この発明の他の実施例による音質改善装置を示
した概略ブロック図である。
した概略ブロック図である。
【図5】図1または図4の時間周波数マスキング部での
演算を周波数領域で演算するための動作を説明するため
のフロー図である。
演算を周波数領域で演算するための動作を説明するため
のフロー図である。
【図6】図1または図4の時間周波数マスキング部での
演算を周波数領域で演算するための動作を説明するため
の図である。
演算を周波数領域で演算するための動作を説明するため
の図である。
3,51 波形生成部 5,53 スペクトル変換部 7,55 時間周波数マスキング部 101 ケプストラム系列 111 動的ケプストラム系列 151 スペクトル系列 161 マスクされたスペクトル系列
───────────────────────────────────────────────────── フロントページの続き (72)発明者 東倉 洋一 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール人間情 報通信研究所内 (72)発明者 河原 英紀 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール人間情 報通信研究所内
Claims (6)
- 【請求項1】 音声の明瞭度を高くして音質を改善する
音質改善装置であって、 入力された音声波形を所定の時系列データに変換生成し
つつ、各時点のデータにマスキングを施してマスクされ
た時系列データを生成する生成手段と、 前記生成手段は、前記各時点のデータに時間および周波
数の両者で規定されるマスキングを行なうマスキング手
段を含み、 前記生成手段で生成される前記マスクされた時系列デー
タを前記入力された音声波形よりも明瞭度の高い音声波
形に変換する変換手段とを備えた、音質改善装置。 - 【請求項2】 前記所定の時系列データは、スペクトル
包絡の時系列データを含み、 前記マスクされた時系列データは、マスクされたスペク
トル包絡の時系列データを含む、請求項1記載の音質改
善装置。 - 【請求項3】 前記所定の時系列データは、スペクトル
包絡を表わす特徴パラメータの時系列データを含み、 前記マスクされた時系列データは、マスクされたスペク
トル包絡を表わす特徴パラメータの時系列データを含
む、請求項1記載の音質改善装置。 - 【請求項4】 前記変換手段は、前記入力された音声波
形から音源情報を抽出して音源波形の時系列データを生
成し、その音源波形の時系列データを用いて前記マスク
された時系列データを前記明瞭度の高い音声波形に変換
する、請求項1または2記載の音質改善装置。 - 【請求項5】 前記変換手段は、前記入力された音声波
形から音源情報を抽出して音源波形を表わす特徴パラメ
ータの時系列データを生成し、その音源波形を表わす特
徴パラメータの時系列データを用いて前記マスクされた
時系列データを前記明瞭度の高い音声波形に変換する、
請求項1または3記載の音質改善装置。 - 【請求項6】 前記変換手段は、予め定められた音源の
音源波形を表わす時系列データを用いて前記マスクされ
た時系列データを前記明瞭度の高い音声波形に変換す
る、請求項1記載の音質改善装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29955994A JP2899533B2 (ja) | 1994-12-02 | 1994-12-02 | 音質改善装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29955994A JP2899533B2 (ja) | 1994-12-02 | 1994-12-02 | 音質改善装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08160992A true JPH08160992A (ja) | 1996-06-21 |
JP2899533B2 JP2899533B2 (ja) | 1999-06-02 |
Family
ID=17874198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29955994A Expired - Lifetime JP2899533B2 (ja) | 1994-12-02 | 1994-12-02 | 音質改善装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2899533B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003050991A3 (en) * | 2001-12-10 | 2003-09-25 | Globespan Virata Inc | System and method for improving data transmission |
WO2004040555A1 (ja) * | 2002-10-31 | 2004-05-13 | Fujitsu Limited | 音声強調装置 |
KR100746680B1 (ko) * | 2005-02-18 | 2007-08-06 | 후지쯔 가부시끼가이샤 | 음성 강조 장치 |
-
1994
- 1994-12-02 JP JP29955994A patent/JP2899533B2/ja not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003050991A3 (en) * | 2001-12-10 | 2003-09-25 | Globespan Virata Inc | System and method for improving data transmission |
WO2004040555A1 (ja) * | 2002-10-31 | 2004-05-13 | Fujitsu Limited | 音声強調装置 |
US7152032B2 (en) | 2002-10-31 | 2006-12-19 | Fujitsu Limited | Voice enhancement device by separate vocal tract emphasis and source emphasis |
CN100369111C (zh) * | 2002-10-31 | 2008-02-13 | 富士通株式会社 | 话音增强装置 |
KR100746680B1 (ko) * | 2005-02-18 | 2007-08-06 | 후지쯔 가부시끼가이샤 | 음성 강조 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP2899533B2 (ja) | 1999-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2763322B2 (ja) | 音声処理方法 | |
EP0822538B1 (en) | Method of transforming periodic signal using smoothed spectrogram, method of transforming sound using phasing component and method of analyzing signal using optimum interpolation function | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
US5450522A (en) | Auditory model for parametrization of speech | |
US6704711B2 (en) | System and method for modifying speech signals | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
CN101976566A (zh) | 语音增强方法及应用该方法的装置 | |
US6510408B1 (en) | Method of noise reduction in speech signals and an apparatus for performing the method | |
JP3960834B2 (ja) | 音声強調装置及び音声強調方法 | |
KR20050049103A (ko) | 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치 | |
JP4434813B2 (ja) | 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置 | |
JP3240908B2 (ja) | 声質変換方法 | |
JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
JP2899533B2 (ja) | 音質改善装置 | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
JP3916834B2 (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
JP2006119647A (ja) | ささやき声を通常の有声音声に擬似的に変換する装置 | |
JPH07121197A (ja) | 学習式音声認識方法 | |
JPH07146700A (ja) | ピッチ強調方法および装置ならびに聴力補償装置 | |
JPH08110796A (ja) | 音声強調方法および装置 | |
JP3035939B2 (ja) | 音声分析合成装置 | |
JP4313740B2 (ja) | 残響除去方法、プログラムおよび記録媒体 | |
JP3063088B2 (ja) | 音声分析合成装置、音声分析装置及び音声合成装置 | |
JPH11202883A (ja) | パワースペクトル包絡生成方法および音声合成装置 | |
CN116403596A (zh) | 一种基于谱包络映射的骨导语音转换方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19990216 |