JP4774255B2

JP4774255B2 - 音声信号処理方法、装置及びプログラム

Info

Publication number: JP4774255B2
Application number: JP2005251233A
Authority: JP
Inventors: 隆行荒井
Original assignee: Toa Corp
Current assignee: Toa Corp
Priority date: 2005-08-31
Filing date: 2005-08-31
Publication date: 2011-09-14
Anticipated expiration: 2025-08-31
Also published as: JP2007065285A

Description

本発明は、残響環境下においてスピーカから出力される音声の明瞭性を改善するための処理を行う音声信号処理方法、装置及びプログラムに関する。

マイクロホンによって集音された音声、あるいは予め録音され再生された音声を残響環境下においてスピーカから放射する場合、講演会場、多目的ホール、教室、教会残響の影響で放射される音声の明瞭性が低下する。特に、老人性難聴や聴覚障害を持った人にとって残響の影響による弊害は大きく、非常に聞き取りにくい音声となってしまう。また、聴取者の母語以外の言語を使った音声コミュニケーションにおいても、残響は好ましくない。例えば、語学の聞き取り試験で、同じ音声が違う残響環境下で再生されれば、受験者にとって不利益が生じることにもなりかねない。

残響環境下で音声の明瞭性が劣化する主な原因として、オーバラップマスキングが知られている。オーバラップマスキングとは、先行する音素に伴う残響の尾が後続する音素をマスクする効果であり、マスクされた後続の音素の聞き取り易さを低下させる。オーバラップマスキングは、先行する音素のエネルギが大きく、後続する音素のエネルギが小さい場合、例えば母音（一般的にパワーが強い）の後に子音（一般的にパワーが弱い）が続く場合に顕著であり、子音の聞き取り易さが極端に悪くなる。

このようなオーバラップマスキングを減らすために、残響環境下における音声に対する前処理として「定常部抑圧処理」が提案されている（非特許文献１及び２参照）。この定常部抑圧処理では、音声の定常部（音声の音節の中心部の核など）を推定し、その定常部の振幅を抑圧する。定常部抑圧に関する様々な実験の結果、この処理をマイクロホンとスピーカの間に挿入することによって、残響環境下において音声の明瞭性が改善することが確認されている（非特許文献３参照）。
T. Arai, K. Kinoshita, N. Hodoshima, A. Kusumoto and T. Kitamura, "Effects of suppressing steady-state portions of speech on intelligibility in reverberant environments," Proc. Autumn Meet. Acoust. Soc. Jpn., pp. 449-450 (2001). T. Arai, K. Kinoshita, N. Hodoshima, A. Kusumoto and T. Kitamura, "Effects of suppressing steady-state portions of speech on intelligibility in reverberant environments," Acoust. Sci. & Tech., 23, 229-232 (2002). N. Hodoshima, T. Goto, N. Ohata, T. Inoue and T. Arai, "The effect of pre-processing approach for improving speech intelligibility in a hall: Comparison between diotic and dichotic listening conditions," Acoust. Sci. & Tech., 26, 212-214 (2005).

非特許文献１及び２に開示された定常部抑圧処理は、処理によって発話の長さが変わらないことが前提である。それは、処理後の音声を発話者がいるのと同じ室内（ホールや講堂など）で拡声する状況を想定しているからである。

ところで、残響環境下における音声信号の前処理は、処理後の音声が拡声されるのと同じ室内に発話者が必ずしもいるような状況のみでなく、別の場所で集音された音声や予め録音された音声を残響環境下に流す場合などにおいても有効と考えられる。例えば、災害発生時にトンネル内や駅構内あるいはコンサート会場などで緊急放送を行う場合に、スピーカから発生される前処理を行うことで放送される音声の明瞭性を上げることは非常に有益である。

そのような状況では、発話の長さが原音声と異なっても構わない。残響時間の長いホールなどでは、ゆっくりと発話した方が音声の明瞭性が上がることは経験的によく知られている。そこで、発話速度を見かけ上遅くするような時間軸伸張処理を音声信号に施すことが考えられる。しかし、ただ単に音声信号の時間軸を伸張するだけでは、オーバラップマスキングを軽減するという観点からすると必ずしも効率的でない。

そこで、本発明は発話速度を見かけ上遅くしつつオーバラップマスキングを抑圧して残響環境下での音声の明瞭性を改善する音声信号処理方法と装置及びプログラムを提供することを目的とする。

上記の課題を解決するため、本発明の第１の観点では、入力される音声信号に対してスピーカから音声が出力される前に、音声信号の母音部に存在する定常部を検出し、この検出された母音部の定常部内に、母音長又は定常部長に応じてその長さが短い場合には時間長が短く、長さが長い場合には時間長が長くなるように設定された零系列を挿入する音声信号処理を施す。

本発明によると、音声信号の定常部内に零系列を挿入する処理を行うことにより、発話速度を見かけ上遅くしつつオーバラップマスキングを効果的に抑圧し、もって残響環境下での音声の明瞭性を改善することができる。

以下、図面を参照して本発明の実施の形態を説明する。図１に、本発明の一実施形態に基づく音声信号処理装置を適用した音声システムの例を示す。空間Ｓ１に設置されたマイクロホン１Ａ、テープレコーダその他の録音再生機器２、あるいは空間Ｓ３に設置されたマイクロホン１Ｂから電気信号として出力される音声信号は、前処理部３Ａ，３Ｂに入力される。前処理部３Ａ，３Ｂにおいては、入力される音声信号は前置増幅器により増幅され、さらにＡ／Ｄ変換器によりディジタル信号に変換された後、音声信号処理装置４に入力される。

音声信号処理装置４では、入力されるディジタル化された音声信号に対して音声の明瞭性を向上させるための信号処理、具体的には残響によるオーバラップマスキングの影響を減らすために、（ａ）音声信号の定常部内、例えば定常部の中央に零系列を挿入する処理、あるいは（ｂ）音声信号の時間軸を伸長した後、定常部の振幅を抑圧する処理が行われる。

音声信号処理装置４によって処理された音声信号は、後処理部５Ａ，５Ｂに入力される。後処理部５Ａ，５においては、入力される音声信号はＤ／Ａ変換器によりアナログ信号に変換され、さらに電力増幅器により増幅された後、空間Ｓ２に設置されたスピーカ６Ａあるいは空間Ｓ３に設置されたスピーカ６Ｂに供給され、スピーカ６Ａ，６Ｂから音響信号として放射される。

図１の音声システムは、例えば（ａ）トンネルや駅構内、ホールなどの特に残響の大きい環境下における災害発生時等の緊急放送、あるいは（ｂ）講演会場、多目的ホール、教室、教会のような残響の大きい室内での講演・演説・討論等を行う場合に適している。（ａ）のような用途では、図１においてマイクロホン１Ａや録音再生機器２が設置された空間Ｓ１が緊急放送を発するための指令所等であり、これに対応してスピーカ６Ａが設置された空間Ｓ２は例えばトンネルや、構内、ホールである。（ｂ）のような用途では、図１における空間Ｓ３が講演会場、多目的ホール、教室、教会等であり、同じ空間Ｓ３にマイクロホン１Ｂとスピーカ６Ｂが設置される。音声信号処理装置４は、このように残響時間が長い環境下において、マイクロホンにより集音された音声や予め録音された音声をスピーカから流す場合に、残響の影響による音声の明瞭性低下を抑制する上で顕著な効果を発揮する。以下、音声信号処理装置４に関する幾つかの実施形態について説明する。

（第１の実施形態）
図２は、本発明の第１の実施形態に係る音声信号処理装置を示している。入力端子１１からのディジタル化された音声信号は、定常部検出部１２と零系列挿入部１３に入力される。定常部検出部１２は、入力される音声信号の母音部などに存在する定常部（音声の音節の中心部の核など）を検出し、例えば定常部で“１”、非定常部で“０”となるような定常部検出信号を発生する。零系列挿入部１３は、定常部検出部１２からの定常部検出信号を受け、入力される音声信号の定常部内に零系列を挿入する処理を行う。こうして定常部内に零系列が挿入された後の音声信号は、出力端子１６から出力される。

（第２の実施形態）
図３は、本発明の第２の実施形態に係る音声信号処理装置を示しており、図２に対して母音長測定部１４と零系列長設定部１５が追加されている。母音長測定部１４は入力される音声信号から母音部を抽出して母音部の時間的な長さ（以下、母音長という）Ｔｖを測定する。零系列長設定部１５は、零系列挿入部１３で挿入される零系列の長さ（以下、零系列長という）Ｔｚを母音長測定部１４により測定された母音長Ｔｖに応じて、例えば母音長Ｔｖに比例するように設定する。なお、定常部検出部１２により定常部の長さＴｓ（以下、定常部長という）を求め、零系列長Ｔｚを定常部長Ｔｓに応じて、例えば定常部長Ｔｓに比例するように設定してもよい。

（定常部検出部について）
次に、図２または図３における定常部検出部１２について説明する。図４及び図５は、定常部検出部の具体例を示している。
まず、図４に示す定常部検出部について説明すると、入力端子２０にはディジタル化された音声信号が入力される。入力された音声信号は、まず例えば１／３オクターブ帯域の複数（Ｎ）個の帯域通過フィルタ（ＢＰＦ）２１−１〜２１−Ｎからなるフィルタバンクによって、Ｎ個の帯域に分割される。分割されたＮ個の各帯域の音声信号は時間包絡抽出部２２−１〜２２−Ｎに入力され、時間包絡が抽出される。抽出された時間包絡は、低域通過フィルタ（ＬＰＦ）２３−１〜２３−Ｎにより平滑化され、さらにこの後の処理を容易にするためダウンサンプラ２４−１〜２４−Ｎによって１／Ｍにダウンサンプリングされる。ダウンサンプリング比は、例えばＭ＝１６０に設定される。

次に、対数計算部２５−１〜２５−Ｎによってダウンサンプリング後の時間包絡の対数が計算される。次に、対数計算部２５−１〜２５−Ｎにより計算された対数の各時間サンプルについて、回帰係数計算部２６−１〜２６−Ｎにより各時間サンプルとその前後を含む複数の点（例えば前後２点の計５点）の時間サンプルの値から直線回帰係数Δ₁，Δ₂，・・・，Δ_Nがそれぞれ計算される。次に、回帰係数計算部２６−１〜２６−Ｎにより計算されたＮ個の回帰係数Δ₁，Δ₂，・・・，Δ_Nに対して、２乗平均計算部２７により下記の計算によって２乗平均が求められる。

ここで、Ｄは２乗平均、ｋはｋ＝１，２，・・・，Ｎの整数である。

次に、２乗平均Ｄはアップサンプラ２８によりＭ倍にアップサンプリングされることにより、ダウンサンプラ２４−１〜２４−Ｎでダウンサンプリングされる前のサンプリング周波数とされる。次に、アップサンプリング後の２乗平均Ｄは閾値処理部２９に入力され、予め定められた閾値と比較されることにより、Ｄが閾値より小さい箇所が母音部などの定常部として検出される。閾値処理部２９の出力信号は、例えば定常部で“１”、非定常部で“０”となるような二値信号からなる定常部検出信号であり、出力端子３０から出力される。

図４に示した定常部検出部については、以下のように種々変形を加えることが可能である。
（１）帯域通過フィルタ２１−１〜２１−Ｎからなるフィルタバンクを省略し、これに伴い時間包絡抽出部、低域通過フィルタ、ダウンサンプラ、対数計算部及び回帰係数計算部についてはそれぞれ１個とする。すなわち、フィルタバンクによる帯域分割を行わず、全帯域について時間包絡抽出から回帰係数計算までの処理を行う。
（２）フィルタバンクによる帯域分割を行うが、時間包絡抽出部、低域通過フィルタ、ダウンサンプラ、対数計算部及び回帰係数計算部についてはそれぞれ１個とする。
（３）上記（２）の変形で、時間包絡抽出部については各帯域毎に設ける。
（４）上記（２）の変形で、回帰係数計算部については各帯域毎に設ける。
（５）図４では回帰係数の２乗平均を求めたが、これに限られるものではなく、他の方法で回帰係数を平均してもよい。

次に、図３に示す定常部検出部について説明する。入力端子２０からのディジタル化された音声信号は、まず窓掛け処理部３１に入力され、予め設定された時間長、例えば２０ｍｓのハニング窓あるいはハミング窓による窓掛け処理が行われる。すなわち、窓掛け処理部３１では後述するケプストラム係数を用いて母音の定常部が検出されるように、ディジタル化された音声信号が例えば１０ｍｓ（５０％）の時間長だけ互いにオーバラップした２０ｍｓの時間長の複数のフレームに切り出され、この後同じ２０ｍｓの幅を持つハニング窓あるいはハミング窓による窓掛け処理が行われる。

窓掛け処理部３１から出力される各フレームの音声信号は高速フーリエ変換（ＦＦＴ）部３２に入力され、ＦＦＴが施される。高速フーリエ変換部３２の出力信号から、対数スペクトル計算部３３によって各フレームの音声信号の対数スペクトルが計算される。対数スペクトル計算部３３では、具体的には高速フーリエ変換部３２の出力信号について、パワースペクトルを得るために絶対値をとってから２乗計算を行い、この後１０を底とする（常用）対数の１０倍を計算してｄＢ（デシベル）に単位を変換して、出力の対数スペクトルとする。

次に、対数スペクトル計算部３３によって計算された対数スペクトルに対して、逆高速フーリエ変換（ＩＦＦＴ）部３４によってＩＦＦＴが施されることにより、ケプストラム係数が生成される。生成されたケプストラム係数のうち、低い次元の係数が音声信号のスペクトル包絡を表す。そこで、ケプストラム係数に対しリフタリングを施すことにより、スペクトル包絡を表す例えば３０次までのケプストラム係数を残して出力する。

次に、逆フーリエ変換部３４により生成されリフタリングされた例えば３０次までの各ケプストラム係数が回帰係数計算部３５−１〜３５−Ｎ（この場合、Ｎ＝３０とする）に入力され、各ケプストラム係数の時間軌跡に対して例えば前後２点、計５点の回帰係数がサンプル毎に最小二乗法により計算される。他の例として、各ケプストラム係数の時間軌跡に対し前後３点、計７点の回帰係数をサンプル毎に計算してもよい。

次に、回帰係数計算部３５−１〜３５−Ｎにより計算された回帰係数である３０個のデルタ係数の２乗平均Ｄが２乗平均計算部３７により計算される。２乗平均Ｄは、音声信号のスペクトル遷移を示すパラメータであり、フレーム毎に一つずつ得られる。次に、２乗平均Ｄは閾値処理部３８に入力され、予め定められた閾値と比較されることにより、Ｄが閾値より小さい箇所が母音部などの定常部として検出される。ここでは回帰係数の２乗平均を求めたが、これに限られるものではなく、他の方法で回帰係数を平均してもよい。閾値処理部３８の出力信号は、例えば定常部で“１”、非定常部で“０”となるような二値信号からなる定常部検出信号であり、出力端子３０から出力される。

定常部の検出手法は上述した例に限られず、例えば（ａ）隣り合うフレームのスペクトル形状や自己相関関数の形状が似ていれば、それを定常部とみなす方法、（ｂ）定常部を母音にまで拡大して考え、純粋に信号のパワーが大きくなったところを定常部とみなす方法など、他の種々の方法を用いることができる。次に、本実施形態の効果について説明する。本実施形態によると、図２または図３に示したように定常部検出部１２によって検出される音声信号の定常部内に零系列挿入部１３により零系列を挿入することで、残響環境下におけるオーバラップマスキングを劇的に軽減し、音声の明瞭性を効果的に向上させることができる。すなわち、零系列の挿入により音声の定常部の音節同士を時間的に離し、前の音節からのオーバラップマスキングの量を減らすことで、残響環境下における音声の明瞭性が向上する。

零系列挿入部１３によって定常部に挿入される零系列長Ｔｚは変数であり、以下の実験ではＴｚ＝５０ｍｓ，１００ｍｓとした。定常部に零系列を挿入する際、波形に不連続性が生じる可能性があるが、波形を切り離す際に例えばテーパを掛けるなどの末端処理を施すことによって、そのような不連続は容易に防ぐことができる。

定常部への零系列挿入を行った場合とそうでない場合とで、室内における音声の明瞭性がどう変化するかを比較した。零系列長Ｔｚとして、５０ｍｓと１００ｍｓを試した。聞き取り試験は、残響時間を電気的に変えられる電気残響システムを備えたホールで行った。この電気音響システムを使うとホール内にいる同じ被験者に対して、１回の実験の中で様々な室内の残響特性を模擬することができる。

図６（ａ）（ｂ）は原音声信号、すなわち本実施形態による処理を行う前の音声信号（図２または図３における入力端子１１に入力される音声信号）の無残響環境下及び残響環境下での時間波形を示している。残響によって前の音節の尾側が次の音節の先頭側に被り、音声の明瞭性の低が予想される。

一方、図７（ａ）（ｂ）は零系列長Ｔｚ＝50msとして本実施形態による処理を行った後の音声信号の無残響環境下及び残響環境下での時間波形を示している。同様に、図８（ａ）（ｂ）は零系列長Ｔｚ＝100msとして本実施形態による処理を行った後の音声信号の無残響環境下及び残響環境下での時間波形を示している。

このように本実施形態による処理を行った後の音声信号では、残響時間の長い環境下でも音節間の区切りがはっきりすることにより、音声の明瞭性が向上することが分かる。この音声の明瞭性向上の効果は、以下の聴取実験によっても確認された。

残響時間の異なる２つの残響環境による聴取実験を行い、正答率を調べた結果を表１に示す。２種類の零系列長Ｔｚ（50ms，100ms）と、２種類の残響環境（残響時間2.9s，3.3s）との全ての組み合わせにおいて、それぞれの組み合わせを１セッションとして実験刺激を準備し、全部で４セッションの実験を行った。

実験に用いた音声サンプルは日本語の１４単音節であり、それぞれの単音節はキャリア文の中に埋め込まれ、実験で用いられた。４セッションからなる実験に、３１名の若い健聴者が参加した。各セッションにおいて被験者はキャリア文に埋め込まれた単音節が何か、書き取るように指示された。１セッションには２８の刺激文が存在した（１４単音節×処理の有無２種類）。刺激文はランダムに提示され、提示は各刺激文につき１度だけであった。各刺激の提示後、次の刺激の提示までには回答のための短い時間間隔を空けた。

表１に示されるように、各組の差は統計的に有意であった（*: p<0.05, **: p<0.01）。表１から、残響時間が２秒以上と比較的長い場合においても、本実施形態の処理を行うことにより音声の明瞭性の低下が避けられることを確認した。表１は、零系列長Ｔｚが長いほど音声の明瞭性の改善幅が大きいことを示していると同時に、残響時間が長いほど音声の明瞭性の改善には長いＴｚが必要なことも示している。

以上述べたように、本実施形態によれば残響時間が長い環境下においても音声の明瞭性の低下を防ぐことができる。このように音声信号の定常部に零系列を挿入する手法が音声の明瞭性を改善させる理由は、音声の明瞭性と強い相関がある音声の変調スペクトルを見ることによって説明することができる。

上記の説明では、零系列長Ｔｚを50msまたは100msのように半固定としたが、図３に示した実施形態で説明したように母音長Ｔｖまたは定常部長Ｔｓに比例するように変化させてもよい。すなわち、Ｔｚ＝ａ・ＴｖまたはＴｚ＝ａ・Ｔｓとして短い母音の定常部には時間的に短い零系列を挿入し、長い母音の定常部には時間的に長い零系列を挿入する。これによって自然性の劣化を抑え、より効果的に音声の明瞭性を向上する効果が期待できる。なお、比例定数ａについては固定値としてもよいが、変数としてもよい。

（関連技術）
図９は、本発明に関連する技術に係る音声信号処理装置であり、入力端子４１に入力される音声信号は、時間軸伸長部４２によって時間軸が伸長された後、定常部検出部４３と乗算器４５の一方の入力端子に入力される。定常部検出部４３は、例えば図４あるいは図５に示した通りである。図４または図５の出力端子３０から出力される定常部検出信号は、定常部抑圧関数計算部４４に入力される。定常部抑圧関数計算部４４では、例えば定常部抑圧検出信号の“１”（定常部）に対応してα（０≦α＜１）をとり、定常部抑圧検出信号の“０”（非定常部）に対応して１をとるような二値信号からなる関数（定常部抑圧関数という）の信号を発生する。なお、図９中に示した例ではα＝０．４としているが、０≦α＜１の値であれば何でもよい。この定常部抑圧関数の信号は、乗算器４５の他方の入力端子に入力される。乗算器４５では、時間軸伸長部４２から出力される音声信号に定常部抑圧関数の信号を乗じることにより、定常部の振幅を抑圧した音声信号を出力端子４６へ出力する。

前述したように、残響時間の環境下ではゆっくりと発話した方が音声の明瞭性が上がることは経験的によく知られている。しかし、単に発話速度を見かけ上遅くするような時間軸伸張処理を音声信号に施しただけでは、オーバラップマスキングを軽減するという観点からすると効果的でない。これに対し、本実施形態では時間軸伸長処理の後に定常部を検出して定常部の振幅を抑圧することにより、残響時間の長い残響環境下でもオーバラップマスキングを効果的に軽減して、音声の明瞭性を向上させることができる。

以上説明した本発明の実施形態に基づく音声信号処理は、ＤＳＰ（ディジタル信号プロセッサ）のようなハードウェアで実現可能であるが、パーソナルコンピュータのようなコンピュータを用いてソフトウェアにより実行することも可能である。従って、本発明によれば以下に挙げるようなプログラム、あるいは当該プログラムを格納したコンピュータ読み取り可能な記憶媒体を提供することができる。

（１）入力された音声信号に対してスピーカから音声が出力される前に施すべき音声信号処理をコンピュータに行わせるプログラムであって、前記音声信号の定常部を検出する処理と、検出された定常部内に零系列を挿入する処理とを含む音声信号処理をコンピュータに行わせる音声信号処理プログラム、あるいは当該プログラムを格納したコンピュータ読み取り可能な記憶媒体。

（２）入力された音声信号に対してスピーカから音声が出力される前に施すべき音声信号処理をコンピュータに行わせるプログラムであって、前記音声信号の時間軸を伸長する処理と、時間軸伸長後の音声信号の定常部を検出する処理と、検出された定常部の振幅を抑圧する処理とを含む音声信号処理をコンピュータに行わせる音声信号処理プログラム、あるいは当該プログラムを格納したコンピュータ読み取り可能な記憶媒体。

本発明の実施形態に係る音声信号処理装置を用いた音声拡声システムの概念図。図１中の音声信号処理装置の第１の実施形態を示すブロック図。図１中の音声信号処理装置の第２の実施形態を示すブロック図。音声信号処理装置に含まれる定常部検出部の第１の具体例を示すブロック図。音声信号処理装置に含まれる定常部検出部の第２の具体例を示すブロック図。本発明の実施形態に従う処理を行う前の音声信号の無残響環境下及び残響環境下での時間波形を示す図。零系列長Ｔｚ＝50msとして本実施形態に従う処理を行った後の音声信号の無残響環境下及び残響環境下での時間波形を示す図。零系列長Ｔｚ＝100msとして本実施形態による処理を行った後の音声信号の無残響環境下及び残響環境下での時間波形を示す図。図１中の音声信号処理装置の本発明に関連する技術を示すブロック図。

符号の説明

１１・・・音声信号入力端子
１２・・・定常部検出部
１３・・・零系列挿入部
１４・・・母音長測定部
１５・・・零系列長設定部
１６・・・音声信号出力端子
２０・・・音声信号入力端子
２１−１〜２１−Ｎ・・・帯域通過フィルタ
２２−１〜２２−Ｎ・・・時間包絡抽出部
２３−１〜２３−Ｎ・・・低域通過フィルタ
２４−１〜２４−Ｎ・・・ダウンサンプラ
２５−１〜２５−Ｎ・・・対数計算部
２６−１〜２６−Ｎ・・・回帰係数計算部
２７・・・２乗平均計算部
２８・・・アップサンプラ
２９・・・閾値処理部
３０・・・定常部検出信号出力端子
３１・・・窓掛け処理部
３２・・・高速フーリエ変換部
３３・・・対数スペクトル計算部
３４・・・逆高速フーリエ変換部
３５−１〜３５−Ｎ・・・回帰係数計算部
３６・・・２乗平均計算部
３７・・・閾値処理部
４１・・・音声信号入力端子
４２・・・時間軸伸長部
４３・・・定常部検出部
４４・・・定常部抑圧関数計算部
４５・・・乗算器
４６・・・音声信号出力端子

Claims

入力される音声信号に対してスピーカから音声が出力される前に処理を施す音声信号処理方法において、
前記音声信号の母音部に存在する定常部を検出するステップと、
前記検出された母音部の定常部内に、母音長又は定常部長に応じてその長さが短い場合には時間長が短く、長さが長い場合には時間長が長くなるように設定された零系列を挿入するステップと
を具備することを特徴とする音声信号処理方法。
入力される音声信号に対してスピーカから音声が出力される前に処理を施す音声信号処理装置において、
前記音声信号の母音部に存在する定常部を検出する定常部検出部と、
前記検出された母音部の定常部内に、母音長又は定常部長に応じてその長さが短い場合には時間長が短く、長さが長い場合には時間長が長くなるように設定された零系列を挿入する零系列挿入部と
を具備することを特徴とする音声信号処理装置。
前記音声信号の母音部の時間長を測定する母音長測定部と、
前記測定された母音部の時間長に比例するように前記零系列の時間長を変化させて設定する母音長設定部と
をさらに具備することを特徴とする請求項２記載の音声信号処理装置。
前記定常部検出部は、前記入力される音声信号から時間包絡を抽出する時間包絡抽出部と、前記時間包絡の対数の各時間サンプルについて当該時間サンプルを含む前後複数の時間サンプルの値から回帰係数を計算する回帰係数計算部と、前記回帰係数の平均を計算する平均計算部と、前記平均について閾値処理を行うことにより前記母音部に存在する定常部を求める閾値処理部とを有することを特徴とする請求項２記載の音声信号処理装置。
前記定常部検出部は、前記入力される音声信号から時間包絡を抽出する時間包絡抽出部と、前記時間包絡を平滑化する平滑フィルタと、平滑化された時間包絡をダウンサンプリングするダウンサンプラと、ダウンサンプリングされた時間包絡の対数を計算する対数計算部と、前記対数の各時間サンプルについて当該時間サンプルを含む前後複数の時間サンプルの値から回帰係数を計算する回帰係数計算部と、前記回帰係数の平均を計算する平均計算部と、前記平均をアップサンプリングするアップサンプラと、アップサンプリングされた平均について閾値処理を行うことにより前記母音部に存在する定常部を求める閾値処理部とを有することを特徴とする請求項２記載の音声信号処理装置。
前記定常部検出部は、前記入力される音声信号を複数の帯域に分割するフィルタバンクをさらに含み、前記時間包絡抽出部は分割された各帯域の音声信号から時間包絡を抽出する請求項４または５のいずれか１項記載の音声信号処理装置。
前記定常部検出部は、前記入力される音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する窓掛け処理部と、分割された各フレームの音声信号にフーリエ変換を施すフーリエ変換部と、前記フーリエ変換部からの出力信号に基づき対数スペクトルを計算する対数スペクトル計算部と、前記対数スペクトルに対して逆フーリエ変換を施すことによりケプストラム係数を生成するケプストラム係数計算部と、前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する回帰係数計算部と、前記回帰係数の平均を計算する平均計算部と、前記平均について閾値処理を行うことにより前記音声信号の母音部に存在する定常部を求める閾値処理部とを有することを特徴とする請求項２記載の音声信号処理装置。
入力された音声信号に対してスピーカから音声が出力される前に施すべき音声信号処理をコンピュータに行わせるプログラムであって、
前記音声信号の母音部に存在する定常部を検出する処理と、この検出された定常部内に、母音長又は定常部長に応じてその長さが短い場合には時間長が短く、長さが長い場合には時間長が長くなるように設定された零系列を挿入する処理とを含む音声信号処理をコンピュータに行わせる音声信号処理プログラム。