JP2005202335A - 音声処理方法と装置及びプログラム - Google Patents

音声処理方法と装置及びプログラム Download PDF

Info

Publication number
JP2005202335A
JP2005202335A JP2004011111A JP2004011111A JP2005202335A JP 2005202335 A JP2005202335 A JP 2005202335A JP 2004011111 A JP2004011111 A JP 2004011111A JP 2004011111 A JP2004011111 A JP 2004011111A JP 2005202335 A JP2005202335 A JP 2005202335A
Authority
JP
Japan
Prior art keywords
processing
audio signal
calculating
coefficient
mean square
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004011111A
Other languages
English (en)
Other versions
JP2005202335A5 (ja
Inventor
Takayuki Arai
隆行 荒井
Nao Hodoshima
奈緒 程島
Takakimi Goto
崇公 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2004011111A priority Critical patent/JP2005202335A/ja
Publication of JP2005202335A publication Critical patent/JP2005202335A/ja
Publication of JP2005202335A5 publication Critical patent/JP2005202335A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】マイクロフォンで検出された音声信号に対し、スピーカに出力される前に処理を施すことによって、スピーカから放射される音声の明瞭度を向上させる。
【解決手段】A/D変換器11によりディジタル化された音声信号を窓掛け処理部12に入力してフレーム分割した後に、FFT13を経て対数スペクトル計算部14により対数スペクトルを計算し、対数スペクトルに対してIFFT15を施すことでケプストラム係数を生成した後、回帰係数計算部16−1〜16−nにより時間方向にケプストラム係数を見た場合の回帰係数を計算し、2乗平均部17により回帰係数の2乗平均(D値)を計算し、D値を閾値処理部18に通して音声信号の定常部を求め、求められた定常部に対して乗算器19により音声信号の振幅を抑圧し、D/A変換器20を介して出力する。
【選択図】 図3

Description

本発明は、室内で拡声される音声の明瞭度を改善するための処理を行う音声処理方法と装置及びプログラムに関する。
講演会場、多目的ホール、教室、教会などの室内で、講演・講義などを行う場合、話者が発生した音声はマイクロフォンによって検出され、増幅などの電気的処理がなされた後、会場に設置されたスピーカから音響として室内に放射され、最終的に聴衆の耳に到達する。
このような状況では通常、室内の残響の影響でスピーカから放射される音声の明瞭度が低下する。特に、老人性難聴や聴覚障害の人にとって、このような影響の弊害が大きく、非常に聞き取りにくい音声となってしまう。また、聴取者の母語以外の言語を使った音声コミュニケーションにおいても、残響は好ましくない。例えば、語学の聞き取り実験で、同じ音声が違う残響環境で再生されれば、受験者にとって不利益が生じることにもなりかねない。
このような問題に対し、マイクロフォンで検出された音声信号に対してスピーカに出力される前に特定の前処理を施すことによって、スピーカから放射されて聴衆の耳に到達する音声の明瞭度を向上させる試みが従来から種々なされている。その一つとして、発明者らは、荒井隆行,木下慶介,程島奈緒,楠本亜希子,喜田村朋子,“音声の定常部抑圧処理の残響に対する効果”,日本音響学会(秋期研究発表会)講演論文集,vol. 1, 449-450, 2001年10月(非特許文献1)において、入力される音声信号に対して残響によるオーバラップマスキング(overlap-masking)を減らすことを目的とする「定常部抑圧処理」を施すことを提案し、ある雑音環境下では残響による明瞭度の低下を避けることができることを確認している。
すなわち、残響によって音声の明瞭度を下げる要因の一つとして、オーバラップマスキングの影響が考えられている。オーバラップマスキングとは、先行する音素に伴う残響が後続する音素をマスクする効果であり、特に先行する音素のエネルギーが大きく、後続する音素のエネルギが小さい場合に、その効果が大きくなると考えられている。このようなオーバラップマスキングを減らすためには、適当に原音声のサンプルを間引くことが考えられるが、単に機械的に間引きを行ったのでは逆に音声情報が失われてしまい。結果として逆に明瞭度の低下を招く。
そこで、非特許文献1では音声信号のうち定常部のみを間引く処理を行う。音声信号の定常部は、典型的には母音部の中央(音節核)であり、そのエネルギは大きいものの音声としての情報量は少ない。一方、音声信号の遷移部は音声情報の知覚に関して非常に重要な役割を果たしていることが分かっている(例えば、S.Furui, “On the role of spectral transition for speech perception,”J. Acoust. Soc. Am.,80(4):1016-1025, 1986:非特許文献2)。非特許文献2によると、音節の初期部分と最終部分を様々な位置で削除した刺激を用いて聴取実験を行った結果、音声の遷移部は音声知覚に関して非常に重要な役割を果たしており、母音の定常部は母音、または音節の認識においては必要ではないと報告されている。
音声信号の定常部の中でも母音の定常部は一般にエネルギが大きいことが多いので、それに後続する遷移部やエネルギーの小さい子音はオーバラップの影響をまともに受けやすい。このため、定常部抑圧処理を施すと、音声情報の損失を最小限に抑えつつ、オーバラップマスキングによる遷移部へのマスキング量を減らすことが可能となる。
非特許文献1では、具体的に次のような信号処理を行う。まず、FIRフィルタなどによるフィルタバンクを用いて音声信号を1/3-octで帯域分割し、各帯域において時間包絡を抽出する。次に、各帯域の時間包絡を100Hzにダウンサンプリングし、その対数軌跡から前後2点、計5点に対する回帰係数をサンプル毎に計算する。全ての帯域に渡って、回帰係数の2乗平均(以下では、D値とする)を求める。ここで、D値は非特許文献2にならって音声信号のスペクトル遷移を示すパラメータを表すものとする。次に、元のサンプリング周波数に戻した後、D値がある閾値より小さい箇所を定常部とみなし、定常部について元の波形の振幅を抑圧する。このようにして音声信号に定常部抑圧処理を行うことにより、残響によるオーバラップマスキングの影響を軽減して音声の明瞭度の低下を防ぐことができる。
荒井隆行,木下慶介,程島奈緒,楠本亜希子,喜田村朋子,"音声の定常部抑圧処理の残響に対する効果",日本音響学会(秋期研究発表会)講演論文集,vol. 1, 449-450, 2001年10月 S. Furui, "On the role of spectral transition for speech perception,"J. Acoust. Soc. Am., 80(4):1016-1025, 1986
非特許文献1に開示された定常部抑圧処理は、残響によるオーバラップマスキングを減らして、残響による明瞭度の低下を回避する上で効果的であるが、特に帯域分割のためのフィルタバンクでの処理遅延が大きいため、実時間処理には必ずしも適さない。話者が発生した音声をマイクロフォンによって検出し、スピーカによって放射する場合に音声信号に対する前処理により音声の明瞭度を向上させるという当初の目的を考慮すると、処理の実時間性がない場合、話者の口の動きや動作とスピーカから発する音声とが一致しないことになる。従って、明瞭度向上のための定常部抑圧処理の実時間性は非常に重要である。
本発明は、マイクロフォンで検出された音声信号に対してスピーカに出力される前に明瞭度向上のための定常部抑圧処理を実時間処理により行うことを容易にする音声処理方法と装置及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明は入力された音声信号に対してスピーカに出力される前に処理を施す音声処理方法であって、音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割するステップと、分割された各フレームの音声信号について対数スペクトルを計算するステップと、対数スペクトルからケプストラム係数を計算するステップと、ケプストラム係数を時間方向に見た場合の回帰係数を計算するステップと、回帰係数の2乗平均を求めるステップと、2乗平均について閾値処理を行うことにより音声信号の定常部を求めるステップと、定常部について音声信号の振幅を抑圧するステップとを具備することを特徴とする。
また、本発明は入力された音声信号に対してスピーカに出力される前に処理を施す音声処理装置であって、音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する窓掛け処理部と、窓掛け処理部により分割された各フレームの音声信号にフーリエ変換を施すフーリエ変換部と、フーリエ変換部からの出力信号に基づき対数スペクトルを計算する対数スペクトル計算部と、対数スペクトルに対して逆フーリエ変換を施すことによりケプストラム係数を生成するケプストラム係数計算部と、ケプストラム係数を時間方向に見た場合の回帰係数を計算する回帰係数計算部と、回帰係数の2乗平均を求める2乗平均部と、2乗平均について閾値処理を行うことにより音声信号の定常部を求める閾値処理部と、定常部について音声信号の振幅を抑圧する抑圧処理部とを具備することを特徴とする。
さらに、本発明によると、入力された音声信号に対してスピーカに出力される前に処理を施す音声処理をコンピュータに行わせるプログラムであって、前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する処理と、分割された各フレームの音声信号について対数スペクトルを計算する処理と、前記対数スペクトルからケプストラム係数を計算する処理と、前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する処理と、前記回帰係数の2乗平均を求める処理と、前記2乗平均について閾値処理を行うことにより前記音声信号の定常部を求める処理と、前記定常部について前記音声信号の振幅を抑圧する処理とを前記コンピュータに行わせる音声処理プログラムを提供することもできる。
マイクロフォンなどで検出された音声信号に対して、定常部の抑圧処理を行うことにより、スピーカから放射される音声の明瞭度を聴覚障害者や高齢者に対しても効果的に向上させることができ、また実時間処理も容易に実現可能となる。
以下、図面を参照して本発明の実施の形態を説明する。図1に、本発明の一実施形態に基づく音声処理装置を適用した音声拡声システムの例を示す。講演会場、多目的ホール、教室、教会などの室内1において、講演・講義などを行う話者2が発生した音声はマイクロフォン3によって検出される。マイクロフォン3から電気信号として出力される音声信号は、前置増幅器4により増幅された後、本発明の一実施形態に基づく音声処理装置5に入力される。
音声処理装置5では、入力される音声信号に対して音声の明瞭度を向上させるための信号処理、すなわち後に詳しく述べるように、残響によるオーバーラップマスキングの影響を減らすために音声信号の定常部の振幅を抑圧する処理が行われる。音声処理装置5で処理された音声信号は、電力増幅器6により増幅された後、室内1に設置されたスピーカ7に供給され、このスピーカ7から音響として放射されることによって、最終的に聴衆8の耳に到達する。
図2に、残響によるオーバラップマスキングの様子を示す。音声としては、筑波大学多言語音声コーパスから「October」(話者:EngM2、男性)を用いた。図2(a)は原音声波形であり、図2(a)の最下行は上5行のセグメンテーションにより/o/, /k/, /t/, /o/, /b/, /er/に分割した音声波形を足し合わせた波形である。図2(b)は図2(a)の音声波形に残響時間1.1秒のインパルス応答を畳み込んだ音声波形であり、/k/, /t/, /b/のようなエネルギの弱い子音が、直前の母音に付加された残響によってマスクされている様子が分かる。つまり先行音が母音のようなエネルギの強い音素の場合、後続の音素は残響の尾による影響を大きく受けるのである。
そこで、音声処理装置5ではエネルギは比較的大きいが音声認識にはそれほど重要ではないとされる音声信号の定常部をあらかじめ抑圧することで、残響によるオーバラップマスキングの影響を軽減させて明瞭度の改善を達成する。以下、図3を用いて音声処理装置5について具体的に説明する。
図3において、入力端子10には図1に示した前置増幅器4によって増幅された音声信号が入力される。この入力音声信号は、A/D変換器11により例えばサンプリング周波数16kHzでサンプリングされ、16ビット程度のディジタル信号に変換される。A/D変換器11から出力されるディジタル化された音声信号は、まず窓掛け処理部12に入力され、例えば20msのハニング窓あるいはハミング窓による窓掛け処理が行われる。
すなわち、窓掛け処理部12では後述するケプストラム係数を用いて母音の定常部が検出されるように、ディジタル化された音声信号が例えば10ms(50%)の時間長だけ互いにオーバラップした20msの時間長の複数のフレームに切り出され、この後同じ20msの幅を持つハニング窓あるいはハミング窓による窓掛け処理が行われる。
窓掛け処理部12から出力される各フレームの音声信号は高速フーリエ変換(FFT)部13に入力され、FFTが施される。高速フーリエ変換部13の出力信号から、対数スペクトル計算部14によって各フレームの音声信号の対数スペクトルが計算される。対数スペクトル計算部14では、具体的には高速フーリエ変換部13の出力信号について、パワースペクトルを得るために絶対値をとってから2乗計算を行い、この後10*log10を計算してdB(デシベル)に単位を変換して、出力の対数スペクトルとする。
次に、対数スペクトル計算部14によって計算された対数スペクトルに対して、逆フーリエ変換(IFFT)部15によってIFFTが施されることにより、ケプストラム係数が生成される。生成されたケプストラム係数のうち、低い次元の係数が音声信号のスペクトル包絡を表す。そこで、ケプストラム係数に対しリフタリングを施すことにより、スペクトル包絡を表す例えば30次までのケプストラム係数を残して出力する。図4に、入力端子10に入力される音声信号の原波形に対する対数スペクトル41(実線)と、30次までのケプストラム係数であるスペクトル包絡42(破線)を示す。
次に、逆フーリエ変換部15により生成されリフタリングされた例えば30次までの各ケプストラム係数を回帰係数計算部16−1〜16−n(この場合、n=30とする)に入力し、各ケプストラム係数の時間軌跡に対して例えば前後2点、計5点の回帰係数をサンプル毎に最小二乗法により計算する。他の例として、各ケプストラム係数の時間軌跡に対し前後3点、計7点の回帰係数をサンプル毎に計算してもよい。
図5に、実線で時間軌跡5点のケプストラム係数を示し、破線で回帰直線を示す。回帰直線の傾きが回帰係数(デルタ係数)となる。この場合、30次までのケプストラム係数を用いているので、1フレーム当たり30個のデルタ係数が求まる。
次に、回帰係数計算部16−1〜16−nにより計算された回帰係数である30個のデルタ係数の2乗平均を2乗平均部17により計算し、これを一つのフレームの代表的なD値とする。D値は、非特許文献2に従って定義される、音声信号のスペクトル遷移を示すパラメータであり、フレーム毎に一つずつ得られる。
図6に、音声信号の母音部分の原波形61(塗りつぶされた部分)と2乗平均部17により得られる2乗平均であるD値62(線で描かれた部分)の例を示す。D値の小さい箇所は、母音の定常部に相当する。そこで、D値を閾値処理部18に入力して、予め定められた閾値と比較し、D値が閾値より小さい箇所を母音の定常部とする。閾値処理部18の出力は、例えば母音の定常部でα(0≦α<1)、それ以外の部分で1をとるような二値信号からなる定常部検出信号である。この例ではα=0.4とするが、0≦α<1の値であれば何でもよい。この定常部検出信号は乗算器19に入力され、A/D変換器11から出力されるディジタル化された音声信号に乗じられることにより、定常部について音声信号の振幅が抑圧される。
図7に、音声信号の原波形71(薄く塗りつぶされた部分及び濃く塗りつぶされた部分)と定常部が抑圧された後の波形72(濃く塗りつぶされた部分)を示す。乗算器19からの定常部抑圧処理後の音声信号は、出力端子21から出力される。出力端子21から出力される音声信号は、例えば図1の電力増幅器6に入力され、スピーカ7から音響として放射される。
このように本実施形態の音声処理装置によると、入力される音声信号の定常部の振幅を抑圧する処理を行うことができるので、処理後の音声信号を図1に示したように電力増幅器6を介して室内1に設置されたスピーカ7に供給することによって、明瞭度の高い音声を発することができる。
また、本実施形態の音声処理装置では、入力される音声信号のフレーム単位で残響によるオーバラップマスキングの影響を軽減させる明瞭度の改善処理を行うため、音声信号をフィルタバンクにより帯域分割してから同様の処理を行う非特許文献1に比較して処理遅延が非常に短く、実時間処理が容易となる。
図3に示した音声処理装置は、A/D変換器11の出力からD/A変換器20までの処理をDSP(Digital Signal Processor)あるいは汎用のCPU(Central Processing Unit)を用いてソフトウェア処理により実現することもできる。また、図3に示した音声処理装置を専用のハードウェアを用いて実現することも可能である。
次に、本発明の実施形態の効果を確認するために行った聴取実験の結果について説明する。まず、実験室環境における聴取実験の結果について述べる。
残響環境は、コンピュータ上で音声信号と残響のインパルス応答を畳み込むことによって実現した。使用したインパルス応答は、東大和市大ホール(反射板無し)で測定されたインパルス応答を基に、それらを人工的に加工することによって残響時間0.4秒から1.3秒までの範囲に変化させたものである。
刺激は、日本語の単音節CV(子音−母音)をターゲットとし、日本語のキャリアセンス「題目としては_といいます」に挿入した。Vとして/a/, /i/を用い、Cとして/p/, /t/, /k/, /b/, /d/, /g/, /s/, /∫/, /h/, /t∫/, /dz/, /d3/, /m/, /n/の14子音を用いた。結局、実験では24種類のCVを使用した。各刺激は、ATR研究用日本語音声データベース(話者:MAU、40歳 男性)を用いた。刺激音は、原音声信号に残響を畳み込んだ刺激セット(処理なし)と、本発明の実施形態に基づく定常部抑圧処理を行った後に残響を畳み込んだ刺激セット(処理あり)の二種類を用意した。被験者は、日本語を母語とする健聴者44名(残響時間が短いセットに対して22名、長いセットに対して22名)とした。
実験の指示は、防音室内のコンピュータ画面上で行った。刺激音の指示はヘッドフォン(STAX SR-303)を用い、被験者毎に適した音圧レベルに調整した。各試行において、まず刺激音を一度だけ提示し、提示終了後、画面上に実験で使用した24種類のCVを選択肢としてカナで表示した。被験者には、画面上の選択肢を強制的に一つマウスでクリックさせて、回答してもらった。選択が終わると、次の刺激が自動的に提示されるようにした。各被験者に対して、計240刺激(残響5種類×24単音節×処理2種類)をランダムに並べて提示した。
以上のような条件で行った実験室環境における単音節明瞭度試験の結果として、各残響条件、処理条件における子音の正解率の平均値を表1(残響時間の短いセット)及び表2(残響時間の長いセット)に示す。
Figure 2005202335
Figure 2005202335
ただし、母音の正解率は、いずれの条件においても100%であった。処理による主効果は、いずれも有意(p<.001)であった。処理条件間でのt検定の結果、表1では残響時間が0.8, 0.9, 1.0秒において「処理あり」の方が、また表2では残響時間が0.9, 1.0, 1.1 ,1.2秒において「処理あり」の方が、それぞれ有意に正解率が高かった。
これらの実験結果から、全ての残響条件において「処理あり」の方が正解率は高く、さらに残響時間が0.8〜1.2秒では処理の効果が確認された。
次に、上述した実験室環境で効果を示した定常部抑圧処理を実際の残響環境下においてもその効果を確認するために大学の講堂にて実験を行った結果を示す。実験は、単音節明瞭度試験と文の書き取り試験を行った。
単音節明瞭度試験では前述した刺激のうち、母音が/a/のもの(14単音節、キャリア文付き、処理あり/なし)を用いた。文了解度試験では、NTT-AT音素バランス1000文から20文を用いた。被験者は、日本語を母語とする健聴者24名とした。
実験は、上智大学構内で一番大きな収容人数(822名)を持つ10号館講堂で行った。壇上にスピーカを設置し、PCから予め準備された刺激音を再生した。被験者は、講堂正面の後方のブロックに配置した。始めに被験者に指示を与えた後、テスト用の刺激文を用いて被験者全員が問題なく聞き取れる程度の音量に出力を調整した。
単音節明瞭度試験では、28刺激(14単音節のそれぞれについて処理あり/処理なし)を2回の計56刺激をランダムに並べ替えて提示した。各試行において刺激音を一度だけ提示し、回答を14単音節のリストから1つ強制的に選んで用紙に書いてもらった。次の刺激提示までの時間は、5秒とした。
文了解度試験では、24名の被験者をグループA(13名)とグループB(11名)に分け、各グループ毎に実験を行った。各グループでは、異なる20文、すなわち「処理あり」の10文と「処理なし」の10文をランダムに並べ替えて提示した。また、グループAで「処理あり」であった10文は、グループBで「処理なし」となり、逆にグループAで「処理なし」であった10文は、グループBで「処理あり」となるように組み合わせることによって、バランスをとった。各試行において刺激音は20秒間隔をあけて2度にわたって提示し、回答をカナで用紙に書いてもらった。
単音節明瞭度試験では子音の正解率を比較した結果、「処理あり」(69.3%)の方が「処理なし」(62.7%)よりも正解率が高くなった。文了解度試験では、書き取られた文を処理ありと処理なしで比較した。その結果、「処理あり」と「処理なし」では共にモーラ毎の正解率が95%以上と高く、その差はほとんど観測されなかった。
単音節明瞭度試験では実験室環境のdiotic受聴の場合と同じ刺激を用いたが、両耳(dichotic)環境においてもその効果を確認できた。文の書き取りでは文脈情報を利用できることから、多少の聞き取りづらさが存在しても特に健聴者の場合には問題ない。今回用いた刺激文は、比較的平易で、訓練を受けたアナウンサがゆっくりと明瞭に発話したもので、また残響時間もそれほど長くない環境で、かつ直接音のエネルギも強かったことが、そもそもの了解度が高かった要因として考えられる。しかし、より劣悪な残響環境下で、親密度の低い語が存在したり、自然発話音声にみられるように話速が速かったり不明瞭な音声になると、本発明の実施形態による処理の効果が顕著に現れるものと予想される。このことは、お年寄りや聴覚障害者に対してはなおさらのことであろう。
本発明の一実施形態に従う音声処理装置を用いた音声拡声システムの概念図 残響によるオーバラップマスキングの例を示す図 本発明の一実施形態に従う音声処理装置の構成を示すブロック図 原音声波形の対数スペクトルとスペクトル包絡について示す図 回帰係数の計算例を示す図 原音声波形と回帰係数の2乗平均(D値)の例を示す図 原音声波形と定常部が抑圧された音声波形の例を示す図
符号の説明
10…入力端子
11…A/D変換器
12…窓掛け処理部
13…高速フーリエ変換器
14…対数スペクトル計算部
15…逆高速フーリエ変換器
16−1〜16−n…回帰係数計算部
17…2乗平均計算部
18…閾値処理部
19…乗算器
20…D/A変換器
21…出力端子

Claims (3)

  1. 入力された音声信号に対してスピーカに出力される前に処理を施す音声処理方法であって、
    前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割するステップと、
    分割された各フレームの音声信号について対数スペクトルを計算するステップと、
    前記対数スペクトルからケプストラム係数を計算するステップと、
    前記ケプストラム係数を時間方向に見た場合の回帰係数を計算するステップと、
    前記回帰係数の2乗平均を求めるステップと、
    前記2乗平均について閾値処理を行うことにより前記音声信号の定常部を求めるステップと、
    前記定常部について前記音声信号の振幅を抑圧するステップとを具備することを特徴とする音声処理方法。
  2. 入力された音声信号に対してスピーカに出力される前に処理を施す音声処理装置であって、
    前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する窓掛け処理部と、
    前記窓掛け処理部により分割された各フレームの音声信号にフーリエ変換を施すフーリエ変換部と、
    前記フーリエ変換部からの出力信号に基づき対数スペクトルを計算する対数スペクトル計算部と、
    前記対数スペクトルに対して逆フーリエ変換を施すことによりケプストラム係数を生成するケプストラム係数計算部と、
    前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する回帰係数計算部と、
    前記回帰係数の2乗平均を求める2乗平均部と、
    前記2乗平均について閾値処理を行うことにより前記音声信号の定常部を求める閾値処理部と、
    前記定常部について前記音声信号の振幅を抑圧する抑圧処理部とを具備することを特徴とする音声処理装置。
  3. 入力された音声信号に対してスピーカに出力される前に処理を施す音声処理をコンピュータに行わせるプログラムであって、
    前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する処理と、
    分割された各フレームの音声信号について対数スペクトルを計算する処理と、
    前記対数スペクトルからケプストラム係数を計算する処理と、
    前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する処理と、
    前記回帰係数の2乗平均を求める処理と、
    前記2乗平均について閾値処理を行うことにより前記音声信号の定常部を求める処理と、
    前記定常部について前記音声信号の振幅を抑圧する処理とを前記コンピュータに行わせる音声処理プログラム。
JP2004011111A 2004-01-19 2004-01-19 音声処理方法と装置及びプログラム Pending JP2005202335A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004011111A JP2005202335A (ja) 2004-01-19 2004-01-19 音声処理方法と装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004011111A JP2005202335A (ja) 2004-01-19 2004-01-19 音声処理方法と装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2005202335A true JP2005202335A (ja) 2005-07-28
JP2005202335A5 JP2005202335A5 (ja) 2007-02-22

Family

ID=34823634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004011111A Pending JP2005202335A (ja) 2004-01-19 2004-01-19 音声処理方法と装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2005202335A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065285A (ja) * 2005-08-31 2007-03-15 Takayuki Arai 音声信号処理方法、装置及びプログラム
JP2008245159A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 音響信号発生装置および方法
KR100876794B1 (ko) 2007-04-03 2009-01-09 삼성전자주식회사 이동 단말에서 음성의 명료도 향상 장치 및 방법
US8675882B2 (en) 2008-01-21 2014-03-18 Panasonic Corporation Sound signal processing device and method
WO2021031942A1 (zh) * 2019-08-16 2021-02-25 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083978A (ja) * 1999-07-15 2001-03-30 Matsushita Electric Ind Co Ltd 音声認識装置
JP2001100763A (ja) * 1999-09-29 2001-04-13 Yamaha Corp 波形分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083978A (ja) * 1999-07-15 2001-03-30 Matsushita Electric Ind Co Ltd 音声認識装置
JP2001100763A (ja) * 1999-09-29 2001-04-13 Yamaha Corp 波形分析方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065285A (ja) * 2005-08-31 2007-03-15 Takayuki Arai 音声信号処理方法、装置及びプログラム
JP2008245159A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 音響信号発生装置および方法
KR100876794B1 (ko) 2007-04-03 2009-01-09 삼성전자주식회사 이동 단말에서 음성의 명료도 향상 장치 및 방법
US8019603B2 (en) 2007-04-03 2011-09-13 Samsung Electronics Co., Ltd Apparatus and method for enhancing speech intelligibility in a mobile terminal
US8675882B2 (en) 2008-01-21 2014-03-18 Panasonic Corporation Sound signal processing device and method
WO2021031942A1 (zh) * 2019-08-16 2021-02-25 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置

Similar Documents

Publication Publication Date Title
CN110473567B (zh) 基于深度神经网络的音频处理方法、装置及存储介质
Hu et al. Effects of early and late reflections on intelligibility of reverberated speech by cochlear implant listeners
Roman et al. Intelligibility of reverberant noisy speech with ideal binary masking
JP2002014689A (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
Gordon-Salant et al. Recognition of time-compressed speech does not predict recognition of natural fast-rate speech by older listeners
EP3113183B1 (en) Speech intelligibility improving apparatus and computer program therefor
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
Huang et al. Lombard speech model for automatic enhancement of speech intelligibility over telephone channel
Cao et al. Improvement of intelligibility of ideal binary-masked noisy speech by adding background noise
US10176824B2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
Rennies et al. Intelligibility-Enhancing Speech Modifications-The Hurricane Challenge 2.0.
Kusumoto et al. Modulation enhancement of speech by a pre-processing algorithm for improving intelligibility in reverberant environments
Hazrati et al. Reverberation suppression in cochlear implants using a blind channel-selection strategy
Kleczkowski et al. Lombard effect in Polish speech and its comparison in English speech
Jayan et al. Automated modification of consonant–vowel ratio of stops for improving speech intelligibility
Schoenmaker et al. The multiple contributions of interaural differences to improved speech intelligibility in multitalker scenarios
JP4774255B2 (ja) 音声信号処理方法、装置及びプログラム
JP4876245B2 (ja) 子音加工装置、音声情報伝達装置及び子音加工方法
Arai et al. Using steady-state suppression to improve speech intelligibility in reverberant environments for elderly listeners
Bhattacharya et al. Combined spectral and temporal enhancement to improve cochlear-implant speech perception
Ngo et al. Increasing speech intelligibility and naturalness in noise based on concepts of modulation spectrum and modulation transfer function
JP2005202335A (ja) 音声処理方法と装置及びプログラム
Villegas et al. Effects of task and language nativeness on the Lombard effect and on its onset and offset timing
JP2006333396A (ja) 音声信号拡声装置
JP2008102551A (ja) 音声信号の処理装置およびその処理方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091026

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100420