JP2007065285A - 音声信号処理方法、装置及びプログラム - Google Patents

音声信号処理方法、装置及びプログラム Download PDF

Info

Publication number
JP2007065285A
JP2007065285A JP2005251233A JP2005251233A JP2007065285A JP 2007065285 A JP2007065285 A JP 2007065285A JP 2005251233 A JP2005251233 A JP 2005251233A JP 2005251233 A JP2005251233 A JP 2005251233A JP 2007065285 A JP2007065285 A JP 2007065285A
Authority
JP
Japan
Prior art keywords
audio signal
unit
stationary part
time
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005251233A
Other languages
English (en)
Other versions
JP4774255B2 (ja
Inventor
Takayuki Arai
隆行 荒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toa Corp
Original Assignee
Toa Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toa Corp filed Critical Toa Corp
Priority to JP2005251233A priority Critical patent/JP4774255B2/ja
Publication of JP2007065285A publication Critical patent/JP2007065285A/ja
Application granted granted Critical
Publication of JP4774255B2 publication Critical patent/JP4774255B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】発話速度を見かけ上遅くしつつオーバラップマスキングを抑圧して残響環境下での音声の明瞭性を改善する。
【解決手段】入力される音声信号に対してスピーカから音声が出力される前に処理を施す音声信号処理装置であって、入力端子11からの音声信号の母音部などの定常部を検出する定常部検出部12と、検出した定常部内に零系列を挿入する零系列を挿入して出力端子16へ出力する零系列挿入部13を有する。
【選択図】 図2

Description

本発明は、残響環境下においてスピーカから出力される音声の明瞭性を改善するための処理を行う音声信号処理方法、装置及びプログラムに関する。
マイクロホンによって集音された音声、あるいは予め録音され再生された音声を残響環境下においてスピーカから放射する場合、講演会場、多目的ホール、教室、教会残響の影響で放射される音声の明瞭性が低下する。特に、老人性難聴や聴覚障害を持った人にとって残響の影響による弊害は大きく、非常に聞き取りにくい音声となってしまう。また、聴取者の母語以外の言語を使った音声コミュニケーションにおいても、残響は好ましくない。例えば、語学の聞き取り試験で、同じ音声が違う残響環境下で再生されれば、受験者にとって不利益が生じることにもなりかねない。
残響環境下で音声の明瞭性が劣化する主な原因として、オーバラップマスキングが知られている。オーバラップマスキングとは、先行する音素に伴う残響の尾が後続する音素をマスクする効果であり、マスクされた後続の音素の聞き取り易さを低下させる。オーバラップマスキングは、先行する音素のエネルギが大きく、後続する音素のエネルギが小さい場合、例えば母音(一般的にパワーが強い)の後に子音(一般的にパワーが弱い)が続く場合に顕著であり、子音の聞き取り易さが極端に悪くなる。
このようなオーバラップマスキングを減らすために、残響環境下における音声に対する前処理として「定常部抑圧処理」が提案されている(非特許文献1及び2参照)。この定常部抑圧処理では、音声の定常部(音声の音節の中心部の核など)を推定し、その定常部の振幅を抑圧する。定常部抑圧に関する様々な実験の結果、この処理をマイクロホンとスピーカの間に挿入することによって、残響環境下において音声の明瞭性が改善することが確認されている(非特許文献3参照)。
T. Arai, K. Kinoshita, N. Hodoshima, A. Kusumoto and T. Kitamura, "Effects of suppressing steady-state portions of speech on intelligibility in reverberant environments," Proc. Autumn Meet. Acoust. Soc. Jpn., pp. 449-450 (2001). T. Arai, K. Kinoshita, N. Hodoshima, A. Kusumoto and T. Kitamura, "Effects of suppressing steady-state portions of speech on intelligibility in reverberant environments," Acoust. Sci. & Tech., 23, 229-232 (2002). N. Hodoshima, T. Goto, N. Ohata, T. Inoue and T. Arai, "The effect of pre-processing approach for improving speech intelligibility in a hall: Comparison between diotic and dichotic listening conditions," Acoust. Sci. & Tech., 26, 212-214 (2005).
非特許文献1及び2に開示された定常部抑圧処理は、処理によって発話の長さが変わらないことが前提である。それは、処理後の音声を発話者がいるのと同じ室内(ホールや講堂など)で拡声する状況を想定しているからである。
ところで、残響環境下における音声信号の前処理は、処理後の音声が拡声されるのと同じ室内に発話者が必ずしもいるような状況のみでなく、別の場所で集音された音声や予め録音された音声を残響環境下に流す場合などにおいても有効と考えられる。例えば、災害発生時にトンネル内や駅構内あるいはコンサート会場などで緊急放送を行う場合に、スピーカから発生される前処理を行うことで放送される音声の明瞭性を上げることは非常に有益である。
そのような状況では、発話の長さが原音声と異なっても構わない。残響時間の長いホールなどでは、ゆっくりと発話した方が音声の明瞭性が上がることは経験的によく知られている。そこで、発話速度を見かけ上遅くするような時間軸伸張処理を音声信号に施すことが考えられる。しかし、ただ単に音声信号の時間軸を伸張するだけでは、オーバラップマスキングを軽減するという観点からすると必ずしも効率的でない。
そこで、本発明は発話速度を見かけ上遅くしつつオーバラップマスキングを抑圧して残響環境下での音声の明瞭性を改善する音声信号処理方法と装置及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明の第1の観点では、入力される音声信号に対してスピーカから音声が出力される前に、音声信号の定常部を検出し、検出された定常部内に零系列を挿入する音声信号処理を施す。
本発明の第2の観点では、入力される音声信号に対してスピーカから音声が出力される前に音声信号の時間軸を伸長した後、音声信号の定常部を検出し、検出された定常部の振幅を抑圧する処理を施す。
本発明によると、音声信号の定常部内に零系列を挿入するか、あるいは音声信号の時間軸を伸長した後に定常部を検出し、定常部の振幅を抑圧する処理を行うことにより、発話速度を見かけ上遅くしつつオーバラップマスキングを効果的に抑圧し、もって残響環境下での音声の明瞭性を改善することができる。
以下、図面を参照して本発明の実施の形態を説明する。図1に、本発明の一実施形態に基づく音声信号処理装置を適用した音声システムの例を示す。空間S1に設置されたマイクロホン1A、テープレコーダその他の録音再生機器2、あるいは空間S3に設置されたマイクロホン1Bから電気信号として出力される音声信号は、前処理部3A,3Bに入力される。前処理部3A,3Bにおいては、入力される音声信号は前置増幅器により増幅され、さらにA/D変換器によりディジタル信号に変換された後、音声信号処理装置4に入力される。
音声信号処理装置4では、入力されるディジタル化された音声信号に対して音声の明瞭性を向上させるための信号処理、具体的には残響によるオーバラップマスキングの影響を減らすために、(a)音声信号の定常部内、例えば定常部の中央に零系列を挿入する処理、あるいは(b)音声信号の時間軸を伸長した後、定常部の振幅を抑圧する処理が行われる。
音声信号処理装置4によって処理された音声信号は、後処理部5A,5Bに入力される。後処理部5A,5においては、入力される音声信号はD/A変換器によりアナログ信号に変換され、さらに電力増幅器により増幅された後、空間S2に設置されたスピーカ6Aあるいは空間S3に設置されたスピーカ6Bに供給され、スピーカ6A,6Bから音響信号として放射される。
図1の音声システムは、例えば(a)トンネルや駅構内、ホールなどの特に残響の大きい環境下における災害発生時等の緊急放送、あるいは(b)講演会場、多目的ホール、教室、教会のような残響の大きい室内での講演・演説・討論等を行う場合に適している。(a)のような用途では、図1においてマイクロホン1Aや録音再生機器2が設置された空間S1が緊急放送を発するための指令所等であり、これに対応してスピーカ6Aが設置された空間S2は例えばトンネルや、構内、ホールである。(b)のような用途では、図1における空間S3が講演会場、多目的ホール、教室、教会等であり、同じ空間S3にマイクロホン1Bとスピーカ6Bが設置される。音声信号処理装置4は、このように残響時間が長い環境下において、マイクロホンにより集音された音声や予め録音された音声をスピーカから流す場合に、残響の影響による音声の明瞭性低下を抑制する上で顕著な効果を発揮する。以下、音声信号処理装置4に関する幾つかの実施形態について説明する。
(第1の実施形態)
図2は、本発明の第1の実施形態に係る音声信号処理装置を示している。入力端子11からのディジタル化された音声信号は、定常部検出部12と零系列挿入部13に入力される。定常部検出部12は、入力される音声信号の母音部などに存在する定常部(音声の音節の中心部の核など)を検出し、例えば定常部で“1”、非定常部で“0”となるような定常部検出信号を発生する。零系列挿入部13は、定常部検出部12からの定常部検出信号を受け、入力される音声信号の定常部内に零系列を挿入する処理を行う。こうして定常部内に零系列が挿入された後の音声信号は、出力端子16から出力される。
(第2の実施形態)
図3は、本発明の第2の実施形態に係る音声信号処理装置を示しており、図2に対して母音長測定部14と零系列長設定部15が追加されている。母音長測定部14は入力される音声信号から母音部を抽出して母音部の時間的な長さ(以下、母音長という)Tvを測定する。零系列長設定部15は、零系列挿入部13で挿入される零系列の長さ(以下、零系列長という)Tzを母音長測定部14により測定された母音長Tvに応じて、例えば母音長Tvに比例するように設定する。なお、定常部検出部12により定常部の長さTs(以下、定常部長という)を求め、零系列長Tzを定常部長Tsに応じて、例えば定常部長Tsに比例するように設定してもよい。
(定常部検出部について)
次に、図2または図3における定常部検出部12について説明する。図4及び図5は、定常部検出部の具体例を示している。
まず、図4に示す定常部検出部について説明すると、入力端子20にはディジタル化された音声信号が入力される。入力された音声信号は、まず例えば1/3オクターブ帯域の複数(N)個の帯域通過フィルタ(BPF)21−1〜21−Nからなるフィルタバンクによって、N個の帯域に分割される。分割されたN個の各帯域の音声信号は時間包絡抽出部22−1〜22−Nに入力され、時間包絡が抽出される。抽出された時間包絡は、低域通過フィルタ(LPF)23−1〜23−Nにより平滑化され、さらにこの後の処理を容易にするためダウンサンプラ24−1〜24−Nによって1/Mにダウンサンプリングされる。ダウンサンプリング比は、例えばM=160に設定される。
次に、対数計算部25−1〜25−Nによってダウンサンプリング後の時間包絡の対数が計算される。次に、対数計算部25−1〜25−Nにより計算された対数の各時間サンプルについて、回帰係数計算部26−1〜26−Nにより各時間サンプルとその前後を含む複数の点(例えば前後2点の計5点)の時間サンプルの値から直線回帰係数Δ1,Δ2,・・・,ΔNがそれぞれ計算される。次に、回帰係数計算部26−1〜26−Nにより計算されたN個の回帰係数Δ1,Δ2,・・・,ΔNに対して、2乗平均計算部27により下記の計算によって2乗平均が求められる。
Figure 2007065285
ここで、Dは2乗平均、kはk=1,2,・・・,Nの整数である。
次に、2乗平均Dはアップサンプラ28によりM倍にアップサンプリングされることにより、ダウンサンプラ24−1〜24−Nでダウンサンプリングされる前のサンプリング周波数とされる。次に、アップサンプリング後の2乗平均Dは閾値処理部29に入力され、予め定められた閾値と比較されることにより、Dが閾値より小さい箇所が母音部などの定常部として検出される。閾値処理部29の出力信号は、例えば定常部で“1”、非定常部で“0”となるような二値信号からなる定常部検出信号であり、出力端子30から出力される。
図4に示した定常部検出部については、以下のように種々変形を加えることが可能である。
(1)帯域通過フィルタ21−1〜21−Nからなるフィルタバンクを省略し、これに伴い時間包絡抽出部、低域通過フィルタ、ダウンサンプラ、対数計算部及び回帰係数計算部についてはそれぞれ1個とする。すなわち、フィルタバンクによる帯域分割を行わず、全帯域について時間包絡抽出から回帰係数計算までの処理を行う。
(2)フィルタバンクによる帯域分割を行うが、時間包絡抽出部、低域通過フィルタ、ダウンサンプラ、対数計算部及び回帰係数計算部についてはそれぞれ1個とする。
(3)上記(2)の変形で、時間包絡抽出部については各帯域毎に設ける。
(4)上記(2)の変形で、回帰係数計算部については各帯域毎に設ける。
(5)図4では回帰係数の2乗平均を求めたが、これに限られるものではなく、他の方法で回帰係数を平均してもよい。
次に、図3に示す定常部検出部について説明する。入力端子20からのディジタル化された音声信号は、まず窓掛け処理部31に入力され、予め設定された時間長、例えば20msのハニング窓あるいはハミング窓による窓掛け処理が行われる。すなわち、窓掛け処理部31では後述するケプストラム係数を用いて母音の定常部が検出されるように、ディジタル化された音声信号が例えば10ms(50%)の時間長だけ互いにオーバラップした20msの時間長の複数のフレームに切り出され、この後同じ20msの幅を持つハニング窓あるいはハミング窓による窓掛け処理が行われる。
窓掛け処理部31から出力される各フレームの音声信号は高速フーリエ変換(FFT)部32に入力され、FFTが施される。高速フーリエ変換部32の出力信号から、対数スペクトル計算部33によって各フレームの音声信号の対数スペクトルが計算される。対数スペクトル計算部33では、具体的には高速フーリエ変換部32の出力信号について、パワースペクトルを得るために絶対値をとってから2乗計算を行い、この後10を底とする(常用)対数の10倍を計算してdB(デシベル)に単位を変換して、出力の対数スペクトルとする。
次に、対数スペクトル計算部33によって計算された対数スペクトルに対して、逆高速フーリエ変換(IFFT)部34によってIFFTが施されることにより、ケプストラム係数が生成される。生成されたケプストラム係数のうち、低い次元の係数が音声信号のスペクトル包絡を表す。そこで、ケプストラム係数に対しリフタリングを施すことにより、スペクトル包絡を表す例えば30次までのケプストラム係数を残して出力する。
次に、逆フーリエ変換部34により生成されリフタリングされた例えば30次までの各ケプストラム係数が回帰係数計算部35−1〜35−N(この場合、N=30とする)に入力され、各ケプストラム係数の時間軌跡に対して例えば前後2点、計5点の回帰係数がサンプル毎に最小二乗法により計算される。他の例として、各ケプストラム係数の時間軌跡に対し前後3点、計7点の回帰係数をサンプル毎に計算してもよい。
次に、回帰係数計算部35−1〜35−Nにより計算された回帰係数である30個のデルタ係数の2乗平均Dが2乗平均計算部37により計算される。2乗平均Dは、音声信号のスペクトル遷移を示すパラメータであり、フレーム毎に一つずつ得られる。次に、2乗平均Dは閾値処理部38に入力され、予め定められた閾値と比較されることにより、Dが閾値より小さい箇所が母音部などの定常部として検出される。ここでは回帰係数の2乗平均を求めたが、これに限られるものではなく、他の方法で回帰係数を平均してもよい。閾値処理部38の出力信号は、例えば定常部で“1”、非定常部で“0”となるような二値信号からなる定常部検出信号であり、出力端子30から出力される。
定常部の検出手法は上述した例に限られず、例えば(a)隣り合うフレームのスペクトル形状や自己相関関数の形状が似ていれば、それを定常部とみなす方法、(b)定常部を母音にまで拡大して考え、純粋に信号のパワーが大きくなったところを定常部とみなす方法など、他の種々の方法を用いることができる。 次に、本実施形態の効果について説明する。本実施形態によると、図2または図3に示したように定常部検出部12によって検出される音声信号の定常部内に零系列挿入部13により零系列を挿入することで、残響環境下におけるオーバラップマスキングを劇的に軽減し、音声の明瞭性を効果的に向上させることができる。すなわち、零系列の挿入により音声の定常部の音節同士を時間的に離し、前の音節からのオーバラップマスキングの量を減らすことで、残響環境下における音声の明瞭性が向上する。
零系列挿入部13によって定常部に挿入される零系列長Tzは変数であり、以下の実験ではTz=50ms,100msとした。定常部に零系列を挿入する際、波形に不連続性が生じる可能性があるが、波形を切り離す際に例えばテーパを掛けるなどの末端処理を施すことによって、そのような不連続は容易に防ぐことができる。
定常部への零系列挿入を行った場合とそうでない場合とで、室内における音声の明瞭性がどう変化するかを比較した。零系列長Tzとして、50msと100msを試した。聞き取り試験は、残響時間を電気的に変えられる電気残響システムを備えたホールで行った。この電気音響システムを使うとホール内にいる同じ被験者に対して、1回の実験の中で様々な室内の残響特性を模擬することができる。
図6(a)(b)は原音声信号、すなわち本実施形態による処理を行う前の音声信号(図2または図3における入力端子11に入力される音声信号)の無残響環境下及び残響環境下での時間波形を示している。残響によって前の音節の尾側が次の音節の先頭側に被り、音声の明瞭性の低が予想される。
一方、図7(a)(b)は零系列長Tz=50msとして本実施形態による処理を行った後の音声信号の無残響環境下及び残響環境下での時間波形を示している。同様に、図8(a)(b)は零系列長Tz=100msとして本実施形態による処理を行った後の音声信号の無残響環境下及び残響環境下での時間波形を示している。
このように本実施形態による処理を行った後の音声信号では、残響時間の長い環境下でも音節間の区切りがはっきりすることにより、音声の明瞭性が向上することが分かる。この音声の明瞭性向上の効果は、以下の聴取実験によっても確認された。
残響時間の異なる2つの残響環境による聴取実験を行い、正答率を調べた結果を表1に示す。2種類の零系列長Tz(50ms,100ms)と、2種類の残響環境(残響時間2.9s,3.3s)との全ての組み合わせにおいて、それぞれの組み合わせを1セッションとして実験刺激を準備し、全部で4セッションの実験を行った。
Figure 2007065285
実験に用いた音声サンプルは日本語の14単音節であり、それぞれの単音節はキャリア文の中に埋め込まれ、実験で用いられた。4セッションからなる実験に、31名の若い健聴者が参加した。各セッションにおいて被験者はキャリア文に埋め込まれた単音節が何か、書き取るように指示された。1セッションには28の刺激文が存在した(14単音節×処理の有無2種類)。刺激文はランダムに提示され、提示は各刺激文につき1度だけであった。各刺激の提示後、次の刺激の提示までには回答のための短い時間間隔を空けた。
表1に示されるように、各組の差は統計的に有意であった(*: p<0.05, **: p<0.01)。表1から、残響時間が2秒以上と比較的長い場合においても、本実施形態の処理を行うことにより音声の明瞭性の低下が避けられることを確認した。表1は、零系列長Tzが長いほど音声の明瞭性の改善幅が大きいことを示していると同時に、残響時間が長いほど音声の明瞭性の改善には長いTzが必要なことも示している。
以上述べたように、本実施形態によれば残響時間が長い環境下においても音声の明瞭性の低下を防ぐことができる。このように音声信号の定常部に零系列を挿入する手法が音声の明瞭性を改善させる理由は、音声の明瞭性と強い相関がある音声の変調スペクトルを見ることによって説明することができる。
上記の説明では、零系列長Tzを50msまたは100msのように半固定としたが、図3に示した実施形態で説明したように母音長Tvまたは定常部長Tsに比例するように変化させてもよい。すなわち、Tz=a・TvまたはTz=a・Tsとして短い母音の定常部には時間的に短い零系列を挿入し、長い母音の定常部には時間的に長い零系列を挿入する。これによって自然性の劣化を抑え、より効果的に音声の明瞭性を向上する効果が期待できる。なお、比例定数aについては固定値としてもよいが、変数としてもよい。
(第3の実施形態)
図9は、本発明の第3の実施形態に係る音声信号処理装置であり、入力端子41に入力される音声信号は、時間軸伸長部42によって時間軸が伸長された後、定常部検出部43と乗算器45の一方の入力端子に入力される。定常部検出部43は、例えば図4あるいは図5に示した通りである。図4または図5の出力端子30から出力される定常部検出信号は、定常部抑圧関数計算部44に入力される。定常部抑圧関数計算部44では、例えば定常部抑圧検出信号の“1”(定常部)に対応してα(0≦α<1)をとり、定常部抑圧検出信号の“0”(非定常部)に対応して1をとるような二値信号からなる関数(定常部抑圧関数という)の信号を発生する。なお、図9中に示した例ではα=0.4としているが、0≦α<1の値であれば何でもよい。この定常部抑圧関数の信号は、乗算器45の他方の入力端子に入力される。乗算器45では、時間軸伸長部42から出力される音声信号に定常部抑圧関数の信号を乗じることにより、定常部の振幅を抑圧した音声信号を出力端子46へ出力する。
前述したように、残響時間の環境下ではゆっくりと発話した方が音声の明瞭性が上がることは経験的によく知られている。しかし、単に発話速度を見かけ上遅くするような時間軸伸張処理を音声信号に施しただけでは、オーバラップマスキングを軽減するという観点からすると効果的でない。これに対し、本実施形態では時間軸伸長処理の後に定常部を検出して定常部の振幅を抑圧することにより、残響時間の長い残響環境下でもオーバラップマスキングを効果的に軽減して、音声の明瞭性を向上させることができる。
以上説明した本発明の実施形態に基づく音声信号処理は、DSP(ディジタル信号プロセッサ)のようなハードウェアで実現可能であるが、パーソナルコンピュータのようなコンピュータを用いてソフトウェアにより実行することも可能である。従って、本発明によれば以下に挙げるようなプログラム、あるいは当該プログラムを格納したコンピュータ読み取り可能な記憶媒体を提供することができる。
(1)入力された音声信号に対してスピーカから音声が出力される前に施すべき音声信号処理をコンピュータに行わせるプログラムであって、前記音声信号の定常部を検出する処理と、検出された定常部内に零系列を挿入する処理とを含む音声信号処理をコンピュータに行わせる音声信号処理プログラム、あるいは当該プログラムを格納したコンピュータ読み取り可能な記憶媒体。
(2)入力された音声信号に対してスピーカから音声が出力される前に施すべき音声信号処理をコンピュータに行わせるプログラムであって、前記音声信号の時間軸を伸長する処理と、時間軸伸長後の音声信号の定常部を検出する処理と、検出された定常部の振幅を抑圧する処理とを含む音声信号処理をコンピュータに行わせる音声信号処理プログラム、あるいは当該プログラムを格納したコンピュータ読み取り可能な記憶媒体。
本発明の一実施形態に係る音声信号処理装置を用いた音声拡声システムの概念図 図1中の音声信号処理装置の第1の実施形態を示すブロック図 図1中の音声信号処理装置の第2の実施形態を示すブロック図 音声信号処理装置に含まれる定常部検出部の第1の具体例を示すブロック図 音声信号処理装置に含まれる定常部検出部の第2の具体例を示すブロック図 本発明の実施形態に従う処理を行う前の音声信号の無残響環境下及び残響環境下での時間波形を示す図 零系列長Tz=50msとして本実施形態に従う処理を行った後の音声信号の無残響環境下及び残響環境下での時間波形を示す図 零系列長Tz=100msとして本実施形態による処理を行った後の音声信号の無残響環境下及び残響環境下での時間波形を示す図 図1中の音声信号処理装置の第3の実施形態を示すブロック図
符号の説明
11・・・音声信号入力端子
12・・・定常部検出部
13・・・零系列挿入部
14・・・母音長測定部
15・・・零系列長設定部
16・・・音声信号出力端子
20・・・音声信号入力端子
21−1〜21−N・・・帯域通過フィルタ
22−1〜22−N・・・時間包絡抽出部
23−1〜23−N・・・低域通過フィルタ
24−1〜24−N・・・ダウンサンプラ
25−1〜25−N・・・対数計算部
26−1〜26−N・・・回帰係数計算部
27・・・2乗平均計算部
28・・・アップサンプラ
29・・・閾値処理部
30・・・定常部検出信号出力端子
31・・・窓掛け処理部
32・・・高速フーリエ変換部
33・・・対数スペクトル計算部
34・・・逆高速フーリエ変換部
35−1〜35−N・・・回帰係数計算部
36・・・2乗平均計算部
37・・・閾値処理部
41・・・音声信号入力端子
42・・・時間軸伸長部
43・・・定常部検出部
44・・・定常部抑圧関数計算部
45・・・乗算器
46・・・音声信号出力端子

Claims (11)

  1. 入力される音声信号に対してスピーカから音声が出力される前に処理を施す音声信号処理方法において、
    前記音声信号の定常部を検出するステップと、
    検出された定常部内に零系列を挿入するステップとを具備することを特徴とする音声信号処理方法。
  2. 入力される音声信号に対してスピーカから音声が出力される前に処理を施す音声信号処理装置において、
    前記音声信号の定常部を検出する定常部検出部と、
    検出された定常部内に零系列を挿入する零系列挿入部とを具備することを特徴とする音声信号処理装置。
  3. 前記音声信号の母音部の時間長を測定する母音長測定部と、
    測定された母音部の時間長に応じて前記零系列の時間長を設定する母音長設定部とをさらに具備することを特徴とする請求項2記載の音声信号処理装置。
  4. 入力される音声信号に対してスピーカから音声が出力される前に処理を施す音声信号処理方法において、
    前記音声信号の時間軸を伸長するステップと、
    時間軸伸長後の音声信号の定常部を検出するステップと、
    検出された定常部の振幅を抑圧するステップとを具備することを特徴とする音声信号処理方法。
  5. 入力される音声信号に対してスピーカから音声が出力される前に処理を施す音声信号処理装置において、
    前記音声信号の時間軸を伸長する時間軸伸長部と、
    時間軸伸長後の音声信号の定常部を検出する定常部検出部と、
    検出された定常部の振幅を抑圧する定常部抑圧部とを具備することを特徴とする音声信号処理装置。
  6. 前記定常部検出部は、前記入力される音声信号から時間包絡を抽出する時間包絡抽出部と、前記時間包絡の対数の各時間サンプルについて当該時間サンプルを含む前後複数の時間サンプルの値から回帰係数を計算する回帰係数計算部と、前記回帰係数の平均を計算する平均計算部と、前記平均について閾値処理を行うことにより前記定常部を求める閾値処理部とを有することを特徴とする請求項2または5のいずれか1項記載の音声信号処理装置。
  7. 前記定常部検出部は、前記入力される音声信号から時間包絡を抽出する時間包絡抽出部と、前記時間包絡を平滑化する平滑フィルタと、平滑化された時間包絡をダウンサンプリングするダウンサンプラと、ダウンサンプリングされた時間包絡の対数を計算する対数計算部と、前記対数の各時間サンプルについて当該時間サンプルを含む前後複数の時間サンプルの値から回帰係数を計算する回帰係数計算部と、前記回帰係数の平均を計算する平均計算部と、前記平均をアップサンプリングするアップサンプラと、アップサンプリングされた平均について閾値処理を行うことにより前記定常部を求める閾値処理部とを有することを特徴とする請求項2または5のいずれか1項記載の音声信号処理装置。
  8. 前記定常部検出部は、前記入力される音声信号を複数の帯域に分割するフィルタバンクをさらに含み、前記時間包絡抽出部は分割された各帯域の音声信号から時間包絡を抽出する請求項6または7のいずれか1項記載の音声信号処理装置。
  9. 前記定常部検出部は、前記入力される音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する窓掛け処理部と、分割された各フレームの音声信号にフーリエ変換を施すフーリエ変換部と、前記フーリエ変換部からの出力信号に基づき対数スペクトルを計算する対数スペクトル計算部と、前記対数スペクトルに対して逆フーリエ変換を施すことによりケプストラム係数を生成するケプストラム係数計算部と、前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する回帰係数計算部と、前記回帰係数の平均を計算する平均計算部と、前記平均について閾値処理を行うことにより前記音声信号の定常部を求める閾値処理部とを有することを特徴とする請求項2または5のいずれか1項記載の音声信号処理装置。
  10. 入力された音声信号に対してスピーカから音声が出力される前に施すべき音声信号処理をコンピュータに行わせるプログラムであって、
    前記音声信号の定常部を検出する処理と、検出された定常部内に零系列を挿入する処理とを含む音声信号処理をコンピュータに行わせる音声信号処理プログラム。
  11. 入力された音声信号に対してスピーカから音声が出力される前に施すべき音声信号処理をコンピュータに行わせるプログラムであって、
    前記音声信号の時間軸を伸長する処理と、時間軸伸長後の音声信号の定常部を検出する処理と、検出された定常部の振幅を抑圧する処理とを含む音声信号処理をコンピュータに行わせる音声信号処理プログラム。
JP2005251233A 2005-08-31 2005-08-31 音声信号処理方法、装置及びプログラム Active JP4774255B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005251233A JP4774255B2 (ja) 2005-08-31 2005-08-31 音声信号処理方法、装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005251233A JP4774255B2 (ja) 2005-08-31 2005-08-31 音声信号処理方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007065285A true JP2007065285A (ja) 2007-03-15
JP4774255B2 JP4774255B2 (ja) 2011-09-14

Family

ID=37927568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005251233A Active JP4774255B2 (ja) 2005-08-31 2005-08-31 音声信号処理方法、装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4774255B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011082708A (ja) * 2009-10-05 2011-04-21 Panasonic Electric Works Co Ltd パケット挿入削除方法及び通話システム
JP2012242468A (ja) * 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> 擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラム
JP2013186428A (ja) * 2012-03-09 2013-09-19 Chiba Inst Of Technology 音声合成装置
JP2017187746A (ja) * 2016-04-04 2017-10-12 株式会社東芝 音声処理システムおよび音声処理方法
JP2017223930A (ja) * 2016-06-17 2017-12-21 株式会社東芝 音声処理システムおよび音声処理方法
CN114299977A (zh) * 2021-11-30 2022-04-08 北京百度网讯科技有限公司 混响语音的处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5879400A (ja) * 1981-11-06 1983-05-13 Gen Eng:Kk 補聴器
JPH1097267A (ja) * 1996-09-24 1998-04-14 Hitachi Ltd 声質変換方法および装置
JP2005202335A (ja) * 2004-01-19 2005-07-28 Takayuki Arai 音声処理方法と装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5879400A (ja) * 1981-11-06 1983-05-13 Gen Eng:Kk 補聴器
JPH1097267A (ja) * 1996-09-24 1998-04-14 Hitachi Ltd 声質変換方法および装置
JP2005202335A (ja) * 2004-01-19 2005-07-28 Takayuki Arai 音声処理方法と装置及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011082708A (ja) * 2009-10-05 2011-04-21 Panasonic Electric Works Co Ltd パケット挿入削除方法及び通話システム
JP2012242468A (ja) * 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> 擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラム
JP2013186428A (ja) * 2012-03-09 2013-09-19 Chiba Inst Of Technology 音声合成装置
JP2017187746A (ja) * 2016-04-04 2017-10-12 株式会社東芝 音声処理システムおよび音声処理方法
JP2017223930A (ja) * 2016-06-17 2017-12-21 株式会社東芝 音声処理システムおよび音声処理方法
CN114299977A (zh) * 2021-11-30 2022-04-08 北京百度网讯科技有限公司 混响语音的处理方法、装置、电子设备及存储介质
CN114299977B (zh) * 2021-11-30 2022-11-25 北京百度网讯科技有限公司 混响语音的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP4774255B2 (ja) 2011-09-14

Similar Documents

Publication Publication Date Title
US9591410B2 (en) Hearing assistance apparatus
EP2064699B1 (en) Method and apparatus for extracting and changing the reverberant content of an input signal
Moore Temporal integration and context effects in hearing
Stone et al. Quantifying the effects of fast-acting compression on the envelope of speech
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
JP4774255B2 (ja) 音声信号処理方法、装置及びプログラム
Yoo et al. Speech signal modification to increase intelligibility in noisy environments
Koning et al. The potential of onset enhancement for increased speech intelligibility in auditory prostheses
US10176824B2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
Kusumoto et al. Modulation enhancement of speech by a pre-processing algorithm for improving intelligibility in reverberant environments
JP6177480B1 (ja) 音声強調装置、音声強調方法、及び音声処理プログラム
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
JP2010091897A (ja) 音声信号強調装置
JP3411648B2 (ja) 車載用オーディオ装置
Desloge et al. Masking release for hearing-impaired listeners: The effect of increased audibility through reduction of amplitude variability
Li et al. Factors affecting masking release in cochlear-implant vocoded speech
JP2008102551A (ja) 音声信号の処理装置およびその処理方法
JP2001100774A (ja) 音声処理装置
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
Kociński et al. Time-compressed speech intelligibility in different reverberant conditions
KR101682796B1 (ko) 소음 환경에서 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법 및 이를 기록한 기록매체
JP3303446B2 (ja) 音声信号処理装置
JP2005202335A (ja) 音声処理方法と装置及びプログラム
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech
WO2013018092A1 (en) Method and system for speech processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110614

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110627

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4774255

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250