JP4219898B2 - 音声強調装置 - Google Patents
音声強調装置 Download PDFInfo
- Publication number
- JP4219898B2 JP4219898B2 JP2004547997A JP2004547997A JP4219898B2 JP 4219898 B2 JP4219898 B2 JP 4219898B2 JP 2004547997 A JP2004547997 A JP 2004547997A JP 2004547997 A JP2004547997 A JP 2004547997A JP 4219898 B2 JP4219898 B2 JP 4219898B2
- Authority
- JP
- Japan
- Prior art keywords
- amplification factor
- unit
- spectrum
- formant
- vocal tract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001228 spectrum Methods 0.000 claims description 168
- 230000003321 amplification Effects 0.000 claims description 110
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 110
- 230000001755 vocal effect Effects 0.000 claims description 95
- 238000004364 calculation method Methods 0.000 claims description 79
- 230000015572 biosynthetic process Effects 0.000 claims description 45
- 238000003786 synthesis reaction Methods 0.000 claims description 45
- 238000005311 autocorrelation function Methods 0.000 claims description 37
- 238000000926 separation method Methods 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 2
- 238000000034 method Methods 0.000 description 40
- 238000010586 diagram Methods 0.000 description 38
- 230000008569 process Effects 0.000 description 9
- 238000007796 conventional method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000035807 sensation Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
- Electrophonic Musical Instruments (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
雑音環境下での受話音声を聞きやすくする最も簡単な方法は、雑音レベルに応じて受話音量を大きくすることである。ところが、受話音量を大きくし過ぎると、携帯電話のスピーカへの入力が過大になり音声が歪んでしまい、かえって音質が劣化する場合がある。また、受話音量を大きくすると聴取者(ユーザ)の聴覚への負担が大きくなり健康上好ましくないという問題もある。
一般に、周囲雑音が大きくなると音声の明瞭度が不足して聞き取りにくくなる。そこで、音声の高域成分を一定の割合で増幅することにより明瞭度を改善する方法が考えられる。ところが、この方法では音声の高域成分だけでなく、受話音声に含まれる雑音(送話側の雑音)成分も同時に強調してしまうため音質が劣化するという問題がある。
ここで、一般に音声の周波数スペクトルには、ピークが存在し、これをホルマントと呼んでいる。図1に音声の周波数スペクトルの例を示す。図1はスペクトルに3つのピーク(ホルマント)が存在する場合を示している。周波数の低い方から順に第1ホルマント、第2ホルマント、第3ホルマントと呼び、各ホルマントのピーク周波数fp(1),fp(2),fp(3)をホルマント周波数と呼ぶ。
一般に、音声のスペクトルは周波数が高くなるにつれて振幅(電力)が小さくなる性質がある。更に、音声の明瞭度はホルマントと密接な関係があり、高次の(第2、第3の)ホルマントを強調することにより音声の明瞭度を改善できることが知られている。
図2にスペクトル強調の例を示す。図2(a)の実線及び図2(b)の点線は強調する前の音声スペクトルを表す。また、図2(b)の実線は強調後の音声スペクトルを表す。図2(b)では、高次ホルマントの振幅を大きくすることによりスペクトル全体の傾きが平坦になっており、これにより音声全体の明瞭度を改善することできる。
かかる高次のホルマントを強調することにより明瞭度を改善する方法として、帯域分割フィルタを用いる方法(日本特許出願 公開平4−328798号公報)が知られている。この帯域フィルタを用いる方法では、帯域分割フィルタにより音声を複数の周波数帯域に分割し、各周波数帯域を個別に増幅・減衰させる方法である。ところが、この方法では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がないため、ホルマント以外の成分をも強調してしまい、逆に明瞭度が劣化する恐れがある。
さらに、上記の帯域フィルタを用いる従来方法における問題点を解決する方法として、音声スペクトルの凸部と凹部を増幅・減衰する方法(日本特許出願 公開2000−117573号公報)がある。図3にこの従来技術のブロック図を示す。この方法では、入力音声のスペクトルをスペクトル推定部100により求め、求めたスペクトルから凸部帯域(山)と凹部帯域(谷)決定部101により、凸部帯域と凹部帯域を求め、凸部帯域と凹部帯域に対する増幅率(又は減衰率)を算出する。
次に、フィルタ構成部102により前記増幅率(又は減衰率)を実現する係数をフィルタ部103に与え、入力音声を前記フィルタ部103に入力することによりスペクトル強調を実現する。
つまり、帯域フィルタを用いる従来方法では、音声スペクトルの山と谷を個別に増幅・減衰することにより音声強調を実現している。
上記の従来技術において、音量を大きくする方法では、音量を大きくするとスピーカへの入力が過大となり再生音が歪む場合がある。また、受話音量を大きくすると、聴取者(ユーザ)の聴覚への負担が増し健康上好ましくない。
また、高域強調フィルタを用いる従来方法において、単なる高域強調では、音声以外の雑音の高域が強調されるため雑音感が増すため、必ずしも明瞭度の改善には結びつかない。
さらに、帯域分割フィルタを用いる従来方法では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がない。したがって、ホルマント以外の成分を強調してしまい、逆に明瞭度が劣化する場合がある。また、入力音声を音源特性と声道特性に分離せずに増幅するため、音源特性の歪が大きくなるという問題がある。
図4に音声の生成モデルを示す。音声の生成過程は、音源(声帯)110で発生された音源信号が調音系(声道)111に入力され、声道111において声道特性が付加された後、最終的に唇112から音声波形となって出力される(「音声の高能率符号化」、69頁〜71頁、中田和男著、森北出版 参照)。
ここで、音源特性と声道特性は全く異なった特性であるが、上記の帯域分割フィルタを用いる従来技術では音声を音源特性と声道特性とに分離せずに音声を直接増幅する。このため、音源特性の歪みが大きくなり雑音感が増し明瞭度が劣化するという問題がある。図5、図6に例を示す。図5は強調処理をする前の入力音声スペクトルである。また、図6は帯域分割フィルタを用いる方法で図5の入力音声を強調処理した時のスペクトルである。図6において、2kHz以上の高域成分についてはスペクトルの概形を保ちつつ振幅が増幅されている。ところが、500Hz〜2kHzの部分(図6中、丸で囲った部分)については、強調前の図5のスペクトルと大きく異なり、音源特性が崩れていることが判る。
このように、帯域分割フィルタを用いる従来方法では、音源特性の歪が大きくなり音質が劣化する恐れがある。
また、上記のスペクトルの凸部・凹部を増幅する方法においては、次のような問題点が存在する。
第1に上記の帯域分割フィルタを用いる従来方法と同様に、音声を音源特性と声道特性とに分離せずに音声自体を直接強調するため、音源特性の歪みが大きくなり雑音感が増し、明瞭度が劣化するという問題がある。
第2に、音声信号(入力信号)から求めたLPC(線形予測係数)スペクトル又はFFT(周波数フーリエ変換)スペトルに対して直接ホルマント強調を行う。このため、入力音声をフレーム毎に処理する場合には、フレーム間で強調の度合い(増幅率・減衰率)が変化する。したがって、フレーム間での増幅率・減衰率が急激に変化すると、スペクトルの変動により雑音感が増すという問題がある。
かかる現象を鳥瞰スペクトル図で説明する。図7に入力音声(強調前)のスペクトルを示す。また、図8にフレーム単位でスペクトルを強調した時の音声スペクトルを示す。特に、図7及び図8は、時間的に連続するフレームの音声スペクトルを並べて表示したものである。図7、図8より、高次ホルマントが強調されていることがわかる。ただし、図8の0.95秒前後および1.03秒前後において、強調後のスペクトルに不連続性が生じている。すなわち、図7の強調前スペクトルではホルマント周波数は滑らかに変化しているが、図8ではホルマントが不連続に変化している。このホルマントの不連続性は、実際に処理音声を聞いた時には雑音感として感知される。
第3に、上記の第2の問題点である、不連続性の問題を解決する方法として、フレーム長を大きくする方法が考えられる。フレーム長を長くすると時間的に変動の少ない平均的なスペクトル特性が得られる。ところが、フレーム長を長くすると遅延時間が大きくなるという問題がある。携帯電話などの通信用途では、遅延時間はできるだけ小さくする必要がある。したがって、通信用途ではフレーム長を大きくする方法は望ましくない。
発明の概要
本発明の目的は、以上のような従来の技術における問題点に鑑みて考案されたものであり、音声の明瞭度を高めて聞き易くする音声強調方法及びこれを適用するに音声強調装置を提供することにある。
かかる本発明の目的を達成する音声強調装置は、第1の態様として、入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力することを特徴とする。
本発明の上記目的を達成する音声強調装置は、第2の態様として、現フレームの入力音声から自己相関関数を求める自己相関算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から逆フィルタ係数を算出する第1のフィルタ係数算出部と、前記逆フィルタ係数により構成される逆フィルタと、前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、前記算出された周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、前記算出された周波数スペクトル、前記推定された前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、前記増幅率に基づいて前記算出された周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、前記変化された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、前記合成フィルタ係数から構成される合成フィルタを有し、前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、第3の態様として、現フレームの入力音声信号を線形予測係数を分析して自己相関関数と線形予測係数を求める線形予測係数分析部と、前記係数により構成される逆フィルタと、前記線形予測係数から周波数スペクトルを求める第1のスペクトル算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と過去フレームの自己相関関数の加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から平均フィルタ係数を算出する第1のフィルタ係数算出部と、前記平均フィルタ係数から平均周波数スペクトルを求める第2のスペクトル算出部と、前記平均スペクトルからホルマント周波数とホルマント振幅を求めるホルマント推定部と、前記平均スペクトル、前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、前記増幅率に基づいて前記第1のスペクトル算出部で算出された周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、前記変化された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、前記合成フィルタ係数から構成される合成フィルタを有し、前記入力信号を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、第4の態様として、現フレームの入力音声から自己相関関数を求める自己相関算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から逆フィルタ係数を算出する第1のフィルタ係数算出部と、前記逆フィルタ係数により構成される逆フィルタと、前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、前記周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、前記周波数スペクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、前記仮増幅率と前フレームの増幅率との差分増幅率を算出する差分算出部と、前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有し、前記現フレームの増幅率に基づいて前記周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、前記変化された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、前記合成フィルタ係数から構成される合成フィルタと、残差信号からピッチ強調係数を算出するピッチ強調係数算出部と、前記ピッチ強調係数により構成されるピッチ強調フィルタを有し、前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記ピッチ強調フィルタに入力してピッチ周期性が強調された残差信号を求め、前強調された記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、第5の態様として、入力音声信号の一部の周波数帯域を強調する強調フィルタと、前記強調フィルタにより強調された入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力することを特徴とする。
本発明の上記目的を達成する音声強調装置は、第6の態様として、入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成部と、前記信号合成手段合成信号の一部の周波数帯域を強調するフィルタとを有することを特徴とする。
本発明の更なる特徴は、以下に図面に従い説明される発明の実施の形態例から更に明らかになる。
図2は、強調前及び強調後の音声の周波数スペクトルの例を示す図である。
図3は、日本特許出願 公開2000−117573号公報に記載の従来技術のブロック図を示す。
図4は、音声の生成モデルを示す図である。
図5は、入力音声のスペクトルの例を示す図である。
図6は、フレーム単位で強調した時のスペクトルの例を示す図である。
図7は、入力音声(強調前)のスペクトルを示す図である。
図8は、フレーム単位でスペクトルを強調した時の音声スペクトルを示す図である。
図9は、本発明の原理図を示す図である。
図10は、本発明の第1の実施例構成ブロックを示す図である。
図11は、図10の実施例における増幅率算出部6の処理を示すフロー図である。
図12は、図10の実施例におけるホルマントF(k)の振幅を基準電力Pow_refに合わせるときの様子を示す図である。
図13は、ホルマント間の周波数における増幅率β(l)を補間曲線R(k,l)により求めることを説明する図である。
図14は、本発明の第2の実施例構成ブロックを示す図である。
図15は、本発明の第3の実施例構成ブロックを示す図である。
図16は、本発明の第4の実施例構成ブロックを示す図である。
図17は、本発明の第5の実施例構成ブロックを示す図である。
図18は、本発明の第6の実施例構成ブロックを示す図である。
図19は、本発明により強調されたスペクトルを示す図である。
図20は、本発明の更にフレーム間で増幅率が大きく変動すると雑音感が増すという問題を解決する原理構成図である。
図21は、本発明の更にフレーム間で増幅率が大きく変動すると雑音感が増すという問題を解決する別の原理構成図である。
図22は、図20の原理図に従う本発明の実施例構成ブロックを示す図である。
図9は、本発明の原理を示す図であり、本発明は、分離部20により入力音声を音源特性と声道特性とに分離し、音源特性と声道特性を個別に強調し、その後合成部21で合成して出力することを特徴とする。図9における処理を以下に説明する。
時間軸領域において、所定のサンプリング周波数でサンプリングされた振幅値を有する入力音声信号x(n),(0<n<N),ここで、Nはフレーム長であり、かかる入力音声信号x(n)から分離部20の平均スペクトル算出部1により平均スペクトルsp1(l),(0<l<NF)を算出する。
このために、線形予測回路である平均スペクトル算出部1において、先ず現フレームの自己相関関数を算出する。次に、前記現フレームの自己相関関数と過去フレームの自己相関関数との加重平均により平均自己相関を求める。この前記平均自己相関から平均スペクトルsp1(l),(0<l<NF)を求める。また、NFはスペクトルのデータ点数であり、N<NFとする。尚、sp1(l)を現フレームの入力音声から算出されるLPCスペクトル又はFFTスペクトルと、過去の入力音声から算出されるLPCスペクトル又はFFTスペクトルとの加重平均として算出してもよい。
次に、スペクトルsp1(l)を分離部20内の第1のフィルタ係数算出部2に入力して逆フィルタ係数α1(i),(1<i<p1)を求める。ここで、p1は逆フィルタ3のフィルタ次数である。
入力音声x(n)を前記求められた逆フィルタ係数α1(i)で構成される分離部20内の逆フィルタ3に入力して残差信号r(n),(0<n<N)を求める。これにより入力音声を音源特性である残差信号r(n)と、声道特性であるスペクトルsp1(l)とに分離することができる。
残差信号r(n)は、ピッチ強調部4に入力され、そこでピッチ周期性が強調された残差信号s(n)が求められる。
一方、特徴抽出部としてのホルマント推定部5に声道特性であるスペクトルsp1(l)を入力し、ホルマント周波数fp(k),(1<k<kmax)およびホルマント振幅amp(k),(1<k<kmax)を推定する。ここで、kmaxは推定するホルマントの個数である。kmaxの値は任意であるが、サンプリング周波数が8kHzの音声に対してはkmax=4又は5とすることができる。
ついで、スペクトルsp1(l)とホルマント周波数fp(k)およびホルマント振幅amp(k)を増幅率算出部6に入力し、スペクトルsp1(l)のに対する増幅率β(l)を算出する。
スペクトルsp1(l)と増幅率β(l)をスペクトル強調部7へ入力し、強調されたスペクトルsp2(l)を求める。この強調されたスペクトルsp2(l)を、合成部21を構成する合成フィルタ9の係数を求める第2のフィルタ係数算出部8へ入力して合成フィルタ係数α2(i),(1<i<p2)を求める。ここで、p2は合成フィルタ9のフィルタ次数である。
上記のピッチ強調部4によるピッチ強調後の残差信号s(n)を合成フィルタ係数α2(i)により構成される合成フィルタ9へ入力し、出力音声y(n),(0<n<N)を求める。これにより、強調処理された音源特性と声道特性が合成される。
上記に説明した通り、本発明では入力音声を音源特性(残差信号)と声道特性(スペクトル包絡)とに分離するため、それぞれの特性に適した強調処理を行うことができる。すなわち、音源特性に対してはピッチ周期性を強調し、声道特性に対してはホルマントを強調することにより音声の明瞭度を改善できる。
また、声道特性として音声の長時間特性を用いることにより、フレーム間での増幅率の急激な変化が軽減されるため、雑音感の少ない良好な音質を実現できる。特に、現フレームの入力信号から算出した自己相関と、過去フレームの入力信号から算出した自己相関関数との加重平均を用いることにより、遅延時間を増加させることなく時間変動の少ない平均的なスペクトル特性を得ることができる。このため、スペクトル強調に用いる増幅率の急激な変化が抑えられ、音声強調による雑音感を抑えることができる。
次に、図9に示した本発明の原理を適用する実施例について、以下に説明する。
図10は、本発明に従う第1の実施例構成のブロック図である。
図において、図9の原理図との比較において、ピッチ強調部4が省略されている。
更に、分離部20の実施例構成として、分離部20内の平均スペクトル算出部1をフィルタ係数算出部2の前後に分割し、フィルタ係数算出部2の前段で、現フレームの入力音声信号x(n),(0<n<N)を自己相関算出部10に入力し、そこで現フレームの自己相関関数ac(m)(i),(0<i<p1)を式(1)により求める。ここで、Nはフレーム長である。また、mは現フレームのフレーム番号であり、p1は後述する逆フィルタ3の次数である。
更に、分離部20において、バッファ部11から直前のLフレームにおける自己相関関数ac(m−j)(i),(1<j<L,0<i<p1)が出力される。次に自己相関算出部10で求めた現フレームの自己相関関数ac(m)(i)と前記バッファ部11からの過去の自己相関とから、平均自己相関算出部12により平均自己相関acAVE(i)を求める。
ここで、平均自己相関acAVE(i)の求め方は任意であるが、例えば式(2)の加重平均を用いることができる。ここで、wjは重み係数である。
ここで、バッファ部11の状態更新を次のように行う。まず、バッファ部11内に格納されている過去の自己相関関数の中で時間的に最も古いac(m−L)(i)を廃棄する。次に、現フレームで算出したac(m)(i)をバッファ部11に格納する。
更に、分離部20において、平均自己相関算出部12により求めた平均自己相関acAVE(i)からレビンソン・アルゴリズム等の公知の方法により第1のフィルタ係数算出部2において、逆フィルタ係数α1(i),(1<i<p1)を求める。
入力音声x(n)は、フィルタ係数α1(i)で構成される逆フィルタ3に入力して音源特性として残差信号r(n),(0<n<N)を(3)式により求める。
一方、分離部20において、フィルタ係数算出部2の後段に置かれるスペクトル算出部1−2において、フィルタ係数算出部2で求められた係数α1(i)を下記の(4)式によりフーリエ変換して声道特性としてLPCスペクトルsp1(l)を求める。
ここで、NFはスペクトルのデータ点数である。サンプリング周波数をFsとすると、LPCスペクトルsp1(l)の周波数分解能はFs/NFとなる。変数lはスペクトルのインデックスであり離散周波数を表す。lを周波数[Hz]に換算するとint[l・Fs/NF][Hz]となる。また、int[x]は変数xを整数化することを意味する(以下の説明においても同様である)。
上記の通り、分離部20により入力音声を音源信号(残差信号r(n),(0<n<N))と声道特性(LPCスペクトルsp1(l))とに分離することができる。
ついで、図9において説明したように、特徴抽出部の一例としてホルマント推定部5にスペクトルsp1(l)を入力し、ホルマント周波数fp(k),(1<k<kmax)およびホルマント振幅amp(k),(1<k<kmax)を推定する。ここで、kmaxは推定するホルマントの個数である。kmaxの値は任意であるが、サンプリング周波数が8kHzの音声に対してはkmax=4又は5とすることができる。
ホルマント推定の方法としては、逆フィルタ係数α1(i)を係数とする高次方程式の根から求める方法や、周波数スペクトルのピークからホルマントを推定するピークピッキング法などの公知の方法を用いることができる。ホルマント周波数の低い方から順にfp(1),fp(2),K,fp(kmax)とする。尚、ホルマントのバンド幅に閾値を設け、バンド幅が閾値以下となる周波数だけをホルマント周波数としてもよい。
更に、ホルマント推定部5において、ホルマント周波数fp(k)を離散ホルマント周波数fpl(k)=int[fp(k)・NF/Fs]に変換する。また、スペクトルsp1(fpl(k))をホルマント振幅amp(k)とする。
かかるスペクトルsp1(l)と離散ホルマント周波数fpl(k)およびホルマント振幅amp(k)を増幅率算出部6に入力し、スペクトルsp1(l)に対する増幅率β(l)を算出する。
増幅率算出部6の処理は、図11の処理フローに示すように基準電力の算出(処理工程P1)、ホルマント増幅率の算出(処理工程P2)、及び増幅率の補間(処理工程P3)の順に処理を行う。以下、各処理について順に説明する。
処理工程P1:スペクトルsp1(l)から基準電力Pow_refを算出する。算出方法は任意であるが、例えば、全周波数帯域の平均電力や低域周波数の平均電力を基準電力として用いることができる。全周波数帯域の平均電力を基準電力として用いる場合、Pow_refは次式(5)で表される。
処理工程P2:ホルマントF(k)の振幅を基準電力Pow_refに合わせるための増幅率G(k)を次式(6)により求める。
図12にホルマントF(k)の振幅を基準電力Pow_refに合わせるときの様子が示されている。更に、図12において、ホルマント間の周波数における増幅率β(l)を補間曲線R(k,l)により求める。補間曲線R(k,l)の形状は任意であるが、例えば一次関数や二次関数などを用いることができる。図13に補間曲線R(k,l)として、二次曲線を用いた場合の例を示す。補間曲線R(k,l)を式(7)のように定義する。ここで、a,b,cは補間曲線の形状を決定するパラメータである。
図13に示すように、かかる補間曲線において隣り合うホルマントF(k)とF(k+1)の間に増幅率の極小点を設定する。ここで、極小点の設定方法は任意であるが、例えば周波数(fpl(k)+fpl(k+1))/2を極小点とし、その時の増幅率をγ・G(k)と設定することができる。ここで、γは定数であり、0<γ<1とする。
補間曲線R(k,l)がホルマントF(k)とF(k+1)及び極小点を通ると仮定すると式(8),(9),(10)が成り立つ。
式(8),(9),(10)を連立方程式として解くとパラメータa,b,cが求められ、補間曲線R(k,l)が決定される。ついで、補間曲線R(k,l)に基づいてF(k)とF(k+1)の間のスペクトルに対する増幅率β(l)を求める。
更に、上記の隣接のホルマント間の補間曲線R(k,l)を求めることと、隣接のホルマント間のスペクトルに対する増幅率β(l)を求める処理を全てのホルマントに対して行う。
尚、図12において、第1ホルマントF(1)よりも低い周波数については、第1ホルマントに対する増幅率G(1)を用いる。また、最高次のホルマントよりも高い周波数については、最高次のホルマントに対する増幅率G(kmax)を用いる。以上をまとめると式(11)のようになる。
図10に戻り説明すると、スペクトルsp1(l)と増幅率β(l)をスペクトル強調部7へ入力し、強調されたスペクトルsp2(l)を式(12)により求める。
ついで、強調されたスペクトルsp2(l)を第2のフィルタ係数算出部8へ入力する。第2のフィルタ係数算出部8では、強調されたスペクトルsp2(l)の逆フーリエ変換から自己相関関数ac2(i)を求め、ac2(i)からレビンソン・アルゴリズム等の公知の方法により合成フィルタ係数α2(i),(1<i<p2)を求める。ここで、p2は合成フィルタ次数である。
更に、逆フィルタ3の出力である残差信号r(n)を係数α2(i)により構成される合成フィルタ9へ入力し、式(13)に示すように出力音声y(n),(0<n<N)を求める。
以上説明の通り、図10の実施例では入力音声を音源特性と声道特性とに分離し、声道特性のみを強調することが可能である。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。また、図10の実施の形態例ではピッチ強調部4が省略されているが、図9に示す原理図に従い、ピッチ強調部4を逆フィルタ3の出力側に配置して、残差信号r(n)に対し、ピッチ強調処理を行うことも可能である。
尚、本実施例ではスペクトルsp1(l)に対する増幅率を1スペクトル点数単位で求めるが、スペクトルを複数の周波数帯域に分割し、各帯域別に個別の増幅率を持つようにしてもよい。
図14に本発明の第2の実施例の構成ブロック図を示す。本実施例は、現フレームの入力音声から求めたLPC係数を逆フィルタの係数とする点が、図10に示した第1の実施例と異なり、その他は第1の実施例と同じである。
一般に、現フレームの入力信号x(n)から残差信号r(n)を求める場合には、第1の実施例のように平均的な周波数特性を持ったLPC係数を使用する場合よりも、現フレームの入力信号から求めたLPC係数を逆フィルタ3の係数として用いた方が予測利得は高く、声道特性と音源特性を精度良く分離できる。
そこで、第2の実施例では、現フレームの入力音声をLPC分析部13により、LPC分析し、得られたLPC係数α1(i),(1<i<p1)を逆フィルタ3の係数として用いる。
LPC係数α1(i)から第2のスペクトル算出部1−2Bによりスペクトルsp1(l)を求める。スペクトルsp1(l)の算出方法は第1の実施例の式(4)と同じである。
次に第1のスペクトル算出部1−2Aにより平均スペクトルを求め、この平均スペクトルからホルマント推定部5において、ホルマント周波数fp(k)及びホルマント振幅amp(k)を求める。
次に、先の実施例と同様であり、スペクトルsp1(l)とホルマント周波数fp(k)及びホルマント振幅amp(k)から増幅率算出部6により増幅率β(l)を求め、この増幅率を元にスペクトル強調部7で、スペクトル強調を行い強調されたスペクトルsp2(l)を求める。強調されたスペクトルsp2(l)から合成フィルタ9に設定される合成フィルタ係数α2(i)を求め、残差信号r(n)をこの合成フィルタ9に入力して出力音声y(n)が得られる。
以上第2の実施例について説明した通り、本実施例においても先の実施例の構成と同様に、現フレームの声道特性と音源特性を精度よく分離し、平均スペクトルに基づいて声道特性を滑らかに強調処理することにより明瞭度を改善することができる。
次に、図15により本発明の第3の実施例を説明する。第3の実施例では、自動利得制御部(AGC部)14を設け、合成フィルタ9の合成出力y(n)の振幅を制御する点が第1の実施例と異なり、その他の構成は第1の実施例と同じである。
入力音声信号x(n)と最終的な出力音声信号z(n)の電力比が1となるようにAGC部14により利得の調整を行う。AGC部14として任意の方法が可能であるが、例えば以下のような方法を用いることができる。
まず、入力音声信号x(n)と合成出力y(n)から式(14)により振幅比g0を求める。ここで、Nはフレーム長である。
次式(15)により利得制御値Gain(n)を求める。ここで、λは定数である。
最終的な出力音声信号z(n)は次式(16)により求められる。
以上説明の通り、本実施例においても入力音声x(n)を音源特性と声道特性とに分離し、声道特性のみを強調することが可能である。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。
また、スペクトル強調によって出力音声の振幅が入力信号に比べて過度に大きくならないように利得調整することにより、滑らかで自然性の高い出力音声を得ることができる。
図16は、本発明の第4の実施例のブロック図を示す。本実施例は、図9の原理図に従い、逆フィルタ3の出力である残差信号r(n)に対してピッチ強調処理をする点が第1の実施例とは異なり、その他の構成は第1の実施例と同じである。
ピッチ強調フィルタ4によるピッチ強調の方法は任意であるが、例えばピッチ係数算出部4−1を設け、以下のような方法を用いることができる。
まず、現フレームの残差信号の自己相関rscor(i)を式(17)により求め、自己相関rscor(i)が最大となるピッチラグTを求める。ここで、Lagmin及びLagmaxはそれぞれ、ピッチラグの下限と上限である。
次に、ピッチラグTの近傍における残差信号rscor(T−1),rscor(T),rscor(T+1)から自己相関法によりピッチ予測係数pc(i),(i=−1,0,1)を求める。ピッチ予測係数の算出方法は、レビンソン・アルゴリズムなどの公知の方法で求めることができる。
次に、逆フィルタ出力r(n)をピッチ強調フィルタ4に入力し、ピッチ周期性が強調された音声y(n)を求める。ピッチ強調フィルタ4として式(18)の伝達関数で表されるフィルタを用いることができる。ここで、gpは重み係数である。
尚、ピッチ強調フィルタ4としてここではIIRフィルタを用いたが、FIRフィルタなどの任意のフィルタを用いることができる。
以上説明の通り、第4の実施例によればピッチ強調フィルタ4を付加することにより残差信号に含まれるピッチ周期成分を強調することができ、第1の実施例に比べて音声の明瞭度を更に改善することができる。
図17に本発明の第5の実施例の構成ブロック図を示す。前フレームの増幅率を保持しておく第2のバッファ部15を備えている点が第1の実施例と異なり、その他は第1の実施例と同じである。
本実施例では、スペクトル算出部1−2のからスペクトルsp1(l)とホルマント周波数fp(k)および振幅amp(k)から増幅率算出部6において仮の増幅率βpsu(l)を求める。
仮の増幅率βpsu(l)の算出方法は、第1の実施例における増幅率β(l)の算出方法と同じである。次に、仮の増幅率βpsu(l)とバッファ部15から出力される前フレーム増幅率β_old(l)から現フレームの増幅率β(l)を求める。ここで、前フレーム増幅率β_old(l)は前フレームにおいて算出された最終的な増幅率である。
増幅率β(l)を求める手順は以下の通りである。
(1)仮増幅率βpsu(l)と前フレーム増幅率β_old(l)との差分
Δβ=βpsu(l)−β_old(l)を算出する。
(2)差分Δβがあらかじめ定められた閾値ΔTHよりも大きい場合は、
β(l)=β_old(l)+ΔTHとする。
(3)差分Δβが閾値ΔTHよりも小さい場合は、β(l)=βpsu(l)とする。
(4)最終的に求められたβ(l)をバッファ部15へ入力し、前フレーム増幅率
β_old(l)を更新する。
第5の実施例において、前フレーム増幅率β_old(l)を参照して増幅率β(l)を求める部分以外は第1の実施例と同じであるので、第5の実施例動作についての更なる説明を省略する。
以上説明した通り、本実施例ではスペクトル強調に使用する増幅率を求める際に、前フレームにおける増幅率を選択的に用いることにより、フレーム間で増幅率が急激に変化しないようにすることにより、スペクトル強調による雑音感の増加を抑えつつ明瞭度を改善することができる。
図18に本発明の第6の実施例の構成ブロック図を示す。本実施例は、先の第1及び第3乃至第5の実施例を組み合わせた場合の構成を示している。重複する部分は他の実施例と同じであるので、説明を省略する。
図19は、上記の実施例により強調された音声スペクトルを示す図である。図19のスペクトルを、図7に示す強調前の入力音声スペクトルと、図8に示すフレーム単位で強調したスペクトルを比較すると本発明の効果が明瞭である。
すなわち、高次ホルマントが強調された図8において、0.95秒前後および1.03秒前後において、強調後のスペクトルに不連続性が生じているが、図19に示す音声スペクトルでは、ピーク変動が抑えられ、その不連続性が改善されていることが分かる。これによりホルマントの不連続性による、実際に処理音声を聞いた時の雑音感は生じないものとなる。
ここで、図9の本発明の原理図に基づく、先の第1〜第6の各実施例により、入力音声を音源特性と声道特性とに分離し、声道特性と音源特性を個別に強調することが可能である。これにより、音声自体を強調する従来技術で問題となっていたスペクトルの歪を抑えることができ、明瞭度を改善することができる。
しかし、上記各実施例に共通して、次のような問題が未だ生じる場合がある。すなわち、上記各実施例において、音声のスペクトルを強調する場合、フレーム間で増幅率が大きく変動すると雑音感が増すという問題がある。一方、雑音感を抑えるために増幅率の変動を小さくなるように制御すると、スペクトル強調の度合いが不十分となり、明瞭度の改善が十分でないという問題がある。
従って、本発明は更にかかる不都合を解消する場合、本発明により図20,図21の原理構成が適用される。図20、図21に示す原理構成は、動的フィルタIと固定フィルタIIの2段構成としている点に特徴を有する。
更に、図20の構成では動的フィルタIの後に固定フィルタIIを置く場合の原理図を示しているが、図21の構成のように固定フィルタIIを動的フィルタIの前段に置いてもよい。ただし、図21の構成の場合には、入力音声を分析することにより動的フィルタIで使用するパラメータを算出する。
動的フィルタIは、先に説明した図9に示す原理に従う構成を用いるものである。図20、図21では、図9に示す原理構成の概略を示している。すなわち、動的フィルタIは、入力音声を音源特性と、声道特性に分離する分離機能部20、声道特性からホルマント特徴を抽出する特徴抽出機能部5、特徴抽出機能部5から得られるホルマント特徴に基づき増幅率を算出する増幅率算出機能部6、算出された増幅率に対応して声道特性のスペクトルを強調するスペクトル機能部7及び、音源特性とスペクトル強調された声道特性を合成する合成機能部21を有している。
固定フィルタIIは、所定範囲の周波数幅において、一定の通過帯域を有するフィルタ特性を有している。固定フィルタIIで強調する周波数帯域は任意であるが、例えば2kHz以上の高域周波数帯域や1kHz〜3kHzの中間帯域成分を強調する帯域強調フィルタを用いることができる。
固定フィルタIIにより一部の周波数帯域を増幅し、動的フィルタIによりホルマントを強調する。固定フィルタIIの増幅率は固定であるため、フレーム間における増幅率の変動はない。このような構成にすることにより、動的フィルタIによる過度の強調を防ぎ、かつ明瞭度を改善することができる。
図22は、図20の原理図に基づく本発明の更なる実施例構成のブロック図である。この実施例は、動的フィルタIとして、先に説明した第3の実施例構成を用いている。従って、その再度の詳細説明は省略する。
この実施例では動的フィルタIにより入力音声を音源特性と声道特性とに分離し、声道特性のみを強調する。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。また、スペクトル強調によって出力音声の振幅が入力信号に比べて過度に大きくならないようにAGC部14により利得調整することにより、滑らかで自然性の高い出力音声を得ることができる。
更に、固定フィルタIIにより一部の周波数帯域を一定の割合で増幅することにより、雑音感が少なく、明瞭度の高い音声を得ることができる。
また、声道特性を強調する際に、平均スペクトルに基づいて強調することにより、フレーム間での増幅率の急激な変化が軽減されるため、雑音感の少ない良好な音質を実現できる。
かかる点から本発明は、携帯電話における好ましい音声通話を可能できるので、更なる携帯電話の普及に寄与することが可能である。
なお、本発明を上記実施例に従い説明したが、かかる実施例は本発明の理解のためのものであり、本発明の保護の範囲は、これら実施例に限定されるものではない。すなわち、請求項に記載の要件と均等の範囲にある場合も、本発明の保護の範囲に含まれるものである。
Claims (8)
- 入力音声信号を音源特性と声道特性とに分離する信号分離部と、
前記声道特性から特徴情報を抽出する特徴抽出部と、
前記声道特性と前記特徴情報とから前記声道特性を修正する声道特性修正部と、
前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、
前記信号分離部は、前記音声信号の現フレームから自己相関を求める自己相関算出部と、前記現フレームの自己相関と前記音声信号の過去のフレームから求めた自己相関との加重平均を求める平均化処理部と、前記自己相関の加重平均から逆フィルタ係数を算出する逆フィルタ係数算出部と、前記逆フィルタ係数から平均的な声道特性を算出する声道特性算出手段とを有し、
前記声道特性修正部は、前記平均的な声道特性からホルマント周波数とホルマント振幅とを求め、前記ホルマント周波数及び前記ホルマント振幅に基づいて、前記ホルマント振幅を変化させることで前記平均的な声道特性を強調し、
前記信号合成手段により合成した音声を出力することを特徴とする音声強調装置。 - 入力音声信号を音源特性と声道特性とに分離する信号分離部と、
前記声道特性から特徴情報を抽出する特徴抽出部と、
前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、
前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、
前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、
前記信号分離部は、前記音声信号の現フレームから自己相関を求める自己相関算出部と、前記現フレームの自己相関と前記音声信号の過去のフレームから求めた自己相関との加重平均を求める平均化処理部と、前記加重平均から逆フィルタ係数を算出する逆フィルタ係数算出部とを有し、
前記特徴抽出部は、前記逆フィルタ係数から平均的な声道特性としてパワースペクトルを算出し、前記パワースペクトルからホルマント周波数とホルマント振幅とを求めるホルマント抽出手段を有し、
前記修正声道特性算出部は、前記ホルマント周波数と前記ホルマント振幅とに基づいて前記ホルマント振幅の増幅率を計算する増幅率算出手段を有し、
前記声道特性修正部は、前記増幅率に基づいて前記ホルマント振幅を増幅することで前記平均的な声道特性を強調し、
前記信号合成手段により合成した音声を出力することを特徴とする音声強調装置。 - 請求項1又は、2において、
前記声道特性修正部は、前記ホルマント振幅の平均振幅を求め、前記平均振幅に応じて前記ホルマント振幅又はホルマントのバンド幅を変化させることを特徴とする音声強調装置。 - 請求項2において、
前記声道特性修正部は、現フレームにおける仮増幅率を求める計算部を有し、
前フレームの増幅率と現フレームの仮増幅率との差分を求め、前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とすることを特徴とする音声強調装置。 - 現フレームの入力音声から自己相関関数を求める自己相関算出部と、
前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、
前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、
前記自己相関関数の加重平均から逆フィルタ係数を算出する第1のフィルタ係数算出部と、
前記逆フィルタ係数により構成される逆フィルタと、
前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、
前記算出された周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、
前記算出された周波数スペクトル、前記推定された前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、
前記増幅率に基づいて前記算出された周波数スペクトルを変化させて、強調された周波数スペクトルを求めるスペクトル強調部と、
前記強調された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、
前記合成フィルタ係数から構成される合成フィルタを有し、
前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。 - 現フレームの入力音声信号を線形予測係数を分析して自己相関関数と線形予測係数を求める線形予測係数分析部と、
前記係数により構成される逆フィルタと、
前記線形予測係数から周波数スペクトルを求める第1のスペクトル算出部と、
前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、
前記現フレームの自己相関と過去フレームの自己相関関数の加重平均を求める平均自己相関算出部と、
前記自己相関関数の加重平均から平均フィルタ係数を算出する第1のフィルタ係数算出部と、
前記平均フィルタ係数から平均周波数スペクトルを求める第2のスペクトル算出部と、
前記平均スペクトルからホルマント周波数とホルマント振幅を求めるホルマント推定部と、
前記平均スペクトル、前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、
前記増幅率に基づいて前記第1のスペクトル算出部で算出された周波数スペクトルを変化させて、強調された周波数スペクトルを求めるスペクトル強調部と、
前記強調された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、
前記合成フィルタ係数から構成される合成フィルタを有し、
前記入力信号を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。 - 請求項5において、前記増幅率算出部は、
スペクトル算出部で前記逆フィルタ係数から算出された周波数スペクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、
前記仮増幅率と前フレームの増幅率との差分を算出する差分算出部と、
前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有することを特徴とする音声強調装置。 - 現フレームの入力音声から自己相関関数を求める自己相関算出部と、
前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、
前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、
前記自己相関関数の加重平均から逆フィルタ係数を算出する第1のフィルタ係数算出部 と、
前記逆フィルタ係数により構成される逆フィルタと、
前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、
前記周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、
前記周波数スペクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、
前記仮増幅率と前フレームの増幅率との差分増幅率を算出する差分算出部と、
前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有し、
前記現フレームの増幅率に基づいて前記周波数スペクトルを変化させて、強調された周波数スペクトルを求めるスペクトル強調部と、
前記強調された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、
前記合成フィルタ係数から構成される合成フィルタと、
残差信号からピッチ強調係数を算出するピッチ強調係数算出部と、
前記ピッチ強調係数により構成されるピッチ強調フィルタを有し、
前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記ピッチ強調フィルタに入力してピッチ周期性が強調された残差信号を求め、前強調された記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2002/011332 WO2004040555A1 (ja) | 2002-10-31 | 2002-10-31 | 音声強調装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2004040555A1 JPWO2004040555A1 (ja) | 2006-03-02 |
JP4219898B2 true JP4219898B2 (ja) | 2009-02-04 |
Family
ID=32260023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004547997A Expired - Fee Related JP4219898B2 (ja) | 2002-10-31 | 2002-10-31 | 音声強調装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7152032B2 (ja) |
EP (1) | EP1557827B8 (ja) |
JP (1) | JP4219898B2 (ja) |
CN (1) | CN100369111C (ja) |
WO (1) | WO2004040555A1 (ja) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4076887B2 (ja) * | 2003-03-24 | 2008-04-16 | ローランド株式会社 | ボコーダ装置 |
EP1619666B1 (en) * | 2003-05-01 | 2009-12-23 | Fujitsu Limited | Speech decoder, speech decoding method, program, recording medium |
US20070011009A1 (en) * | 2005-07-08 | 2007-01-11 | Nokia Corporation | Supporting a concatenative text-to-speech synthesis |
EP1850328A1 (en) * | 2006-04-26 | 2007-10-31 | Honda Research Institute Europe GmbH | Enhancement and extraction of formants of voice signals |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
US8050434B1 (en) | 2006-12-21 | 2011-11-01 | Srs Labs, Inc. | Multi-channel audio enhancement system |
CN101589430B (zh) * | 2007-08-10 | 2012-07-18 | 松下电器产业株式会社 | 声音分离装置、声音合成装置及音质变换装置 |
US8315398B2 (en) | 2007-12-21 | 2012-11-20 | Dts Llc | System for adjusting perceived loudness of audio signals |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
KR101475724B1 (ko) * | 2008-06-09 | 2014-12-30 | 삼성전자주식회사 | 오디오 신호 품질 향상 장치 및 방법 |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
JP4490507B2 (ja) * | 2008-09-26 | 2010-06-30 | パナソニック株式会社 | 音声分析装置および音声分析方法 |
US9202456B2 (en) | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
WO2011004579A1 (ja) * | 2009-07-06 | 2011-01-13 | パナソニック株式会社 | 声質変換装置、音高変換装置および声質変換方法 |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
WO2011025462A1 (en) * | 2009-08-25 | 2011-03-03 | Nanyang Technological University | A method and system for reconstructing speech from an input signal comprising whispers |
US9031834B2 (en) | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
US8204742B2 (en) | 2009-09-14 | 2012-06-19 | Srs Labs, Inc. | System for processing an audio signal to enhance speech intelligibility |
TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
WO2012026092A1 (ja) * | 2010-08-23 | 2012-03-01 | パナソニック株式会社 | 音声信号処理装置及び音声信号処理方法 |
EP2737479B1 (en) * | 2011-07-29 | 2017-01-18 | Dts Llc | Adaptive voice intelligibility enhancement |
JP2013073230A (ja) * | 2011-09-29 | 2013-04-22 | Renesas Electronics Corp | オーディオ符号化装置 |
JP5667963B2 (ja) * | 2011-11-09 | 2015-02-12 | 日本電信電話株式会社 | 音声強調装置とその方法とプログラム |
CN102595297B (zh) * | 2012-02-15 | 2014-07-16 | 嘉兴益尔电子科技有限公司 | 数字式助听器增益控制优化方法 |
JP5745453B2 (ja) * | 2012-04-10 | 2015-07-08 | 日本電信電話株式会社 | 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
CN102779527B (zh) * | 2012-08-07 | 2014-05-28 | 无锡成电科大科技发展有限公司 | 基于窗函数共振峰增强的语音增强方法 |
CN104704560B (zh) * | 2012-09-04 | 2018-06-05 | 纽昂斯通讯公司 | 共振峰依赖的语音信号增强 |
CN104464746A (zh) * | 2013-09-12 | 2015-03-25 | 索尼公司 | 语音滤波方法、装置以及电子设备 |
CN104143337B (zh) * | 2014-01-08 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种提高音频信号音质的方法和装置 |
JP6637082B2 (ja) * | 2015-12-10 | 2020-01-29 | ▲華▼侃如 | 調波モデルと音源−声道特徴分解に基づく音声分析合成方法 |
CN106970771B (zh) * | 2016-01-14 | 2020-01-14 | 腾讯科技(深圳)有限公司 | 音频数据处理方法和装置 |
EP3537432A4 (en) * | 2016-11-07 | 2020-06-03 | Yamaha Corporation | LANGUAGE SYNTHESIS PROCEDURE |
EP3688754A1 (en) * | 2017-09-26 | 2020-08-05 | Sony Europe B.V. | Method and electronic device for formant attenuation/amplification |
JP6991041B2 (ja) * | 2017-11-21 | 2022-01-12 | ヤフー株式会社 | 生成装置、生成方法、および生成プログラム |
JP6962269B2 (ja) * | 2018-05-10 | 2021-11-05 | 日本電信電話株式会社 | ピッチ強調装置、その方法、およびプログラム |
JP7461192B2 (ja) | 2020-03-27 | 2024-04-03 | 株式会社トランストロン | 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム |
CN113571079A (zh) * | 2021-02-08 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN115206142B (zh) * | 2022-06-10 | 2023-12-26 | 深圳大学 | 一种基于共振峰的语音训练方法及系统 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
JP2588004B2 (ja) | 1988-09-19 | 1997-03-05 | 日本電信電話株式会社 | 後処理フィルタ |
JP2626223B2 (ja) * | 1990-09-26 | 1997-07-02 | 日本電気株式会社 | 音声符号化装置 |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
JP2899533B2 (ja) * | 1994-12-02 | 1999-06-02 | 株式会社エイ・ティ・アール人間情報通信研究所 | 音質改善装置 |
JP3235703B2 (ja) * | 1995-03-10 | 2001-12-04 | 日本電信電話株式会社 | ディジタルフィルタのフィルタ係数決定方法 |
JP2993396B2 (ja) * | 1995-05-12 | 1999-12-20 | 三菱電機株式会社 | 音声加工フィルタ及び音声合成装置 |
FR2734389B1 (fr) * | 1995-05-17 | 1997-07-18 | Proust Stephane | Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US6240384B1 (en) * | 1995-12-04 | 2001-05-29 | Kabushiki Kaisha Toshiba | Speech synthesis method |
JPH09160595A (ja) | 1995-12-04 | 1997-06-20 | Toshiba Corp | 音声合成方法 |
KR100269255B1 (ko) * | 1997-11-28 | 2000-10-16 | 정선종 | 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 |
US6003000A (en) * | 1997-04-29 | 1999-12-14 | Meta-C Corporation | Method and system for speech processing with greatly reduced harmonic and intermodulation distortion |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
US6098036A (en) * | 1998-07-13 | 2000-08-01 | Lockheed Martin Corp. | Speech coding system and method including spectral formant enhancer |
GB2342829B (en) * | 1998-10-13 | 2003-03-26 | Nokia Mobile Phones Ltd | Postfilter |
US6950799B2 (en) * | 2002-02-19 | 2005-09-27 | Qualcomm Inc. | Speech converter utilizing preprogrammed voice profiles |
-
2002
- 2002-10-31 WO PCT/JP2002/011332 patent/WO2004040555A1/ja active Application Filing
- 2002-10-31 JP JP2004547997A patent/JP4219898B2/ja not_active Expired - Fee Related
- 2002-10-31 EP EP02779956.8A patent/EP1557827B8/en not_active Expired - Fee Related
- 2002-10-31 CN CNB028295854A patent/CN100369111C/zh not_active Expired - Fee Related
-
2005
- 2005-02-17 US US11/060,188 patent/US7152032B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1557827A4 (en) | 2008-05-14 |
EP1557827A1 (en) | 2005-07-27 |
US7152032B2 (en) | 2006-12-19 |
CN1669074A (zh) | 2005-09-14 |
EP1557827B1 (en) | 2014-10-01 |
JPWO2004040555A1 (ja) | 2006-03-02 |
EP1557827B8 (en) | 2015-01-07 |
CN100369111C (zh) | 2008-02-13 |
US20050165608A1 (en) | 2005-07-28 |
WO2004040555A1 (ja) | 2004-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4219898B2 (ja) | 音声強調装置 | |
JP5127754B2 (ja) | 信号処理装置 | |
JP4836720B2 (ja) | ノイズサプレス装置 | |
JP4649546B2 (ja) | 補聴器 | |
JP4018571B2 (ja) | 音声強調装置 | |
US8560308B2 (en) | Speech sound enhancement device utilizing ratio of the ambient to background noise | |
EP1100077A2 (en) | Noise suppression apparatus | |
US20070232257A1 (en) | Noise suppressor | |
JP2013537321A (ja) | 知覚スペクトルアンバランス改善のための音声信号動的補正 | |
JPH01288199A (ja) | 補聴器用信号処理システム | |
JP2004061617A (ja) | 受話音声処理装置 | |
WO2014129233A1 (ja) | 音声強調装置 | |
JP2008309955A (ja) | ノイズサプレス装置 | |
CN117321681A (zh) | 嘈杂环境中的语音优化 | |
JP5443547B2 (ja) | 信号処理装置 | |
JP3269669B2 (ja) | 聴覚補償装置 | |
JP4922427B2 (ja) | 信号補正装置 | |
EP1278185A2 (en) | Method for improving noise reduction in speech transmission | |
JPH09311696A (ja) | 自動利得調整装置 | |
RU2589298C1 (ru) | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке | |
KR100746680B1 (ko) | 음성 강조 장치 | |
JPH07146700A (ja) | ピッチ強調方法および装置ならびに聴力補償装置 | |
JP4227421B2 (ja) | 音声強調装置および携帯端末 | |
JP2011141540A (ja) | 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体 | |
JP2005331783A (ja) | 音声強調装置,音声強調方法および通信端末 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4219898 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131121 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |