JP2014122939A - 音声処理装置および方法、並びにプログラム - Google Patents

音声処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2014122939A
JP2014122939A JP2012277662A JP2012277662A JP2014122939A JP 2014122939 A JP2014122939 A JP 2014122939A JP 2012277662 A JP2012277662 A JP 2012277662A JP 2012277662 A JP2012277662 A JP 2012277662A JP 2014122939 A JP2014122939 A JP 2014122939A
Authority
JP
Japan
Prior art keywords
spectrum
consonant
background noise
input signal
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012277662A
Other languages
English (en)
Inventor
Keisuke Higashiyama
恵祐 東山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012277662A priority Critical patent/JP2014122939A/ja
Priority to CN201310684752.XA priority patent/CN103886865A/zh
Priority to US14/132,406 priority patent/US20140177853A1/en
Publication of JP2014122939A publication Critical patent/JP2014122939A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

【課題】より精度よく子音を検出することができるようにする。
【解決手段】時間周波数変換部は、供給された入力信号を入力スペクトルに変換し、背景ノイズ推定部は、入力スペクトルから背景ノイズを推定する。ノイズ抑圧スペクトル計算部は、背景ノイズの推定結果に基づいて、入力スペクトルの背景ノイズを抑圧し、ノイズ抑圧スペクトルを算出する。特徴量計算部は、ノイズ抑圧スペクトルから特徴量を算出し、子音検出部は、特徴量に基づいて入力信号から子音フレームを検出する。このように、背景ノイズが抑圧されたノイズ抑圧スペクトルから特徴量を算出し、その特徴量に基づいて周波数領域で子音を検出することで、精度よく子音を検出することができる。本技術は、子音強調装置に適用することができる。
【選択図】図1

Description

本技術は音声処理装置および方法、並びにプログラムに関し、特に、より精度よく子音を検出することができるようにした音声処理装置および方法、並びにプログラムに関する。
近年、高齢社会が進むにつれ、加齢性の難聴に悩まされる人が増えている。加齢性難聴では高い周波数帯域の聴覚感度から悪化する傾向があるため、音声のうち特に子音の聞き取りが困難になる例が多い。
そこで、子音をより聞き取りやすくする技術として、イコライザで入力信号の子音が存在する周波数帯域を強調するものがある。しかし、この技術では、入力信号が何であるかに関わらず常にその周波数帯域の強調が行なわれるため、子音は強調されるものの、それ以外の音の音質が変わり、音声の聞きにくさが発生してしまう。
また、携帯型電話機の発達により、いつでもどこでも携帯型電話機を用いた会話ができるようになったが、これは発話側の環境がうるさい場所である機会が増えたということでもある。音声信号のうち、子音部は母音部よりも相対的にパワーが小さいため、ノイズに子音部が埋もれてしまうことにより音声の明瞭度が下がり、会話音声が聞き取りにくくなる事態が発生する。特に加齢性難聴者にとっては、音声の聞き取りやすさは背景ノイズの大きさに影響されることが知られており、うるさい環境下でも音声を聞き取りやすくする技術が望まれている。
例えば、ノイズが大きい場合には、ノイズ抑圧技術でノイズを低減することで相対的に音声のSN比(Signal to Noise ratio)を上げる技術があるが、この技術では音声自体の音質も変わってしまうことが多く、語音明瞭度や了解度が下がってしまう傾向がある。また、そもそも発話者自体がもごもごとした不明瞭な話し方をしている場合には、ノイズ抑圧技術は何の役にも立たない。
以上のような状況から、子音を検出して強調する技術が要望されており、これまでにもいくつか子音検出強調技術が提案されている。
例えば、そのような技術として、複数の時間フレームによって複数のフレーム信号を抽出し、このフレーム信号の平均パワーを計算して比較するだけで子音を検出し、強調する技術が提案されている(例えば、特許文献1および特許文献2参照)。
特開2010−091897号公報 特許第04876245号公報
ところで特許文献1や特許文献2に記載の技術では、子音区間や音節の長さを予め定義し、その定義に合うフレームのみを子音としているが、実際の音声がその定義にしたがうとは限らない。特に、言語によってそれらの定義は異なるため、アルゴリズムの言語依存性が高くなってしまう。
また、子音の検出をフレーム信号のパワーの比較だけで行っているため、背景ノイズによりパワーが変動した場合には、子音を正しく検出することができなくなってしまう。
以上のように、上述した子音検出方法では、子音の背景にノイズが存在するような信号については、子音を精度よく検出することが困難であった。
本技術は、このような状況に鑑みてなされたものであり、より精度よく子音を検出することができるようにするものである。
本技術の一側面の音声処理装置は、入力信号の背景ノイズを推定する背景ノイズ推定部と、前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧するノイズ抑圧部と、前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出する特徴量計算部と、前記特徴量に基づいて、前記入力信号から子音を検出する子音検出部とを備える。
前記背景ノイズ推定部には、周波数領域で前記背景ノイズを推定させ、前記ノイズ抑圧部には、前記入力信号から得られた入力スペクトルに含まれる前記背景ノイズを抑圧することでノイズ抑圧スペクトルを求めさせ、前記特徴量計算部には、前記ノイズ抑圧スペクトルに基づいて前記特徴量を算出させることができる。
前記背景ノイズ推定部には、過去の前記入力スペクトルの平均値を求めることで前記背景ノイズを推定させることができる。
音声処理装置には、前記ノイズ抑圧スペクトルの値が、前記背景ノイズの推定により得られた背景ノイズスペクトルを定数倍した値よりも大きい周波数について、前記入力スペクトルの強調を行なう子音強調部をさらに設けることができる。
前記子音強調部には、予め定められた強調量で前記入力スペクトルの強調を行なわせることができる。
音声処理装置には、前記入力信号の過去の母音部分のパワーの平均値と、前記入力信号の現在のパワーとの比に基づいて強調量を算出する子音強調レベル計算部をさらに設け、前記子音強調部には、前記強調量で前記入力スペクトルの強調を行なわせることができる。
周波数方向に対して前記強調量の補間が行なわれるようにすることができる。
前記ノイズ抑圧部には、スペクトルサブトラクション法により前記ノイズ抑圧スペクトルを求めさせることができる。
前記入力信号のピッチ強度がさらに前記特徴量として用いられ、前記子音検出部には、前記特徴量としての前記ピッチ強度と、前記ノイズ抑圧スペクトルに基づいて算出された前記特徴量とに基づいて、前記入力信号から子音を検出させることができる。
前記ピッチ強度は、前記ノイズ抑圧スペクトルのピークが、ピッチ周波数位置と、ピッチ周波数の倍音周波数位置とに発生している度合いで表されるようにすることができる。
前記ピッチ強度が、前記入力信号の自己相関係数値であるようにすることができる。
前記特徴量計算部には、前記ノイズ抑圧スペクトルの周波数帯域を複数のバンドに分割させ、前記バンドにおける前記ノイズ抑圧スペクトルの代表値に基づいて前記特徴量を算出させることができる。
前記ノイズ抑圧スペクトルをパワースペクトルとすることができる。
前記ノイズ抑圧スペクトルを振幅スペクトルとすることができる。
前記代表値を、前記バンドにおける前記ノイズ抑圧スペクトルの平均値とすることができる。
前記代表値を、前記バンドにおける前記ノイズ抑圧スペクトルの最大値とすることができる。
前記特徴量計算部には、前記ノイズ抑圧スペクトルにおける前記バンドの前記代表値の時間差分値を前記特徴量として算出させることができる。
本技術の一側面の音声処理方法またはプログラムは、入力信号の背景ノイズを推定し、前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧し、前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出し、前記特徴量に基づいて、前記入力信号から子音を検出するステップを含む。
本技術の一側面においては、入力信号の背景ノイズが推定され、前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズが抑圧され、前記背景ノイズが抑圧された前記入力信号に基づいて特徴量が算出され、前記特徴量に基づいて、前記入力信号から子音が検出される。
本技術の一側面によれば、より精度よく子音を検出することができる。
子音強調装置の構成例を示す図である。 時間周波数変換について説明する図である。 背景ノイズの推定について説明する図である。 ノイズ抑圧スペクトルの算出について説明する図である。 特徴量の算出について説明する図である。 入力スペクトルの強調について説明する図である。 入力信号の強調結果の一例を示す図である。 子音強調処理を説明するフローチャートである。 子音検出処理を説明するフローチャートである。 強調量算出処理を説明するフローチャートである。 子音強調装置の他の構成例を示す図である。 子音強調装置の他の構成例を示す図である。 子音強調装置の他の構成例を示す図である。 子音検出装置の構成例を示す図である。 子音検出装置の他の構成例を示す図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈子音強調装置の構成例〉
本技術は、背景ノイズの抑圧を行った信号を基に子音の検出を行なうことで、背景にノイズがある場合にも精度よく子音を検出することができるようにするものである。また、入力信号、推定した背景ノイズ、およびノイズ抑圧信号のレベルを基にした強調量の決定を行うことで、ノイズを考慮した適切な子音強調を行なうことができるようにするものである。
図1は、本技術を適用した子音強調装置の一実施の形態の構成例を示す図である。
子音強調装置11は、音声信号である入力信号を入力とし、入力信号から子音部分を検出するとともに、その検出結果に基づいて子音を強調し、その結果得られた音声信号を出力信号として出力する。
子音強調装置11は、時間周波数変換部21、背景ノイズ推定部22、ノイズ抑圧スペクトル計算部23、ピッチ強度計算部24、特徴量計算部25、子音検出部26、子音強調レベル計算部27、子音強調部28、および周波数時間変換部29から構成される。
時間周波数変換部21は、供給された入力信号に対して時間周波数変換を行い、その結果得られた入力スペクトルを背景ノイズ推定部22、ノイズ抑圧スペクトル計算部23、子音強調レベル計算部27、および子音強調部28に供給する。
背景ノイズ推定部22は、時間周波数変換部21から供給された入力スペクトルに基づいて背景ノイズ推定を行い、その結果得られた背景ノイズスペクトルをノイズ抑圧スペクトル計算部23、および子音強調レベル計算部27に供給する。
なお、背景ノイズとは、入力信号の音声のうちの発話者の音声等とは異なる、環境音などのノイズ成分である。また、背景ノイズスペクトルは、背景ノイズのスペクトルである。
ノイズ抑圧スペクトル計算部23は、時間周波数変換部21から供給された入力スペクトルと、背景ノイズ推定部22から供給された背景ノイズスペクトルとに基づいて入力スペクトルに含まれる背景ノイズ成分を抑圧し、ノイズ抑圧スペクトルを求める。ノイズ抑圧スペクトル計算部23は、得られたノイズ抑圧スペクトルをピッチ強度計算部24、特徴量計算部25、および子音強調レベル計算部27に供給する。
ピッチ強度計算部24は、ノイズ抑圧スペクトル計算部23から供給されたノイズ抑圧スペクトルに基づいて、入力信号のピッチ強度を算出し、特徴量計算部25および子音検出部26に供給する。なお、ここでは、ノイズ抑圧スペクトルからピッチ強度を求める場合について説明するが、ノイズ抑圧前のスペクトルや、時間領域の信号である入力信号からピッチ強度が求められてもよい。
特徴量計算部25は、ノイズ抑圧スペクトル計算部23から供給されたノイズ抑圧スペクトルに基づいて、またはノイズ抑圧スペクトルと、ピッチ強度計算部24から供給されたピッチ強度とに基づいて特徴量を算出し、子音検出部26に供給する。特徴量計算部25で算出される特徴量は、入力信号からの子音検出に用いられる。
子音検出部26は、ピッチ強度計算部24から供給されたピッチ強度と、特徴量計算部25から供給された特徴量とに基づいて、入力信号の子音区間を検出し、その検出結果を子音強調レベル計算部27に供給する。
なお、より詳細には、子音区間の検出では処理対象となっている入力信号のフレームが、子音のフレームであるか、母音のフレームであるか、またはその他のフレーム、つまり子音でも母音でもないフレームであるかが特定される。以下では、特に子音のフレームを子音フレームと称し、母音のフレームを母音フレームと称することとする。
子音強調レベル計算部27は、時間周波数変換部21からの入力スペクトル、背景ノイズ推定部22からの背景ノイズスペクトル、ノイズ抑圧スペクトル計算部23からのノイズ抑圧スペクトル、および子音検出部26からの検出結果に基づいて強調量を算出する。すなわち、子音検出により子音フレームであるとされたフレームの強調量が算出されて、子音強調レベル計算部27から子音強調部28に供給される。
子音強調部28は、子音強調レベル計算部27から供給された強調量を、時間周波数変換部21から供給された入力スペクトルに乗算することで、入力スペクトルの子音部分を強調し、周波数時間変換部29に供給する。
周波数時間変換部29は、子音強調部28から供給された入力スペクトルに対して周波数時間変換を行なって、その結果得られた出力時間波形を出力信号として出力する。
〈入力スペクトルの算出について〉
次に、図1に示した子音強調装置11を構成する各部の処理について説明する。
まず、入力信号を入力スペクトルに変換する時間周波数変換部21の処理について説明する。
例えば、時間周波数変換部21に図2の矢印A11に示す波形の入力信号が入力されたとする。なお、矢印A11に示す入力信号において、横方向は時間を示しており、縦方向は振幅を示している。
このような矢印A11に示す入力信号が供給されると、時間周波数変換部21は、入力信号を構成する所定の連続する複数のサンプルをまとめてフレーム化する。この例では、入力信号の区間L11乃至区間L19のそれぞれが1つのフレームとされる。
また、時間周波数変換部21は、入力信号の各フレームに対して矢印A12に示す形状の窓、つまり窓関数を用いて窓がけを行なう。ここで、矢印A12に示す窓関数において縦方向は窓関数の値を示しており、横方向は時間、つまり窓関数の値が乗算される入力信号のサンプル位置を示している。
なお、窓がけには、例えばサイン窓を用いてもよいし、ハニング窓やハミング窓などを用いるようにしてもよい。但し、周波数信号を時間信号に戻す逆変換時との整合が取れるようにする必要がある。
時間周波数変換部21は、入力信号のフレームを構成する各サンプルに窓関数を乗算することで窓がけを行なうと、その結果得られた信号に対して零詰めを行なう。例えば、入力信号の区間L11の部分に対して矢印A12に示した窓関数により窓がけを行い、その結果得られた信号に零詰めを行なうと、矢印A13に示す信号が得られる。
矢印A13に示す信号において、縦方向は振幅を示しており、横方向は時間を示している。この矢印A13に示す信号では、区間L31の部分が、零詰めが行なわれた部分であり、この部分では信号の振幅が0となっている。また、後段の時間周波数変換における周波数分解能を高くするために、零詰め後の信号の長さは、例えば窓の長さの2倍や4倍などとされるとよい。
零詰めが行なわれると、さらに時間周波数変換部21は、零詰めにより得られた信号に対して離散フーリエ変換などの時間周波数変換を行い、時間信号を周波数信号である入力スペクトルへと変換する。例えば、矢印A13に示す信号に対して離散フーリエ変換が行なわれると、矢印A14に示す入力スペクトルが得られる。なお、矢印A14に示す入力スペクトルにおいて横軸は周波数を示しており、縦軸はパワーまたは振幅を示している。
このようにして入力信号のフレームから得られる入力スペクトルは、パワースペクトルでもよいし、振幅スペクトルや対数振幅スペクトルであってもよい。また、入力スペクトルを得るための時間周波数変換として、離散フーリエ変換に限らず、離散コサイン変換などが行なわれるようにしてもよい。
さらに、図2の例では、周波数分解能を高くするために、零詰めによるオーバーサンプリングにより周波数変換長が窓の長さより長くされているが、特に零詰めが行なわれないようにしてもよい。
以上のような処理により、入力信号の各フレームについて入力スペクトルが得られる。
〈背景ノイズ推定について〉
続いて、背景ノイズ推定部22により行なわれる背景ノイズ推定について説明する。
例えば図3に示すように、時間周波数変換部21において、矢印A21に示す入力信号を構成する5つのフレームF(t−1)乃至フレームF(t−5)から、それぞれ矢印A22乃至矢印A26に示す入力スペクトルX(t−1,f)乃至入力スペクトルX(t−5,f)が得られたとする。ここで、矢印A21に示す入力信号の縦方向は振幅を示しており、横方向は時間を示している。また、各フレームの入力スペクトルX(t,f)において、tは時間インデックスを示しており、fは周波数を示している。
背景ノイズ推定部22は、時間周波数変換部21で得られた入力スペクトルX(t−1,f)乃至入力スペクトルX(t−5,f)の平均値を求め、得られた入力スペクトルの平均値を背景ノイズスペクトルN(t,f)とする。図3の例では、矢印A27に示されるスペクトルが、入力スペクトルX(t−1,f)乃至入力スペクトルX(t−5,f)の平均を求めることで得られた背景ノイズスペクトルN(t,f)を表している。
このように、背景ノイズ推定部22では、入力信号の過去の所定フレーム数分の入力スペクトルの平均値が背景ノイズであるとして背景ノイズの推定が行なわれる。一般的に比較的長い期間について、音声信号の各フレームのスペクトルの平均をとれば、ほぼノイズのスペクトルとなることが知られている。
例えば、過去Mフレームの入力スペクトルの平均が背景ノイズスペクトルであるとされる場合には、背景ノイズ推定部22は次式(1)を計算することで、時間インデクスがtであるフレームの背景ノイズスペクトルN(t,f)を算出する。
Figure 2014122939
なお、式(1)において、X(t,f)は、時間インデックスがtであるフレームの入力スペクトルを示している。
また、背景ノイズスペクトルの算出時において、レベル変動の大きなフレームについてはノイズではなく音声信号であるとみなして、そのフレームの入力スペクトルが背景ノイズスペクトルを算出するための平均値計算処理から除かれるようにしてもよい。
レベル変動が大きいフレームの特定は、例えば隣接フレームとの入力スペクトルのパワーの比率に基づいて行なわれてもよいし、入力スペクトルに対する閾値処理などにより行なわれるようにしてもよい。
また、背景ノイズスペクトルの算出は、式(1)の計算に限らず、他の方法により算出されるようにしてもよい。例えば、過去の所定数のフレームの入力スペクトルの平均値を背景ノイズスペクトルとするのではなく、過去のフレームの影響を継続して受けるように、フレームごとに背景ノイズスペクトルが更新されてもよい。
そのような場合、例えば背景ノイズ推定部22は、次式(2)を計算することで背景ノイズスペクトルN(t,f)を算出する。
Figure 2014122939
なお、式(2)において、α(f)およびα(f)は、所定の係数を示している。
したがって、式(2)では、直前のフレームの背景ノイズスペクトルと、現フレームの入力スペクトルとを重み付き加算することで、現フレームの背景ノイズスペクトルが算出される。例えば、レベル変動の大きなフレームの寄与度を小さくしたい場合には、レベル変動の大きなフレームについては係数α(f)の値を、0などの小さい値とすればよい。
なお、以下、特に時間インデックスを区別する必要がない場合には、背景ノイズスペクトルN(t,f)を単に背景ノイズスペクトルN(f)とも称することとする。同様に、以下、特に時間インデックスを区別する必要がない場合には、入力スペクトルX(t,f)を単に入力スペクトルX(f)とも称することとする。
〈ノイズ抑圧スペクトルの算出について〉
次に、ノイズ抑圧スペクトル計算部23により行なわれるノイズ抑圧スペクトルの算出について説明する。
例えば、ノイズ抑圧スペクトルは、図4に示すように、スペクトルサブトラクション法により算出される。
図4では、矢印A41乃至矢印A43に示される各スペクトルが、それぞれノイズ抑圧スペクトルS(f)、入力スペクトルX(f)、および背景ノイズスペクトルN(f)を示している。なお、図4に示す各スペクトルにおいて、縦軸はパワーまたは振幅を示しており、横軸は周波数を示している。
スペクトルサブトラクション法では、音声部分のスペクトルであるノイズ抑圧スペクトルS(f)と、背景ノイズの成分である背景ノイズスペクトルN(f)の和が、入力スペクトルX(f)であると仮定される。
したがって、入力スペクトルX(f)から背景ノイズスペクトルN(f)を減算して得られるスペクトルが、推定により得られたノイズ抑圧スペクトルS(f)となる。なお、図4では、入力スペクトルX(f)における斜線部分は、入力スペクトルX(f)に含まれている背景ノイズ成分を表している。
より具体的には、ノイズ抑圧スペクトル計算部23は、例えば入力スペクトルX(f)と背景ノイズスペクトルN(f)に基づいて次式(3)を計算することで、ノイズ抑圧スペクトルS(f)を算出する。
Figure 2014122939
なお、式(3)においてβ(f)はノイズ抑圧量を決める係数であり、周波数ごとに異なる値を用いても、全ての周波数で同じ値を用いてもよい。また、iはノイズ抑圧のドメインを決定する値である。
以上のようにして求められるノイズ抑圧スペクトルS(f)は、パワースペクトルでもよいし、振幅スペクトルでもよい。
〈ピッチ強度の算出について〉
さらに、ピッチ強度計算部24によるピッチ強度の算出について説明する。
ピッチ強度は、ノイズ抑圧スペクトルS(f)から算出される。
ここで、ピッチ強度は、ピッチ周波数と、そのピッチ周波数の倍音周波数において、パワースペクトルまたは振幅スペクトルであるノイズ抑圧スペクトルのピークがどの程度存在するかで表される。すなわち、ピッチ強度は、ノイズ抑圧スペクトルのピークが、ピッチ周波数位置と、そのピッチ周波数の倍音周波数の位置に発生している度合いで表される。
したがって、ピッチ強度は、ピッチ周波数位置にピークが存在するか否かと、その倍音周波数位置にもピークが存在するか否か、つまりピークが存在する倍音周波数がいくつ存在するかとに基づいて定められる。
なお、ピークであるか否かは、例えばピーク周波数近辺のスペクトルの曲率に基づいて、ピークらしさを求めることで決定される。また、ピーク周波数におけるスペクトルと、その周囲のスペクトルまたは周囲のスペクトルの平均値との割合や差などに基づいてピークらしさを求めることで、ピークであるか否かが決定されてもよい。
〈特徴量の算出について〉
続いて、特徴量計算部25による特徴量の算出について説明する。
なお、特徴量は、ノイズ抑圧スペクトルとピッチ強度とに基づいて算出されるようにしてもよいが、ここではノイズ抑圧スペクトルに基づいて特徴量が算出される例について説明する。
例えば、ノイズ抑圧スペクトル計算部23から特徴量計算部25に、図5に示すノイズ抑圧スペクトルS(f)が供給されたとする。なお、図5において、縦軸はパワーまたは振幅を示しており、横軸は周波数を示している。
また、ノイズ抑圧スペクトルS(f)における1つの長方形は、1つの周波数(周波数ビン)におけるスペクトルの値を表している。この例では、ノイズ抑圧スペクトルS(f)には、17個の周波数ビンにおけるスペクトルの値が含まれている。
このようなノイズ抑圧スペクトルS(f)が供給されると、特徴量計算部25は、ノイズ抑圧スペクトルS(f)の周波数帯域を複数のバンドに分割する。すなわち、ノイズ抑圧スペクトルS(f)の周波数帯域が、点線の矩形で表される7つのバンドBD11乃至バンドBD17に分割される。例えば、最も低周波数側の2つの周波数ビンが束ねられて、バンドBD11とされている。
なお、バンドの分割方法は、各バンドが均一幅となるように分割されてもよいし、聴覚フィルタを模した不均一幅で分割が行なわれるようにしてもよい。図5の例では、バンドBD11乃至バンドBD14は、2つの周波数ビンから構成されているが、バンドBD15乃至バンドBD17は、3つの周波数ビンから構成されている。
さらに、特徴量計算部25は、ノイズ抑圧スペクトルS(f)を構成する各バンドについて、バンド内のスペクトルの最大値をそのバンドの代表値とし、各バンドの代表値を組み合わせて得られるベクトルを、ノイズ抑圧スペクトルS(f)の特徴量とする。
例えば、バンドBD11乃至バンドBD17の代表値が55、50、40、30、20、25、および20である場合、それらの値を順番に並べて得られるベクトルb={55,50,40,30,20,25,20}が特徴量とされる。
なお、ここでは、バンド内のスペクトルの最大値が代表値とされる例について説明したが、バンド内のスペクトルの値の平均値が代表値とされるようにしてもよい。また、子音の立ち上がりを検出するための特徴量として、ノイズ抑圧スペクトルS(f)の各バンドの代表値の時間差分値、つまり時間方向に隣接するフレームについての同じバンドの代表値の差分値が用いられるようにしてもよい。
〈子音フレームの検出について〉
次に、子音検出部26による子音フレームの検出について説明する。
例えば、子音検出部26は、特徴量計算部25から供給された特徴量に基づいて線形判別を行なうことにより、入力信号の処理対象となっている現フレームが子音フレームであるか否かを判定する。
具体的には、例えば子音検出部26は、次式(4)に示される線形判別式Yに特徴量を代入して、判別を行なう。
Figure 2014122939
なお、式(4)において、a(但し、1≦n≦N)およびaは、予め学習された係数および定数を示しており、子音検出部26は、これらの係数と定数からなる係数ベクトルを保持している。また、b(但し、1≦n≦N)は、特徴量計算部25で算出された特徴量であるベクトルの各要素を示している。
子音検出部26は、特徴量計算部25から供給された特徴量を式(4)に示す線形判別式Yに代入し、その結果得られた値が負であった場合、つまりY=Σa+a<0である場合、現フレームは子音フレームであるとする。
また、子音検出部26は、線形判別式Yの値が0以上である場合、さらにピッチ強度が閾値より大きいか否かを判定することで、現フレームが母音フレームであるか否かを判定する。例えば、ピッチ強度が閾値より大きい場合には、現フレームは母音フレームであるとされ、ピッチ強度が閾値以下である場合、現フレームは子音フレームでも母音フレームでもない、その他のフレームであるとされる。
子音検出部26は、このようにして判別された現フレームの種別を示す情報を、子音の検出結果として子音強調レベル計算部27に供給する。
例えば母音フレームのスペクトルでは、ピークが周期的に出現することが知られており、入力信号のピッチ強度に基づいて、母音フレームらしいか否かを特定することが可能である。
子音強調装置11では、周波数領域において入力信号のピッチ強度を求めることで、例えばピークが出現しやすい低域側の周波数帯域のみを用いるなど、特定周波数帯域を選択的に用いてピッチ強度を算出することができる。これにより、母音の検出精度を向上させることができる。
また、子音強調装置11では、背景ノイズが抑圧されたノイズ抑圧スペクトルがピッチ強度の算出に用いられるが、ノイズ抑圧スペクトルは背景ノイズが抑圧されたスペクトルであるので、より高精度にピークを検出することができるようになる。したがって、ノイズ抑圧スペクトルを用いれば、より高精度にピッチ強度を算出することができる。
なお、以上においては、子音フレームの判別に用いる特徴量として、ノイズ抑圧スペクトルS(f)から得られた特徴量を用いる例について説明したが、ノイズ抑圧スペクトルS(f)から得られる特徴量だけでなく、ピッチ強度も特徴量として用いられてもよい。
そのような場合、例えば特徴量として用いられるピッチ強度は、線形判別式Yの項として含められるようにしてもよいし、ピッチ強度単独による子音の判別結果を線形判別式Yにカスケード接続するようにしてもよい。このように子音フレームの判別にピッチ強度を用いることで、さらに子音の検出精度を向上させることができる。
また、子音の判別方法として、線形判別の他にサポートベクターマシンやニューラルネットなどの判別方法を用いるようにしてもよい。
〈強調量の算出と入力スペクトルの強調について〉
さらに、子音強調レベル計算部27による強調量の算出と、子音強調部28による入力スペクトルの強調について説明する。
例えば、子音強調レベル計算部27は、入力信号の過去の母音フレームのパワーの平均値を母音部パワーとして算出し、保持している。母音フレームのパワーは、例えば母音フレームの入力スペクトルにおける各周波数のパワーの平均値などとされる。
子音強調レベル計算部27は、処理対象の現フレームが母音フレームである場合に、保持している母音部パワーの更新を行なう。
具体的には、子音強調レベル計算部27は、子音検出部26から供給された子音の検出結果から、現フレームが母音のフレームであると特定された場合、保持している母音部パワーと、時間周波数変換部21から供給された現フレームの入力スペクトルとに基づいて、母音部パワーを更新する。
そして、子音強調レベル計算部27は、子音検出部26から供給された子音の検出結果から、現フレームが子音のフレームであると特定された場合、保持している母音部パワーを用いて強調量を算出する。
例えば、子音強調レベル計算部27は、時間周波数変換部21から供給された現フレームの入力スペクトルにおける各周波数のパワーの平均値を求めて現フレームパワーとする。現フレームパワーは、入力スペクトルの全体のパワーである。そして、子音強調レベル計算部27は、次式(5)を計算することで、現フレームの強調量を算出する。
Figure 2014122939
式(5)では、現フレームの入力スペクトルのパワーと、過去の母音フレームのパワーの平均値との比(割合)が強調量として算出される。これは、子音部分のパワーが母音部分のパワーと同程度となるように強調すれば、子音が十分聞きとりやすくなるからである。
なお、入力スペクトルの強調量は、式(5)で得られる値に限らず、その他、例えば予め定めた定数とされてもよいし、式(5)で得られる値と、予め定めた定数とのうちの大きい方または小さい方の値などとされてもよい。
また、強調量は、実際の子音強調音を再生する環境に応じて変更されるようにしてもよい。例えば高域が出にくい環境で再生する場合には強調量が多めにされ、高域が元々大きめに再生される環境では強調量が少なめにされるようにしてもよい。
子音強調部28では、以上のようにして算出された強調量が用いられて、入力スペクトルの強調が行なわれる。
例えば、入力信号を強調する際に、入力信号の全ての帯域、または特定の定められた帯域に対して同じ強調量でスペクトルの強調を行なうと、子音成分だけでなくノイズ成分も同時に強調されてしまう。そうすると、強調後の音声は、ノイズ感の大きい不快な音声となってしまう。
そこで、子音強調装置11では、背景ノイズが優位なスペクトルについては強調が行なわれないようにする。
具体的には、子音強調レベル計算部27は、例えば図6に示すように、ノイズ抑圧スペクトルS(f)の値が、背景ノイズスペクトルN(f)の値の定位数倍よりも大きい場合にのみ強調が行なわれるようにする。
なお、図6において、折れ線C11乃至折れ線C13は、ノイズ抑圧スペクトルS(f)、背景ノイズスペクトルN(f)、および定数γが乗算された背景ノイズスペクトルN(f)を示している。また、図中、横軸は周波数を示しており、縦軸はパワーまたは振幅を示している。
図6の例では、折れ線C13により示される、背景ノイズスペクトルN(f)に予め定められた定数γが乗算された値と、曲線C11に示すノイズ抑圧スペクトルS(f)の値とが周波数ごとに比較される。すなわち、子音強調レベル計算部27は、定数γが乗算された背景ノイズスペクトルN(f)と、ノイズ抑圧スペクトルS(f)とを比較し、その比較結果と強調量を子音強調部28に供給する。
この例では、図中、上方向を向く矢印が記されている周波数において、ノイズ抑圧スペクトルS(f)が、背景ノイズスペクトルN(f)の定数γ倍の値よりも大きくなっており、この部分のスペクトルが強調される。上向きの矢印は、周波数成分が強調される様子を表している。
このように背景ノイズスペクトルN(f)との比較を行なうのは、子音フレームにおいて背景ノイズよりもパワーまたは振幅が大きい周波数帯域は子音成分が含まれている周波数帯域、つまり子音が関係している周波数帯域であるはずだからである。
また、ノイズ抑圧スペクトルS(f)が背景ノイズスペクトルN(f)の定数γ倍の値以下である周波数帯域は、子音等の音声よりも背景ノイズが優位な周波数帯域であるので、スペクトルの強調は行なわれない。
子音強調部28は、子音強調レベル計算部27からの比較結果に基づいて、ノイズ抑圧スペクトルS(f)の値が、定数γが乗算された背景ノイズスペクトルN(f)の値よりも大きい周波数についてのみ、入力スペクトルに強調量を乗算する。
このように、背景ノイズが優位なスペクトルについては強調を行わないようにすることで、強調後の音声の音質が、子音のみが強調されたように聞こえるものとなるように音声の子音部分を強調することができる。
但し、強調を行うスペクトルが歯抜けになるとミュージカルノイズと呼ばれる耳障りなノイズが発生する可能性があるため、周波数方向に強調量の補間を行うことが望ましい。例えば、強調量の補間は、ノイズ抑圧スペクトルS(f)の値と、定数γが乗算された背景ノイズスペクトルN(f)の値との比較結果に基づいて行なえばよい。
なお、図6では、定数γが1よりも大きい値である例について説明したが、定数γの値は、1より小さい値であってもよい。また、定数γの値は周波数ごとに異なる値とされるようにしてもよい。
以上のようにして、子音フレームにおける、背景ノイズが優位でない帯域のみスペクトルの強調を行なうと、強調後の入力スペクトルから、例えば図7に示す出力信号が得られる。なお、図7において縦軸は振幅を示しており、横軸は時間を示している。
図7では、矢印A61は、子音部分が強調される前の入力信号の時間波形を示しており、矢印A62は、子音部分が強調された出力信号の時間波形を示している。
この例では、矢印Q11乃至矢印Q19に示すように、入力信号の子音部分のレベルが強調されて、出力信号における、それらの子音部分と同じ部分のレベルが入力信号と比べてより大きくなっていることが分かる。
上述した従来の技術では、背景にノイズがある場合には、精度よく子音を検出することができなかった。これに対して、子音強調装置11では、背景ノイズを抑圧したノイズ抑圧スペクトルを求め、少なくともノイズ抑圧スペクトルを用いて得られた特徴量に基づいて、周波数領域で子音を検出することで、より高精度に子音を検出することができる。
また、従来の技術では、音声信号の時間領域での増幅を行なっているため、背景にノイズがある場合には、子音だけでなくノイズも増幅されてしまう。そうすると、増幅後の音声を再生すると、子音ではなくノイズが強調されたように聞こえてしまう。つまり、従来の技術では、ノイズを考慮した強調が行なわれていないため、増幅により得られる音声はノイズ感だけが強くなったように聞こえるものとなってしまう。
これに対して、子音強調装置11では、周波数領域において子音フレームの背景ノイズが優位な周波数帯域以外の周波数帯域を強調することで、子音のみを強調したような音声を得ることができる。つまり、より効果的に音声の強調を行なうことができる。
また、子音強調装置11では、周波数領域で母音部パワーや現フレームパワーを算出するので、パワーの算出を行う際に全帯域を用いるのではなく、音声が含まれない帯域を除外するなど、特定周波数帯域を選択的に用いてパワーを算出することができ、より自由度の高い処理を行なうことができる。
〈子音強調処理について〉
ところで、子音強調装置11に入力信号が供給され、入力信号の子音部分の強調が指示されると、子音強調装置11は子音強調処理を行い、出力信号を生成する。
以下、図8のフローチャートを参照して、子音強調装置11による子音強調処理について説明する。なお、子音強調処理は、入力信号のフレームごとに行われる。
ステップS11において、時間周波数変換部21は、供給された入力信号に対して時間周波数変換を行い、その結果得られた入力スペクトルを背景ノイズ推定部22、ノイズ抑圧スペクトル計算部23、子音強調レベル計算部27、および子音強調部28に供給する。
例えば、入力信号の処理対象のフレームである現フレームに対して窓関数が乗算され、さらに窓関数が乗算された信号が離散フーリエ変換されて入力スペクトルとされる。
ステップS12において、背景ノイズ推定部22は、時間周波数変換部21からの入力スペクトルに基づいて背景ノイズ推定を行い、得られた背景ノイズスペクトルをノイズ抑圧スペクトル計算部23、および子音強調レベル計算部27に供給する。
例えば、上述した式(1)または式(2)の計算が行なわれ、背景ノイズスペクトルN(f)が求められる。
ステップS13において、ノイズ抑圧スペクトル計算部23は、時間周波数変換部21からの入力スペクトルと、背景ノイズ推定部22からの背景ノイズスペクトルとに基づいてノイズ抑圧スペクトルを求め、ピッチ強度計算部24、特徴量計算部25、および子音強調レベル計算部27に供給する。例えば、上述した式(3)の計算が行なわれて、ノイズ抑圧スペクトルS(f)が求められる。
ステップS14において、ピッチ強度計算部24は、ノイズ抑圧スペクトル計算部23からのノイズ抑圧スペクトルに基づいて入力信号のピッチ強度を算出し、特徴量計算部25および子音検出部26に供給する。
ステップS15において、特徴量計算部25は、少なくともノイズ抑圧スペクトル計算部23から供給されたノイズ抑圧スペクトルを用いて特徴量を算出し、子音検出部26に供給する。例えば、特徴量計算部25は、図5を参照して説明したようにノイズ抑圧スペクトルを複数のバンドに分割し、各バンドの代表値を並べて得られるベクトルを特徴量とする。
ステップS16において、子音検出部26は子音検出処理を行なって現フレームの種別を特定し、その結果を子音強調レベル計算部27に供給する。
ここで、図9のフローチャートを参照して、図8のステップS16の処理に対応する子音検出処理について説明する。
ステップS51において、子音検出部26は、特徴量計算部25から供給された特徴量を線形判別式に代入する。例えば、上述した式(4)に示す線形判別式に特徴量を構成する各要素bが代入される。
ステップS52において、子音検出部26は、線形判別式への特徴量の代入結果が負の値であるか否かを判定する。
ステップS52において代入結果が負であると判定された場合、ステップS53において、子音検出部26は、現フレームは子音フレームであるとして、その旨の子音検出結果を子音強調レベル計算部27に供給する。子音検出結果が子音強調レベル計算部27に供給されると、子音検出処理は終了し、その後、処理は図8のステップS17に進む。
これに対して、ステップS52において代入結果が負でないと判定された場合、ステップS54において、子音検出部26は、ピッチ強度計算部24から供給されたピッチ強度が所定の閾値よりも大きいか否かを判定する。
ステップS54において、ピッチ強度が閾値よりも大きいと判定された場合、ステップS55において、子音検出部26は、現フレームは母音フレームであるとして、その旨の子音検出結果を子音強調レベル計算部27に供給する。子音検出結果が子音強調レベル計算部27に供給されると、子音検出処理は終了し、その後、処理は図8のステップS17に進む。
また、ステップS54において、ピッチ強度が閾値以下であると判定された場合、ステップS56において、子音検出部26は、現フレームは子音フレームでも母音フレームでもない、その他のフレームであるとする。そして、子音検出部26は、現フレームはその他のフレームである旨の子音検出結果を子音強調レベル計算部27に供給する。子音検出結果が子音強調レベル計算部27に供給されると、子音検出処理は終了し、その後、処理は図8のステップS17に進む。
図8のフローチャートの説明に戻り、ステップS16において子音検出が行なわれると、ステップS17において、子音強調レベル計算部27は強調量算出処理を行なって、その結果得られた強調量を子音強調部28に供給する。
ここで、図10のフローチャートを参照して、図8のステップS17の処理に対応する強調量算出処理について説明する。
ステップS81において、子音強調レベル計算部27は、子音検出部26からの子音検出結果に基づいて、現フレームは子音フレームであるか否かを判定する。
ステップS81において、子音フレームではないと判定された場合、ステップS82において、子音強調レベル計算部27は、子音検出部26からの子音検出結果に基づいて、現フレームは母音フレームであるか否かを判定する。
ステップS82において、現フレームは母音フレームではないと判定された場合、つまり現フレームはその他のフレームであると判定された場合、入力スペクトルの強調量は出力されずに強調量算出処理は終了し、その後、処理は図8のステップS18に進む。なお、この場合、現フレームは子音フレームではないので、ステップS18では入力スペクトルの強調は行なわれない。
また、ステップS82において、現フレームは母音フレームであると判定された場合、ステップS83において、子音強調レベル計算部27は、保持している母音部パワーと、時間周波数変換部21からの入力スペクトルとに基づいて、母音部パワーを更新する。例えば、現フレームを含む過去の母音フレームの入力スペクトルのパワーの平均値が、更新後の母音部パワーとされ、子音強調レベル計算部27に保持される。
母音部パワーが更新されると強調量算出処理は終了し、その後、処理は図8のステップS18に進む。この場合においても、現フレームは子音フレームではないので、ステップS18において入力スペクトルの強調は行なわれない。
さらに、ステップS81において、現フレームが子音フレームであると判定された場合、ステップS84の処理が行なわれる。
すなわち、ステップS84において、子音強調レベル計算部27は、保持している母音部パワーと、時間周波数変換部21からの入力スペクトルとに基づいて強調量を算出し、子音強調部28に供給する。例えば、上述した式(5)の計算が行なわれ、強調量が算出される。
ステップS85において、子音強調レベル計算部27は、背景ノイズ推定部22からの背景ノイズスペクトルと、ノイズ抑圧スペクトル計算部23からのノイズ抑圧スペクトルとを比較して、その比較結果を子音強調部28に供給する。
例えば、図6を参照して説明したように、背景ノイズスペクトルN(f)に定数γが乗算された値と、ノイズ抑圧スペクトルS(f)の値とが周波数ごとに比較される。
背景ノイズスペクトルとノイズ抑圧スペクトルとの比較結果が子音強調部28に供給されると、強調量算出処理は終了し、その後、処理は図8のステップS18に進む。
図8のフローチャートの説明に戻り、ステップS18において、子音強調部28は、子音強調レベル計算部27から供給された強調量を、時間周波数変換部21から供給された入力スペクトルに乗算して入力スペクトルを強調し、周波数時間変換部29に供給する。
より具体的には、子音強調部28は、子音強調レベル計算部27から供給された比較結果に基づいて、入力スペクトルのうち、背景ノイズが優位であるとされた周波数帯域以外の周波数帯域に強調量を乗算する。
なお、現フレームが子音フレームではない場合には、入力スペクトルの強調は行なわれず、子音強調部28は、時間周波数変換部21から供給された入力スペクトルをそのまま周波数時間変換部29に供給する。
ステップS19において、周波数時間変換部29は、子音強調部28から供給された入力スペクトルに対して周波数時間変換を行なって、入力スペクトルを時間信号である出力信号に変換し、出力する。出力信号が出力されると、子音強調処理は終了する。
以上のようにして、子音強調装置11は、背景ノイズを抑圧したノイズ抑圧スペクトルを求め、ノイズ抑圧スペクトルから得られた特徴量に基づいて周波数領域で子音を検出するとともに、その検出結果に応じて子音フレームを強調する。
このようにノイズ抑圧スペクトルを用いて周波数領域で子音を検出することで、より高精度に子音を検出することができる。また、周波数領域において子音フレームの背景ノイズが優位な周波数帯域以外の周波数帯域を強調することで、より効果的に音声の強調を行なうことができる。
〈第1の実施の形態の変形例1〉
〈子音強調装置の構成例〉
なお、以上においては、入力スペクトルに基づいて強調量が算出されると説明したが、入力信号に基づいて、時間領域で強調量が算出されるようにしてもよい。
そのような場合、子音強調装置11は、例えば図11に示すように構成される。なお、図11において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図11に示す子音強調装置11は、供給された入力信号が子音強調レベル計算部27にも供給される点で図1の子音強調装置11と異なり、その他の点では図1の子音強調装置11と同じ構成とされている。
図11に示す子音強調装置11では、子音強調レベル計算部27は、供給された入力信号に基づいて、時間領域で母音部パワーや、子音フレームであるとされた現フレームの入力信号のパワーを算出する。したがって、式(5)に示した強調量は、時間信号である入力信号から算出されることになる。なお、例えば入力信号のパワーは、RMS(Root Mean Square)などとすればよい。
また、時間周波数変換部21は、時間周波数変換により得られた入力スペクトルを背景ノイズ推定部22、ノイズ抑圧スペクトル計算部23、および子音強調部28に供給する。
〈第1の実施の形態の変形例2〉
〈子音強調装置の構成例〉
さらに、以上においてはノイズ抑圧スペクトルに基づいて、入力信号のピッチ強度が算出される例について説明したが、入力信号に基づいて時間領域でピッチ強度が算出されるようにしてもよい。
そのような場合、子音強調装置11は、例えば図12に示すように構成される。なお、図12において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図12に示す子音強調装置11は、供給された入力信号がピッチ強度計算部24にも供給される点で図1の子音強調装置11と異なり、その他の点では図1の子音強調装置11と同じ構成とされている。
図12に示す子音強調装置11では、ピッチ強度計算部24は、供給された時間信号である入力信号の自己相関を求めることでピッチ強度を算出し、特徴量計算部25および子音検出部26に供給する。つまり、ピッチ強度計算部24では、時間領域において、入力信号に基づいて算出された自己相関係数値が、そのままピッチ強度とされる。
また、ノイズ抑圧スペクトル計算部23は、ノイズ抑圧により得られたノイズ抑圧スペクトルを特徴量計算部25、および子音強調レベル計算部27に供給する。
〈第1の実施の形態の変形例3〉
〈子音強調装置の構成例〉
さらに、強調量とピッチ強度の両方が時間領域で算出されるようにしてもよい。そのような場合、子音強調装置11は、例えば図13に示すように構成される。なお、図13において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図13に示す子音強調装置11は、供給された入力信号が時間周波数変換部21の他に、ピッチ強度計算部24、および子音強調レベル計算部27にも供給される点で図1の子音強調装置11と異なり、その他の点では図1の子音強調装置11と同じ構成とされている。
図13に示す子音強調装置11では、時間周波数変換部21は、時間周波数変換により得られた入力スペクトルを背景ノイズ推定部22、ノイズ抑圧スペクトル計算部23、および子音強調部28に供給する。
ピッチ強度計算部24は、供給された時間信号である入力信号に基づいてピッチ強度を算出し、特徴量計算部25および子音検出部26に供給する。また、ノイズ抑圧スペクトル計算部23は、ノイズ抑圧により得られたノイズ抑圧スペクトルを特徴量計算部25、および子音強調レベル計算部27に供給する。
さらに、子音強調レベル計算部27は、供給された入力信号に基づいて母音部パワーや、子音フレームであるとされた現フレームの入力信号のパワーを算出する。つまり、強調量が時間領域で計算される。
〈第2の実施の形態〉
〈子音検出装置の構成例〉
さらに、以上においては、入力信号から子音部分を検出し、子音のスペクトルを強調する子音強調装置に本技術を適用する例について説明したが、本技術は、入力信号から子音フレームを検出する子音検出装置に適用されるようにしてもよい。
そのような場合、子音検出装置は、例えば図14に示すように構成される。なお、図14において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図14の子音検出装置61は、時間周波数変換部21、背景ノイズ推定部22、ノイズ抑圧スペクトル計算部23、ピッチ強度計算部24、特徴量計算部25、および子音検出部26から構成される。
時間周波数変換部21は、供給された入力信号に対して時間周波数変換を行い、その結果得られた入力スペクトルを背景ノイズ推定部22およびノイズ抑圧スペクトル計算部23に供給する。
背景ノイズ推定部22は、時間周波数変換部21からの入力スペクトルに基づいて背景ノイズ推定を行い、その結果得られた背景ノイズスペクトルをノイズ抑圧スペクトル計算部23に供給する。ノイズ抑圧スペクトル計算部23は、時間周波数変換部21からの入力スペクトルと、背景ノイズ推定部22からの背景ノイズスペクトルとに基づいてノイズ抑圧スペクトルを求め、特徴量計算部25に供給する。
ピッチ強度計算部24は、供給された時間信号である入力信号に基づいて、時間領域においてピッチ強度を算出し、特徴量計算部25および子音検出部26に供給する。
特徴量計算部25は、ノイズ抑圧スペクトル計算部23からのノイズ抑圧スペクトルに基づいて、またはノイズ抑圧スペクトルと、ピッチ強度計算部24からのピッチ強度とに基づいて特徴量を算出し、子音検出部26に供給する。
子音検出部26は、ピッチ強度計算部24からのピッチ強度と、特徴量計算部25からの特徴量とに基づいて、入力信号の子音区間を検出し、その検出結果を後段に出力する。すなわち、子音検出部26では、例えば図9のフローチャートを参照して説明した子音検出処理と同様の処理が行なわれる。
このように子音検出装置61においても、子音強調装置11における場合と同様に、より精度よく入力信号から子音を検出することができる。
〈第2の実施の形態の変形例1〉
〈子音検出装置の構成例〉
また、図14に示した子音検出装置61では、ピッチ強度が時間領域で求められる例について説明したが、ピッチ強度が周波数領域で求められるようにしてもよい。
そのような場合、子音検出装置61は、例えば図15に示すように構成される。なお、図15において、図14における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図15に示す子音検出装置61は、入力信号が時間周波数変換部21のみに供給され、ノイズ抑圧スペクトル計算部23からピッチ強度計算部24にノイズ抑圧スペクトルが供給される点で図14の子音検出装置61と異なり、その他の点では図14の子音検出装置61と同じ構成とされている。
ノイズ抑圧スペクトル計算部23は、背景ノイズの抑圧により得られたノイズ抑圧スペクトルをピッチ強度計算部24、および特徴量計算部25に供給する。
ピッチ強度計算部24は、ノイズ抑圧スペクトル計算部23から供給されたノイズ抑圧スペクトルに基づいて、周波数領域で入力信号のピッチ強度を算出し、特徴量計算部25および子音検出部26に供給する。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
バス304には、さらに、入出力インターフェース305が接続されている。入出力インターフェース305には、入力部306、出力部307、記録部308、通信部309、及びドライブ310が接続されている。
入力部306は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部307は、ディスプレイ、スピーカなどよりなる。記録部308は、ハードディスクや不揮発性のメモリなどよりなる。通信部309は、ネットワークインターフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア311を駆動する。
以上のように構成されるコンピュータでは、CPU301が、例えば、記録部308に記録されているプログラムを、入出力インターフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インターフェース305を介して、記録部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記録部308にインストールすることができる。その他、プログラムは、ROM302や記録部308に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
[1]
入力信号の背景ノイズを推定する背景ノイズ推定部と、
前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧するノイズ抑圧部と、
前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出する特徴量計算部と、
前記特徴量に基づいて、前記入力信号から子音を検出する子音検出部と
を備える音声処理装置。
[2]
前記背景ノイズ推定部は、周波数領域で前記背景ノイズを推定し、
前記ノイズ抑圧部は、前記入力信号から得られた入力スペクトルに含まれる前記背景ノイズを抑圧することでノイズ抑圧スペクトルを求め、
前記特徴量計算部は、前記ノイズ抑圧スペクトルに基づいて前記特徴量を算出する
[1]に記載の音声処理装置。
[3]
前記背景ノイズ推定部は、過去の前記入力スペクトルの平均値を求めることで前記背景ノイズを推定する
[2]に記載の音声処理装置。
[4]
前記ノイズ抑圧スペクトルの値が、前記背景ノイズの推定により得られた背景ノイズスペクトルを定数倍した値よりも大きい周波数について、前記入力スペクトルの強調を行なう子音強調部をさらに備える
[2]または[3]に記載の音声処理装置。
[5]
前記子音強調部は、予め定められた強調量で前記入力スペクトルの強調を行なう
[4]に記載の音声処理装置。
[6]
前記入力信号の過去の母音部分のパワーの平均値と、前記入力信号の現在のパワーとの比に基づいて強調量を算出する子音強調レベル計算部をさらに備え、
前記子音強調部は、前記強調量で前記入力スペクトルの強調を行なう
[4]に記載の音声処理装置。
[7]
周波数方向に対して前記強調量の補間が行なわれる
[5]または[6]に記載の音声処理装置。
[8]
前記ノイズ抑圧部は、スペクトルサブトラクション法により前記ノイズ抑圧スペクトルを求める
[2]乃至[7]の何れかに記載の音声処理装置。
[9]
前記入力信号のピッチ強度がさらに前記特徴量として用いられ、
前記子音検出部は、前記特徴量としての前記ピッチ強度と、前記ノイズ抑圧スペクトルに基づいて算出された前記特徴量とに基づいて、前記入力信号から子音を検出する
[2]乃至[8]の何れかに記載の音声処理装置。
[10]
前記ピッチ強度は、前記ノイズ抑圧スペクトルのピークが、ピッチ周波数位置と、ピッチ周波数の倍音周波数位置とに発生している度合いで表される
[9]に記載の音声処理装置。
[11]
前記ピッチ強度は、前記入力信号の自己相関係数値である
[9]に記載の音声処理装置。
[12]
前記特徴量計算部は、前記ノイズ抑圧スペクトルの周波数帯域を複数のバンドに分割し、前記バンドにおける前記ノイズ抑圧スペクトルの代表値に基づいて前記特徴量を算出する
[2]乃至[11]の何れかに記載の音声処理装置。
[13]
前記ノイズ抑圧スペクトルはパワースペクトルである
[12]に記載の音声処理装置。
[14]
前記ノイズ抑圧スペクトルは振幅スペクトルである
[12]に記載の音声処理装置。
[15]
前記代表値は、前記バンドにおける前記ノイズ抑圧スペクトルの平均値である
[12]乃至[14]の何れかに記載の音声処理装置。
[16]
前記代表値は、前記バンドにおける前記ノイズ抑圧スペクトルの最大値である
[12]乃至[14]の何れかに記載の音声処理装置。
[17]
前記特徴量計算部は、前記ノイズ抑圧スペクトルにおける前記バンドの前記代表値の時間差分値を前記特徴量として算出する
[12]乃至[16]の何れかに記載の音声処理装置。
11 子音強調装置, 21 時間周波数変換部, 22 背景ノイズ推定部, 23 ノイズ抑圧スペクトル計算部, 24 ピッチ強度計算部, 25 特徴量計算部, 26 子音検出部, 27 子音強調レベル計算部, 28 子音強調部, 29 周波数時間変換部, 61 子音検出装置

Claims (19)

  1. 入力信号の背景ノイズを推定する背景ノイズ推定部と、
    前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧するノイズ抑圧部と、
    前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出する特徴量計算部と、
    前記特徴量に基づいて、前記入力信号から子音を検出する子音検出部と
    を備える音声処理装置。
  2. 前記背景ノイズ推定部は、周波数領域で前記背景ノイズを推定し、
    前記ノイズ抑圧部は、前記入力信号から得られた入力スペクトルに含まれる前記背景ノイズを抑圧することでノイズ抑圧スペクトルを求め、
    前記特徴量計算部は、前記ノイズ抑圧スペクトルに基づいて前記特徴量を算出する
    請求項1に記載の音声処理装置。
  3. 前記背景ノイズ推定部は、過去の前記入力スペクトルの平均値を求めることで前記背景ノイズを推定する
    請求項2に記載の音声処理装置。
  4. 前記ノイズ抑圧スペクトルの値が、前記背景ノイズの推定により得られた背景ノイズスペクトルを定数倍した値よりも大きい周波数について、前記入力スペクトルの強調を行なう子音強調部をさらに備える
    請求項3に記載の音声処理装置。
  5. 前記子音強調部は、予め定められた強調量で前記入力スペクトルの強調を行なう
    請求項4に記載の音声処理装置。
  6. 前記入力信号の過去の母音部分のパワーの平均値と、前記入力信号の現在のパワーとの比に基づいて強調量を算出する子音強調レベル計算部をさらに備え、
    前記子音強調部は、前記強調量で前記入力スペクトルの強調を行なう
    請求項4に記載の音声処理装置。
  7. 周波数方向に対して前記強調量の補間が行なわれる
    請求項6に記載の音声処理装置。
  8. 前記ノイズ抑圧部は、スペクトルサブトラクション法により前記ノイズ抑圧スペクトルを求める
    請求項2に記載の音声処理装置。
  9. 前記入力信号のピッチ強度がさらに前記特徴量として用いられ、
    前記子音検出部は、前記特徴量としての前記ピッチ強度と、前記ノイズ抑圧スペクトルに基づいて算出された前記特徴量とに基づいて、前記入力信号から子音を検出する
    請求項2に記載の音声処理装置。
  10. 前記ピッチ強度は、前記ノイズ抑圧スペクトルのピークが、ピッチ周波数位置と、ピッチ周波数の倍音周波数位置とに発生している度合いで表される
    請求項9に記載の音声処理装置。
  11. 前記ピッチ強度は、前記入力信号の自己相関係数値である
    請求項9に記載の音声処理装置。
  12. 前記特徴量計算部は、前記ノイズ抑圧スペクトルの周波数帯域を複数のバンドに分割し、前記バンドにおける前記ノイズ抑圧スペクトルの代表値に基づいて前記特徴量を算出する
    請求項2に記載の音声処理装置。
  13. 前記ノイズ抑圧スペクトルはパワースペクトルである
    請求項12に記載の音声処理装置。
  14. 前記ノイズ抑圧スペクトルは振幅スペクトルである
    請求項12に記載の音声処理装置。
  15. 前記代表値は、前記バンドにおける前記ノイズ抑圧スペクトルの平均値である
    請求項12に記載の音声処理装置。
  16. 前記代表値は、前記バンドにおける前記ノイズ抑圧スペクトルの最大値である
    請求項12に記載の音声処理装置。
  17. 前記特徴量計算部は、前記ノイズ抑圧スペクトルにおける前記バンドの前記代表値の時間差分値を前記特徴量として算出する
    請求項12に記載の音声処理装置。
  18. 入力信号の背景ノイズを推定し、
    前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧し、
    前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出し、
    前記特徴量に基づいて、前記入力信号から子音を検出する
    ステップを含む音声処理方法。
  19. 入力信号の背景ノイズを推定し、
    前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧し、
    前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出し、
    前記特徴量に基づいて、前記入力信号から子音を検出する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2012277662A 2012-12-20 2012-12-20 音声処理装置および方法、並びにプログラム Pending JP2014122939A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012277662A JP2014122939A (ja) 2012-12-20 2012-12-20 音声処理装置および方法、並びにプログラム
CN201310684752.XA CN103886865A (zh) 2012-12-20 2013-12-13 声音处理装置、声音处理方法和程序
US14/132,406 US20140177853A1 (en) 2012-12-20 2013-12-18 Sound processing device, sound processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012277662A JP2014122939A (ja) 2012-12-20 2012-12-20 音声処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2014122939A true JP2014122939A (ja) 2014-07-03

Family

ID=50955723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012277662A Pending JP2014122939A (ja) 2012-12-20 2012-12-20 音声処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US20140177853A1 (ja)
JP (1) JP2014122939A (ja)
CN (1) CN103886865A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020010149A (ja) * 2018-07-06 2020-01-16 カシオ計算機株式会社 音声信号処理装置、音声信号処理方法、および補聴器

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666734B2 (en) * 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
JP6206271B2 (ja) * 2014-03-17 2017-10-04 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法及び雑音低減プログラム
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
WO2016046421A1 (en) * 2015-11-19 2016-03-31 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for voiced speech detection
CN108461090B (zh) * 2017-02-21 2021-07-06 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
EP3792917B1 (en) * 2018-05-10 2022-12-28 Nippon Telegraph And Telephone Corporation Pitch enhancement apparatus, method, computer program and recording medium for the same
TWI662544B (zh) * 2018-05-28 2019-06-11 塞席爾商元鼎音訊股份有限公司 偵測環境噪音以改變播放語音頻率之方法及其聲音播放裝置
CN111107478B (zh) * 2019-12-11 2021-04-09 江苏爱谛科技研究院有限公司 一种声音增强方法及声音增强系统
CN113541851B (zh) * 2021-07-20 2022-04-15 成都云溯新起点科技有限公司 一种稳态宽带电磁频谱抑制方法
CN113724734B (zh) * 2021-08-31 2023-07-25 上海师范大学 声音事件的检测方法、装置、存储介质及电子装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US7912729B2 (en) * 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020010149A (ja) * 2018-07-06 2020-01-16 カシオ計算機株式会社 音声信号処理装置、音声信号処理方法、および補聴器
JP7176260B2 (ja) 2018-07-06 2022-11-22 カシオ計算機株式会社 音声信号処理装置、音声信号処理方法、および補聴器

Also Published As

Publication number Publication date
CN103886865A (zh) 2014-06-25
US20140177853A1 (en) 2014-06-26

Similar Documents

Publication Publication Date Title
JP2014122939A (ja) 音声処理装置および方法、並びにプログラム
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
JP4279357B2 (ja) 特に補聴器における雑音を低減する装置および方法
JP4520732B2 (ja) 雑音低減装置、および低減方法
JP3963850B2 (ja) 音声区間検出装置
US8073689B2 (en) Repetitive transient noise removal
JP5870476B2 (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
JP5071346B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP4836720B2 (ja) ノイズサプレス装置
Yong et al. Optimization and evaluation of sigmoid function with a priori SNR estimate for real-time speech enhancement
JP4519169B2 (ja) 信号処理方法および信号処理装置
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
EP1806739A1 (en) Noise suppressor
KR20150005979A (ko) 오디오 신호 프로세싱을 위한 시스템들 및 방법들
KR101088627B1 (ko) 잡음 억압 장치 및 잡음 억압 방법
JP2014106494A (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
CN105144290B (zh) 信号处理装置、信号处理方法和信号处理程序
KR20150032390A (ko) 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
JP2003280696A (ja) 音声強調装置及び音声強調方法
JP4757775B2 (ja) 雑音抑圧装置
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
EP2151820B1 (en) Method for bias compensation for cepstro-temporal smoothing of spectral filter gains
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
JP4123835B2 (ja) 雑音抑圧装置および雑音抑圧方法
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置