以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。
まず、本発明の実施形態に係る音素分割装置について説明する前に、従来の音素分割装置の一例について説明する。
図1は、従来の音素分割装置の一例を説明するための図である。図1に音素分割装置100は、マイクアンプ104と、絶対値回路106と、時定数回路108と、比較器110と、可変抵抗器112と、ゲート回路114とを備える。
マイクアンプ104は、マイクロホン102に接続される。マイクロホン102は、原音声(マスキー)を集音し、音信号に変換する。この音信号は、音声に暗騒音が重畳されたものである。マイクアンプ104は、マイクロホン102からの音信号を増幅する。マイクアンプ104から出力された音信号X(t)は、分岐部105で2つに分岐され、一方の音信号X(t)は絶対値回路106に入力され、他方の音信号X(t)はゲート回路114に入力される。絶対値回路106は、音信号X(t)の絶対値を出力する。絶対値回路106から出力された音信号の絶対値|X(t)|は、時定数回路108に入力される。時定数回路108は、抵抗値Rの抵抗器および容量値Cのコンデンサから構成された一次のローパスフィルタであり、その時定数τ=RCは100ms程度に設定される。時定数回路108は、音信号の絶対値|X(t)|を平滑化する。時定数回路108による平滑化処理により、音信号の絶対値|X(t)|から時定数τよりも速い成分が取り除かれ、包絡線信号A(t)が得られる。比較器110は、包絡線信号A(t)と、所定の閾値Tとを比較し、A(t)≧Tとなるタイミングでゲート回路114を開状態とする。これにより、ゲート回路114が開状態のときの音信号の区間が、音素(mora)として分割・抽出される。
音素分割装置100において、閾値Tは、電源電圧+Vcを可変抵抗器112で調整することにより手動で設定される。音声を高い精度で音素に分割するためには、この閾値Tの設定が重要である。
図2(a)〜(e)は、図1に示す音素分割装置100による音素分割処理を説明するための図である。図2(a)〜(e)の縦軸は信号レベルを任意の単位で表し、横軸は時間tを表す。図2(a)は、マイクアンプ104から出力される音信号X(t)の波形を示す。図2(b)は、絶対値回路106から出力される音信号の絶対値|X(t)|の波形と、時定数回路108から出力される包絡線信号A(t)の波形を示す。包絡線信号A(t)の波形の「略一山」が一つの音素(1mora)に対応する。
図2(b)に示すように、本例において包絡線信号A(t)は6個の「略一山」、すなわち音素1〜6を含んでいる。また、図2(b)には、比較器110において包絡線信号A(t)から音素を分割する際に用いる3段階の閾値T(閾値T1〜T3)が図示されている。図2(c)〜(e)は、ゲート回路114からの出力信号の波形、すなわち、音素分割装置100による音素分割結果を示す。音素分割装置100による音素分割結果は、閾値Tに依存する。
図2(c)は、閾値Tを暗騒音のレベルより十分大きな閾値T1に設定したときの音素分割結果を示す。音素分割装置100のように音信号の包絡線と閾値を比較することで音素分割を行う方法においては、できるだけ安定に音素を分割・抽出しようとすると閾値Tを暗騒音のレベルより十分大きな値に設定することとなる。この場合、図2(c)に示すように、音素4,6のような小さいレベルの音素が欠落する可能性がある。
図2(e)は、閾値Tを暗騒音のレベルと同程度の小さな閾値T3に設定したときの音素分割結果を示す。この場合、図2(e)に示すように、隣接する音素1と2および隣接する音素3〜5が分割されていない。このように、閾値Tを小さな閾値T3に設定した場合、音素間の境界があいまいとなり、図2(e)に示すように複数の音素が分割されずに繋がってしまう可能性がある。
図2(d)は、閾値Tを暗騒音のレベルにマージンHを加えた最適な閾値T2に設定したときの音素分割結果を示す。この場合、図2(d)に示すように音素1〜6が適切に分割されている。このように、適切な音素分割を行うためには、暗騒音のレベルを正確に検知し、この暗騒音のレベルよりも僅かに大きな値を閾値Tに設定することが重要である。
一般的な室や空間の暗騒音は、短い時間ではほぼ一定しているのに、長時間でみると午前と午後、昼食時と執務時というように、かなり大きく変動する傾向がある。従って、ある時間の暗騒音のレベルに基づいて閾値Tを設定したとしても、暗騒音のレベル変動に起因して適切な音素分割を行うことができない可能性がある。また、暗騒音のレベル変動に合わせて閾値Tを手作業で調整するのは大変な作業である。
上記のような従来の音素分割装置の課題を認識した上で、本発明者は、暗騒音のレベルが変動した場合であっても適切な音素分割を自動で実行することを可能ならしめる音素分割方法及び装置を発明した。
図3は、本発明の実施形態に係る音素分割装置10を説明するための図である。図3に示すように、音素分割装置10は、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、音声用時定数回路18と、暗騒音用時定数回路20と、音声用平方根回路22と、暗騒音用平方根回路24と、バッファアンプ26と、加算器28と、可変抵抗器29と、比較器30と、ゲート回路32とを備える。
マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。
バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。このバンドパスフィルタ15は、例えば成人音声の平均スペクトルに対応する通過帯域(例えば100Hz〜7kHz、より好適には250Hz〜4kHz)を有する。バンドパスフィルタ15を設けることにより、音素の分割・抽出精度を向上できる。
バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。すなわち、X(t)=x(t)+n(t)と表される。
バンドパスフィルタ15から出力された音信号X(t)は、第1分岐部13で2つに分岐される。第1分岐部13で分岐された一方の音信号X(t)は自乗回路16に入力され、他方の音信号X(t)はゲート回路32に入力される。図3から分かるように、本実施形態では第1分岐部13の前段にバンドパスフィルタ15が設けられている。また、第1分岐部13と第2分岐部17との間には自乗回路16が設けられている。
自乗回路16は、第1分岐部13で分岐された一方の音信号X(t)の自乗信号X2(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16から出力された自乗信号X2(t)は、第2分岐部17で2つの分岐される。第2分岐部17で分岐された一方の自乗信号X2(t)は音声用時定数回路18に入力され、他方の自乗信号X2(t)は暗騒音用時定数回路20に入力される。
音声用時定数回路18は、抵抗値Rの第1抵抗器34と、容量値Cの第2コンデンサ36とから構成される一次のローパスフィルタである。第1抵抗器34の一方の端子は自乗回路16に接続され、他方の端子は音声用平方根回路22に接続されている。第2コンデンサ36の一方の端子は第1抵抗器34の他方の端子に接続され、第2コンデンサ36の他方の端子は接地されている。音声用時定数回路18の時定数(以下、「音声用時定数」と呼ぶ)τv=RCは、数10ms〜数100ms(例えば125ms)の比較的小さい値に設定される。音声用時定数回路18は、自乗信号X2(t)を音声用時定数τvで平滑化(平均化)する。音声用時定数回路18による平滑化処理(平均化処理)により、自乗信号X2(t)から音声用時定数τvよりも速い成分が取り除かれ、自乗信号X2(t)の包絡線信号が得られる。
音声用時定数回路18の後段に設けられた音声用平方根回路22は、音声用時定数回路18から入力された信号の平方根を演算する。この音声用平方根回路22から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値x
rmsと見なすことができる(以下の数式参照)。以下、A(t)を「音声包絡線信号」と呼ぶ。
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20は、抵抗値R’の第2抵抗器38と、容量Cの第2コンデンサ40と、ダイオード42と、抵抗値Rの第3抵抗器44とから成る。第2抵抗器38の一方の端子は自乗回路16に接続され、他方の端子は暗騒音用平方根回路24に接続されている。ダイオード42のカソード端子は自乗回路16に接続され、アノード端子は第3抵抗器44の一方の端子に接続されている。第3抵抗器44の他方の端子は暗騒音用平方根回路24に接続されている。第2コンデンサ40の一方の端子は第2抵抗器38および第3抵抗器44の他方の端子接続され、第2コンデンサ40の他方の端子は接地されている。
このように構成された暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、第2抵抗器38と第2コンデンサ40から構成される時定数(以下、「立ち上がり用時定数」と呼ぶ)τu=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、第3抵抗器44と第2コンデンサ40から構成される時定数(以下、「立ち下がり用時定数」と呼ぶ)τd=RCのローパスフィルタで平滑化が行われる。
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τuは、立ち下がり用時定数τdよりも非常に大きな値に設定される。すなわち、暗騒音用時定数回路20は、非対称な2つの時定数で構成される。具体的には、立ち上がり用時定数τuは、立ち下がり用時定数τdより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τu=R’C≧300τd〜3000τdのように設定されてよい。一方、立ち下がり用時定数τdは、音声用時定数回路18の音声用時定数τvと略同じ値に設定される。本実施形態では、立ち下がり用時定数τdは音声用時定数に等しい(すなわち、τd=τv=RC)。
暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。暗騒音用時定数回路20の立ち上がり用時定数τuは、音声用時定数回路18の音声用時定数τvよりも非常に大きな値に設定されるため、B(t)は音声信号x(t)のレベル変化にはほとんど不感で、一般的にはほぼ一定と考えられる暗騒音レベル(例えば、銀行ロビーや病院の待合室などの暗騒音レベル)、つまり音信号X(t)の最低レベル付近に維持される。すなわち、B(t)は音素(mora)間の僅かの無音部(途切れ目)を通じて素早く暗騒音レベルまで低下し、全体において常に暗騒音に等しいレベルを維持する。
しかし場合によっては、大声の人が連続して話したり、短時間の始業ベルが鳴ったりしてゆっくりではあるが信号B(t)が上昇することがあるため、それらが停止した時点で速やかに本来の暗騒音レベルに戻るよう、立ち下がり用時定数τ
dについては立ち上がり用時定数τ
uとは異なる値、具体的には音声用時定数回路18の音声用時定数τ
vと同程度の時定数となっている。これにより、信号B(t)は朝の早い時間から午前中にかけて、また昼食時から午後にかけて、といった対称空間のゆっくりした暗騒音変化には追従するが、音声程度の速いレベル変化にはほとんど追従せず不感、ということになる。このように変化する信号B(t)は、刻々変化する音声包絡線信号A(t)に対し、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値n
rmsと見なすことができる(以下の数式参照)。以下、B(t)を「暗騒音包絡線信号」と呼ぶ。
比較器30は、音声用平方根回路22から出力された音声包絡線信号A(t)と暗騒音用平方根回路24から出力された暗騒音包絡線信号B(t)とを比較する。ここで、本実施形態では、比較器30に入力する前に、暗騒音包絡線信号B(t)をバッファアンプ26を用いて所定の増幅率mで増幅し、さらに加算器28を用いて所定のオフセット値hを加算している。すなわち、本実施形態では、音声包絡線信号A(t)とB’(t)=mB(t)+hとが比較器30で比較される。以下、B’(t)=mB(t)+hを「閾値信号」と呼ぶ。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。一般に暗騒音レベルは音声レベルに対し十分低いので、このようにB(t)よりも僅かに大きな閾値信号B’(t)と音声包絡線信号A(t)とを比較することで、音素分割を安全・安定に行うことができる。変形例では、音声包絡線信号A(t)と暗騒音包絡線信号B(t)とが直接比較されてもよい。
比較器30は、音声包絡線信号A(t)が閾値信号B’(t)以上(すなわち、A(t)≧B’(t))となる区間でゲート回路32にハイレベルを出力し、音声包絡線信号A(t)が閾値信号B’(t)未満(すなわち、A(t)<B’(t))となる区間でゲート回路32にローレベルを出力する。
ゲート回路32は、比較器30の比較結果に応じて、第1分岐部13で分岐された他方の音信号X(t)の通過/非通過を制御する。すなわち、ゲート回路32は、比較器30からハイレベルを受けたときは開状態となって音号X(t)を通過させ、比較器30からローレベルを受けたときには閉状態となって音号X(t)を非通過とする。このような動作により、ゲート回路32から音素信号が出力される。
図4(a)〜(f)は、図3に示す音素分割装置10による音素分割処理を説明するための図である。図4(a)〜(f)の縦軸は信号レベルvを単位mVで表し、横軸は時間tを単位msで表す。
図4(a)は、バンドパスフィルタ15から出力される音信号X(t)の波形を示す。音信号X(t)は、音声信号x(t)に暗騒音信号n(t)が重畳されたものである。この音信号X(t)は、第1分岐部13で2つに分岐される。分岐された一方の音信号X(t)は自乗回路16に入力され、他方の音信号X(t)はゲート回路32に入力される。
図4(b)は、自乗回路16から出力された自乗信号X2(t)の波形を示す。図4(b)に示すように、自乗信号X2(t)は正の成分のみを含む。この自乗信号X2(t)は、第2分岐部17で2つに分岐される。分岐された一方の自乗信号X2(t)は音声用時定数回路18に入力され、他方の自乗信号X2(t)は暗騒音用時定数回路20に入力される。
音声用時定数回路18で平滑化された信号は、音声用平方根回路22でその平方根がとられる。この平方根は音声包絡線信号A(t)となる。図4(c)は、音声用平方根回路22から出力される音声包絡線信号A(t)の波形を示す。図4(c)に示すように、音声包絡線信号A(t)は、ほぼ入力原音声の実効値xrmsに追従して変化する正の波形である。
一方、暗騒音用時定数回路20で平滑化された信号は、暗騒音用平方根回路24でその平方根がとられる。この平方根は暗騒音包絡線信号B(t)となる。図4(d)は、暗騒音用平方根回路24から出力される暗騒音包絡線信号B(t)の波形を示す。図4(d)に示すように、暗騒音包絡線信号B(t)は、入力原音声にはほとんど追従せず、入力原音声の途切れ部分においてのみこれに沿って急速に最低値、即ち暗騒音レベルまで低下する。つまり、B(t)は常に暗騒音のレベルに維持され、音素分割の域値として利用することができる。
暗騒音用平方根回路24から出力された暗騒音包絡線信号B(t)は、バッファアンプ26でm倍に増幅された後、加算器28でオフセット値hが加算され、閾値信号B’(t)=mB(t)+hとされる。図4(d)には、暗騒音包絡線信号B(t)に加えて、閾値信号B’(t)の波形が図示されている。
図4(c)は、音声包絡線信号A(t)に加えて、閾値信号B’(t)=mB(t)+hを図示している。すなわち、図4(c)には、比較器30で比較される2つの信号が図示されている。図4(c)に示すように、音声包絡線信号A(t)と閾値信号B’(t)との交点が得られる。図4(e)は、比較器30の出力信号を示す。比較器30は、音声包絡線信号A(t)と閾値信号B’(t)との交点に有効に挟まれる区間のうち、A(t)≧B’(t)となる区間でハイレベルを出力し、A(t)<B’(t)となる区間でローレベルを出力する。
図4(f)は、ゲート回路32の出力信号を示す。ゲート回路32は、比較器30からハイレベルを受けたときだけ音号X(t)を通過させ、比較器30からローレベルを受けたときには音号X(t)を非通過とする。これにより、図4(f)に示すように音素と暗騒音が明確に区画され、3つの音素が分割・抽出されている。
以上、本実施形態に係る音素分割装置10について説明した。この音素分割装置10によれば、暗騒音のレベルが自動で検知されるので、時間帯によって暗騒音が変化しても音素を分割・抽出するための閾値は常に最適な値に維持される。その結果、従来よりも高い精度で音素分割を行うことができる。
本実施形態の音素分割装置10によれば、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。
図5は、変形例に係る音素分割装置50を説明するための図である。図5に示す音素分割装置50は、バンドパスフィルタ15が第1分岐部13と自乗回路16との間に設けられている点が図3に示す音素分割装置10と異なる。
本変形例に係る音素分割装置50では、第1分岐部13と自乗回路16の間にバンドパスフィルタ15が設けられていることにより、ゲート回路32にはバンドバスフィルタを通っていない音信号が入力される。従って、音素分割装置50では原音声信号により近い音素信号が得られるため、図3に示す音素分割装置10と比べて音質を向上することができる。なお、音素分割装置50においては自乗回路16に入る音信号はバンドパスフィルタ15を通っているため、音素の分割・抽出精度は図3に示す音素分割装置と同等である。
図6は、本発明の別の実施形態に係る音素分割装置60を説明するための図である。図6に示す音素分割装置60は、自乗回路に代えて絶対値回路62を備える点が図3に示す音素分割装置10と異なる。
図6に示すように、音素分割装置60は、マイクアンプ14と、絶対値回路62と、音声用時定数回路18と、暗騒音用時定数回路20と、バッファアンプ26と、加算器28と、可変抵抗器29と、比較器30と、ゲート回路32とを備える。
マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。マイクロホン12で増幅された音信号X(t)は、音声信号x(t)に暗騒音信号n(t)が重畳されたものである。
マイクアンプ14から出力された音信号X(t)は、第1分岐部13で2つに分岐される。第1分岐部13で分岐された一方の音信号X(t)は絶対値回路62に入力され、他方の音信号X(t)はゲート回路32に入力される。図3に示す音素分割装置10と同様に、第1分岐部13の前段にバンドパスフィルタが設けられてもよい。あるいは、図5に示す音素分割装置50と同様に、第1分岐部13と絶対値回路62の間にバンドパスフィルタが設けられてもよい。また、第1分岐部13と第2分岐部17との間には絶対値回路62が設けられている。
絶対値回路62は、第1分岐部13で分岐された一方の音信号X(t)の絶対値|X(t)|を出力する。自乗回路を用いた実施形態と同様に、絶対値回路62で音信号X(t)の絶対値をとることで、正の値のみを処理すればよいため、信号処理を容易にすることができる。絶対値回路62から出力された絶対値信号|X(t)|は、第2分岐部17で2つに分岐される。第2分岐部17で分岐された一方の絶対値信号|X(t)|は音声用時定数回路18に入力され、他方の絶対値信号|X(t)|は暗騒音用時定数回路20に入力される。
音声用時定数回路18は、抵抗値Rの第1抵抗器34と、容量値Cの第2コンデンサ36とから構成される一次のローパスフィルタである。音声用時定数回路18は、絶対値信号|X(t)|を数10〜数100msの音声用時定数τvで平滑化(平均化)する。音声用時定数回路18から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrmsと見なすことができる。以下、A(t)を「音声包絡線信号」と呼ぶ。
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τu=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τd=RCのローパスフィルタで平滑化が行われる。
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τuは、立ち下がり用時定数τdよりも非常に大きな値に設定される。具体的には、立ち上がり用時定数τuは、立ち下がり用時定数τdより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τu=R’C≧300τd〜3000τdのように設定されてよい。一方、立ち下がり用時定数τdは、音声用時定数回路18の音声用時定数τvと略同じ値に設定される。本実施形態では、立ち下がり用時定数τdは音声用時定数に等しい(すなわち、τd=τv=RC)。
暗騒音用時定数回路20で平滑化された信号B(t)は、音声信号x(t)のレベル変化にはほとんど不感で、暗騒音レベル付近に維持される。信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrmsと見なすことができる。以下、B(t)を「暗騒音包絡線信号」と呼ぶ。
比較器30は、音声用時定数回路18から出力された音声包絡線信号A(t)と暗騒音用時定数回路20から出力された暗騒音包絡線信号B(t)とを比較する。ここで、本実施形態では、比較器30に入力する前に、暗騒音包絡線信号B(t)をバッファアンプ26を用いて所定の増幅率mで増幅し、さらに加算器28を用いて所定のオフセット値hを加算している。すなわち、本実施形態では、音声包絡線信号A(t)とB’(t)=mB(t)+hとが比較器30で比較される。以下、B’(t)=mB(t)+hを「閾値信号」と呼ぶ。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。変形例では、音声包絡線信号A(t)と暗騒音包絡線信号B(t)とが直接比較されてもよい。
比較器30は、音声包絡線信号A(t)が閾値信号B’(t)以上(すなわち、A(t)≧B’(t))となる区間でゲート回路32にハイレベルを出力し、音声包絡線信号A(t)が閾値信号B’(t)未満(すなわち、A(t)<B’(t))となる区間でゲート回路32にローレベルを出力する。
ゲート回路32は、比較器30の比較結果に応じて、第1分岐部13で分岐された他方の音信号X(t)の通過/非通過を制御する。すなわち、ゲート回路32は、比較器30からハイレベルを受けたときは開状態となって音号X(t)を通過させ、比較器30からローレベルを受けたときには閉状態となって音号X(t)を非通過とする。このような動作により、ゲート回路32から音素信号が出力される。
以上、本実施形態に係る音素分割装置60について説明した。この音素分割装置60においても、暗騒音のレベルが自動で検知されるので、時間帯によって暗騒音が変化しても音素を分割・抽出するための閾値は常に最適な値に維持される。その結果、従来よりも高い精度で音素分割を行うことができる。
また、本実施形態の音素分割装置60においても、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。
図7は、本発明のさらに別の実施形態に係る音素分割装置70を説明するための図である。図3,5,6に示す実施形態では、音素分割処理をアナログ回路で実現したが、図7に示す本実施形態では、音素分割処理をソフトウェアによって実現している。
音素分割装置70は、マイクアンプ14と、DSP(Digital Signal Processor)ボード71とを備える。DSPボード71には、入力アンプ72と、A/D変換器73と、DSP74と、D/A変換器75と、出力アンプ76と、ROM77と、SD−RAM78と、入力ポート79と、出力ポート80とが実装されている。
マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。マイクロホン12で増幅された音信号X(t)は、DSPボード71の入力ポート79に入力される。音信号X(t)は、アナログ信号であり、音声信号に暗騒音信号が重畳されたものである。入力ポート79から入力された音信号X(t)は、入力アンプ72で増幅された後、A/D変換器73でデジタル信号に変換される。A/D変換器73から出力された音信号X(t)のデジタル信号は、DSP74に入力される。
DSP74は、音素分割処理を行うためのプログラムを格納するROM77と、DSP74で処理中のデータを格納するSD−RAM78と接続されている。DSP74は、ROM77から音素分割プログラムを読み込み、音素分割処理を行う。
ROM77に格納された音素分割プログラムは、DSP74に、音信号X(t)を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号X(t)を自乗する自乗ステップと、自乗信号X2(t)を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の自乗信号X2(t)を数10〜数100msの音声用時定数τvで平滑化する第1平滑化ステップと、第1平滑化ステップで平滑化された信号の平方根を演算する第1平方根演算ステップと、第2分岐ステップで分岐された他方の自乗信号X2(t)の立ち上がりに対しては音声用時定数τvより少なくとも10倍以上、より好適には100〜1000倍以上大きい立ち上がり用時定数τuで平滑化するとともに、他方の自乗信号X2(t)の立ち下がりに対しては音声用時定数τvと略同じ立ち下がり用時定数τdで平滑化する第2平滑化ステップと、第2平滑化ステップで平滑化された信号の平方根を演算する第2平方根演算ステップと、第1平方根演算ステップで演算された音声包絡線信号A(t)と、第2平方根演算ステップで演算された暗騒音包絡線信号B(t)とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップと、を実行させるためのプログラムであってよい。このプログラムの比較ステップでは、音声包絡線信号A(t)と、閾値信号B’(t)=mB(t)+hとが比較されてもよい。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。
あるいは、ROM77に格納された音素分割プログラムは、DSP74に、音信号X(t)を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号X(t)の絶対値|X(t)|を演算する絶対値演算ステップと、絶対値演算ステップからの絶対値信号|X(t)|を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の絶対値信号|X(t)|を数10〜数100msの音声用時定数τvで平滑化する第1平滑化ステップと、第2分岐ステップで分岐された他方の絶対値信号|X(t)|の立ち上がりに対しては音声用時定数τvより少なくとも10倍以上、より好適には100〜1000倍以上大きい立ち上がり用時定数τuで平滑化するとともに、他方の絶対値信号|X(t)|の立ち下がりに対しては音声用時定数τvと略同じ立ち下がり用時定数τdで平滑化する第2平滑化ステップと、第1平滑化ステップで平滑化された音声包絡線信号A(t)と、第2平滑化ステップで平滑化された暗騒音包絡線信号B(t)とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号X(t)の通過/非通過を制御する通過制御ステップと、を実行させるためのプログラムであってもよい。このプログラムの比較ステップにおいても、音声包絡線信号A(t)と、閾値信号B’(t)=mB(t)+hとが比較されてもよい。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。
DSP74からの出力された音素のデジタル信号は、D/A変換器75でアナログ信号に変換された後、出力アンプ76で増幅され、出力ポート80から出力される。
図8(a)〜(c)は、図7に示す音素分割装置70による音素分割処理を説明するための図である。図8(a)〜(c)の縦軸は信号レベルを任意の単位で表し、横軸は時間を任意の単位で表す。
図8(a)は、音声包絡線信号A(t)の波形を示す。図8(b)は、暗騒音包絡線信号B(t)の波形を示す。図8(c)は、音声包絡線信号A(t)と閾値信号B’(t)=mB(t)+hを比較した波形(すなわち、A(t)−B’(t))を示す。ここでは、増幅率m=1、オフセット値h=200に設定されている。図8(a)および(b)に示すように、音素分割処理をソフトウェアで行った場合も、音信号から適切に音声包絡線信号A(t)と暗騒音包絡線信号B(t)とを分離することができる。暗騒音のレベルが自動で検知されるため、図8(c)に示すように音声包絡線信号A(t)と閾値信号B’(t)との比較により高い精度で音素の分割・抽出を行うことができる。また、本実施形態の音素分割装置70によれば、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。
図9は、本発明のさらに別の実施形態に係る音声処理システム90を説明するための図である。この音声処理システム90は、上述の音素分割装置を利用して入力された音声に所定の処理を施し、空間に出力するものである。
図9に示すように、音声処理システム90は、集音装置としてのマイクロホン12と、マイクアンプ14と、音素分割装置92と、音素処理装置94と、アンプ95と、出力装置としてのスピーカ96とを備える。マイクロホン12は、原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。音素分割装置92は、マイクアンプ14からの増幅音信号を受信して、音声信号を音素に分割する。音素分割装置92としては、上述の音素分割装置10,50,60,70を好適に利用することができる。音素処理装置94は、音素処理装置94から得られる音素信号に所定の処理を施す。この所定の処理の例については後述する。アンプ95は、音素処理装置94によって処理された音素信号を増幅する。スピーカ96は、増幅された音素信号を音として空間に出力する。
音声処理システム90は、例えばスピーチプライバシーシステム(音声情報秘話装置)であってよい。スピーチプライバシーシステムは、信号処理により音声信号の構造自体を略実時間で変更・処理することにより、音声信号のスペクトラムやエネルギー包絡線など統計的な性質を大きく変更することなく、その音声の内容のみを隠蔽/遮断し、受聴者に会話の中身を理解不能とするものである.このスピーチプライバシーシステムは、従来の音声マスキングシステムと異なり、原音声の発生時(発声時)以外には音が出ないので、室内の騒音レベルや受聴者の不快感を増長させることなく、音声の内容のみを有効に隠蔽することができる。スピーチプライバシーシステムの詳細については、例えば上記の特許文献1を参照されたい。
スピーチプライバシーシステムにおいては、音素処理装置94は、音素分割装置92で分割・抽出された音素(mora)を再配置、例えば音素の順番を入れ替えたりする。そしてこの再配置された音素信号がスピーカ96から音として空間に出力される。このスピーカ96からの音により原音声がマスキングされるため、原音声の内容を受聴者に理解不能とすることができる。
あるいは、音声処理システム90は、携帯電話、無線機、トランシーバなどの通信システムであってもよい。例えば工事現場やガード下、或いは鉄道のホームなどで携帯電話を使う場合、受信側では暗騒音が受信音声に重畳し、会話内容の理解を妨げる。すなわち、聞き取りや文章了解度が低下する。そこで、音素処理装置94は、音素分割装置92で分割・抽出された音素間(すなわち、会話の途切れ部分)の出力をゼロ(無音)にする。このように処理された音素信号をスピーカ96から出力することで騒音低減・通話品質の向上を図ることができる。このような通信システムにおいて、音素分割装置92の暗騒音用時定数回路における立ち上がり用時定数τu=R’Cは、スピーチプライバシーシステムに用いる場合より小さく設定されることが好ましい。なお、音声部分には暗騒音が依然として重畳しているが、聴覚の補完作用により音声のあるこの部分の暗騒音はほとんど認識されず、聴感的には騒音がほとんど除去されたように認識されるため、聞き取りは大きく改善される。
あるいは、上述の実施形態に係る音素分割装置は、音声認識機能を内包した車載ナビゲーションシステムに用いられてもよい。上述の音素分割装置から出力される音素信号を音声認識に利用することで、刻々変化する走行騒音の影響を受けることなく音声の認識率を向上させることができる。この場合、音素分割装置の暗騒音用時定数回路における立ち上がり用時定数τu=R’Cは、スピーチプライバシーシステムに用いる場合より小さく設定されることが好ましい。
あるいは、上述の実施形態に係る音素分割装置は、半二重通信のVOX(Voice Operating tX; tx=Transmitter)機能に利用されてもよい。音素分割装置から出力される音素信号に基づいて発話の発生を的確に把握することで、確実に送信・受信を切り替えることが可能となる。
図10は、本発明のさらに別の実施形態に係る騒音測定装置120を説明するための図である。図10に示す騒音測定装置120は、周囲音に含まれる暗騒音のレベルを測定することができる。騒音測定装置120は、マイクロホン12と、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、暗騒音用時定数回路20と、暗騒音用平方根回路24とを備える。
マイクロホン12は、周囲音を集音して音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。
自乗回路16は、音信号X(t)の自乗信号X2(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16は、絶対値回路に置き換えられてもよい。この場合、暗騒音用平方根回路24は不要となる。
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τu=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τd=RCのローパスフィルタで平滑化が行われる。
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τuは、立ち下がり用時定数τdよりも非常に大きな値に設定される。具体的には、立ち下がり用時定数τdは、数10ms〜数100ms(例えば125ms)の比較的小さい値に設定される。一方、立ち上がり用時定数τuは、立ち下がり用時定数τdより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τu=R’C≧300τd〜3000τdのように設定されてよい。
暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。上述したように、この信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrms(すなわち暗騒音のレベル)と見なすことができる。
このように、本実施形態に係る騒音測定装置120によれば、周囲音に含まれる暗騒音のレベルを測定することができる。本実施形態に係る騒音測定装置120は、会話や特定の変動騒音(有意味騒音)がある空間での暗騒音測定に特に有効である。騒音測定装置120は、暗騒音用平方根回路24から出力される信号を表示する表示部を備えてもよい。この場合、暗騒音を視覚的に認識することができる。
騒音測定装置120は、例えばテレビジョンシステム、車載テレビジョンシステム、カーステレオシステム等の音響システムに用いることができる。騒音測定装置120で測定される暗騒音のレベルは、在室者間の会話音声や短時間の間歇的騒音の影響を受けない。従って、この暗騒音のレベルを参照することで、例えば、暗騒音レベルが高い場合にはスピーカーの音量を上げ、暗騒音レベルが低い場合にはスピーカーの音量を下げるといったように、スピーカーの音量を最適に制御することができる。
図11は、本発明のさらに別の実施形態に係る騒音測定装置130を説明するための図である。図11に示す騒音測定装置130は、周囲音に含まれる騒音のレベルを測定することができる。騒音測定装置130は、マイクロホン12と、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、音声用時定数回路18と、暗騒音用時定数回路20と、音声用平方根回路22と、暗騒音用平方根回路24と、表示部134とを備える。
マイクロホン12は、周囲音を集音して音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。
自乗回路16は、音信号X(t)の自乗信号X2(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16は、絶対値回路に置き換えられてもよい。この場合、音声用平方根回路22および暗騒音用平方根回路24は不要となる。
自乗回路16から出力された自乗信号X2(t)は、分岐部132で2つの分岐される。分岐部132で分岐された一方の自乗信号X2(t)は音声用時定数回路18に入力され、他方の自乗信号X2(t)は暗騒音用時定数回路20に入力される。
音声用時定数回路18は、数10〜数100msの音声用時定数τvを有する一次のローパスフィルタである。音声用時定数回路18は、入力信号を音声用時定数τvで平滑化(平均化)する。音声用時定数回路18から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrms(すなわち音声信号のレベル)と見なすことができる。
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τu=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τd=RCのローパスフィルタで平滑化が行われる。音声用時定数回路18による平滑化処理(平均化処理)により、自乗信号X2(t)から音声用時定数τvよりも速い成分が取り除かれ、自乗信号X2(t)の包絡線信号が得られる。
音声用時定数回路18の後段に設けられた音声用平方根回路22は、音声用時定数回路18から入力された信号の平方根を演算する。この音声用平方根回路22から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrms(すなわち音声信号のレベル)と見なすことができる。
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τuは、立ち下がり用時定数τdよりも非常に大きな値に設定される。具体的には、立ち上がり用時定数τuは、立ち下がり用時定数τdより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τu=R’C≧300τd〜3000τdのように設定されてよい。一方、立ち下がり用時定数τdは、音声用時定数回路18の音声用時定数τvと略同じ値に設定される。本実施形態では、立ち下がり用時定数τdは音声用時定数に等しい(すなわち、τd=τv=RC)。
暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。上述したように、この信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrms(すなわち暗騒音のレベル)と見なすことができる。
表示部134は、音声用平方根回路22からの信号A(t)と、暗騒音用平方根回路24からの信号B(t)とを表示する。例えば、表示部134は、信号A(t)と、信号B(t)の両者を区別して二元表示してもよい。信号A(t)は、短時間に変化する会話音声や建設現場の間歇騒音のレベルを表し、信号B(t)は、暗騒音のレベルを表す。信号A(t)については、A(t)が暗騒音が含まれる。そこで、表示部134は、信号A(t)に代えてまたは加えて、以下の数式に従って得られる「暗騒音補正された信号A’(t)」を「正味騒音レベル」として表示させることもできる。
図12は、表示部134による騒音レベル表示の一例を示す。図12に示す騒音レベル表示例では、音声用平方根回路22からの信号A(t)が「全騒音」として表示され、暗騒音用平方根回路24からの信号B(t)が「暗騒音」として表示され、暗騒音補正された信号A’(t)が「正味騒音」として表示されている。図12に示すように全騒音、暗騒音、正味騒音のレベルを可視化することで、ユーザは瞬時に各騒音レベルを把握することができる。
以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。
入力信号に対する包絡線取得、すなわち包絡線検波は、上述の実施形態で説明した自乗平均値の平方根を取る方法や絶対値を平滑化する方法のみならず、ウェーブレット変換やヒルベルト変換、あるいは簡略的にはダイオードなどにより半波整流した結果を平滑化する方法などその他の類似の方法によってなされてもよい。