JP2016038552A

JP2016038552A - 音素分割装置、音声処理システム、音素分割方法、音素分割プログラム、および騒音測定装置

Info

Publication number: JP2016038552A
Application number: JP2014163880A
Authority: JP
Inventors: 川上　福司; Fukuji Kawakami; 福司川上; 雅和木山; Masakazu Kiyama; 健久岡本; Takehisa Okamoto
Original assignee: Nippon Sheet Glass Environment Amenity Co Ltd
Current assignee: Nippon Sheet Glass Environment Amenity Co Ltd
Priority date: 2014-08-11
Filing date: 2014-08-11
Publication date: 2016-03-22
Anticipated expiration: 2034-08-11
Also published as: JP6435133B2

Abstract

【課題】暗騒音レベルを自動検知することで適切な音素分割を行う。【解決手段】音素分割装置１０は、音信号を分岐する第１分岐部１３と、一方の音信号を自乗する自乗回路１６と、自乗信号を分岐する第２分岐部１７と、一方の自乗信号を数１０〜数１００ｍｓの音声用時定数で平滑化する音声用時定数回路１８と、平滑化信号の平方根を演算する音声用平方根回路２２と、他方の自乗信号の立ち上がりに対しては音声用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化するとともに、自乗信号の立ち下がりに対しては音声用時定数と同じ立ち下がり用時定数で平滑化する暗騒音用時定数回路２０と、平滑化信号の平方根を演算する暗騒音用平方根回路２４と、音声用平方根回路２２からの信号と、暗騒音用平方根回路２４からの信号とを比較する比較部３０と、比較部３０の比較結果に応じて他方の音信号の通過／非通過を制御するゲート回路３２とを備える。【選択図】図３

Description

本発明は、音声信号から音素を分割・抽出するための音素分割装置、該音素分割装置を用いた音声処理システム、音素分割方法、音素分割プログラム、および騒音測定装置に関する。

近年、「個人情報保護法」の施行等により銀行やオフィスにおいて会話情報を保護する必要性が高まってきたが、その手段として、物理的に空間を分離する従来の遮音・防音とは別に、オープンプランオフィスなどにおいて音声信号を別の雑音・音楽などで隠蔽(情報マスキング)するスピーチプライバシーシステム（音声情報秘話装置）が提案されている。スピーチプライバシーシステムとしては、例えば原音声をマスカーとして用いるもの（例えば、特許文献１参照）が知られている。

電気音響を用いた一般のＳＲ(Sound Reinforcement)システムやＰＡ(Public Address）システムが音量や明瞭を向上させる目的で用いられるのに対し、スピーチプライバシーシステムは、信号処理により音声信号の構造自体を略実時間で変更・処理することにより、音声信号のスペクトラムやエネルギー包絡線など統計的な性質を大きく変更することなく、その音声の内容のみを隠蔽／遮断し、受聴者に会話の中身を理解不能とすることを目的としたものである。

上記特許文献１では、音声包絡線の「略一山」を１つの音素として抽出し、これを再配置するなどして音声の構造を変化させてマスカー（原音声に重畳してその内容を隠蔽する別音声）として利用している。

従来、音声包絡線の略一山を抽出する方法としては、入力音声のエネルギー包絡線が閾値を越えて立ち上がり、再び元に戻るまでを１音素(1 ｍｏｒａ)とする方法が一般的である。

特開２０１１−１２３１４１号公報

しかしながら、マイクロホン等で集音された入力音声には通常、暗騒音（バックグラウンドノイズ）が重畳している。一般的な室や空間の暗騒音は、短い時間ではほぼ一定しているのに、長時間でみるとかなり大きく変動する傾向がある。従って、ある時間の暗騒音のレベルに基づいて閾値を設定したとしても、暗騒音のレベル変動に起因して適切な音素分割を行うことができない可能性がある。また、暗騒音のレベル変動に合わせて閾値を手作業で調整するのは大変な作業である。

本発明はこうした課題に鑑みてなされたものであり、その目的は、暗騒音のレベルを自動で検知することを可能ならしめる技術を提供することにある。

上記課題を解決するために、本発明のある態様の音素分割装置は、音声信号に暗騒音信号が重畳された音信号を２つに分岐する第１分岐部と、第１分岐部で分岐された一方の音信号をさらに２つに分岐する第２分岐部と、第２分岐部で分岐された一方の音信号を数１０〜数１００ｍｓの音声用時定数で平滑化する音声用時定数部と、第２分岐部で分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、音声用時定数部からの信号と、暗騒音用時定数部からの信号とを比較する比較部と、比較部の比較結果に応じて、第１分岐部で分岐された他方の音信号の通過／非通過を制御するゲート部とを備える。

本発明の別の態様は、音声処理システムである。このシステムは、原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する集音装置と、集音装置からの音信号を受信して、音声信号を音素に分割する上述の音素分割装置と、音素分割装置から得られる音素信号に所定の処理を施す音素処理装置と、音素処理装置によって処理された音素信号を音として空間に出力する出力装置とを備える。

本発明のさらに別の態様は、音素分割方法である。この方法は、音声信号に暗騒音信号が重畳された音信号を２つに分岐する第１分岐ステップと、第１分岐ステップで分岐された一方の音信号を２つに分岐する第２分岐ステップと、第２分岐ステップで分岐された一方の音信号を数１０〜数１００ｍｓの音声用時定数で平滑化する第１平滑化ステップと、第２分岐ステップで分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する第２平滑化ステップと、第１平滑化ステップで演算された信号と、第２平滑化ステップで演算された信号とを比較する比較ステップと、比較ステップの比較結果に応じて、第１分岐ステップで分岐された他方の音信号の通過／非通過を制御する通過制御ステップとを備える。

本発明のさらに別の態様は、音素分割プログラムである。このプログラムは、コンピュータに、音声信号に暗騒音信号が重畳された音信号を２つに分岐する第１分岐ステップと、第１分岐ステップで分岐された一方の音信号を２つに分岐する第２分岐ステップと、第２分岐ステップで分岐された一方の音信号を数１０〜数１００ｍｓの音声用時定数で平滑化する第１平滑化ステップと、第２分岐ステップで分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する第２平滑化ステップと、第１平滑化ステップで演算された信号と、第２平滑化ステップで演算された信号とを比較する比較ステップと、比較ステップの比較結果に応じて、第１分岐ステップで分岐された他方の音信号の通過／非通過を制御する通過制御ステップとを実行させるための音素分割プログラムである。

本発明のさらに別の態様は、騒音測定装置である。この装置は、周囲音に含まれる暗騒音のレベルを測定する騒音測定装置であって、周囲音を集音する集音部と、集音部からの音信号の立ち下がりに対しては数１０〜数１００ｍｓの立ち下がり用時定数で平滑化するとともに、集音部からの音信号の立ち上がりに対しては立ち下がり用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化する暗騒音用時定数部とを備える。

本発明のさらに別の態様もまた、騒音測定装置である。この装置は、周囲音に含まれる騒音のレベルを測定する騒音測定装置であって、周囲音を２つに分岐する分岐部と、分岐部で分岐された一方の音信号を数１０〜数１００ｍｓの音声用時定数で平滑化する音声用時定数部と、分岐部で分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、音声用時定数部からの信号と、暗騒音用時定数部からの信号とを表示する表示部とを備える。

なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。

本発明によれば、暗騒音のレベルを自動で検知することができる。

従来の音素分割装置の一例を説明するための図である。図２（ａ）〜（ｅ）は、図１に示す音素分割装置による音素分割処理を説明するための図である。本発明の実施形態に係る音素分割装置を説明するための図である。図４（ａ）〜（ｆ）は、図３に示す音素分割装置による音素分割処理を説明するための図である。変形例に係る音素分割装置を説明するための図である。本発明の別の実施形態に係る音素分割装置を説明するための図である。本発明のさらに別の実施形態に係る音素分割装置を説明するための図である。図８（ａ）〜（ｃ）は、図７に示す音素分割装置による音素分割処理を説明するための図である。本発明のさらに別の実施形態に係る音声処理システムを説明するための図である。本発明のさらに別の実施形態に係る騒音測定装置を説明するための図である。本発明のさらに別の実施形態に係る騒音測定装置を説明するための図である。表示部による騒音レベル表示の一例を示す図である。

以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。

まず、本発明の実施形態に係る音素分割装置について説明する前に、従来の音素分割装置の一例について説明する。

図１は、従来の音素分割装置の一例を説明するための図である。図１に音素分割装置１００は、マイクアンプ１０４と、絶対値回路１０６と、時定数回路１０８と、比較器１１０と、可変抵抗器１１２と、ゲート回路１１４とを備える。

マイクアンプ１０４は、マイクロホン１０２に接続される。マイクロホン１０２は、原音声（マスキー）を集音し、音信号に変換する。この音信号は、音声に暗騒音が重畳されたものである。マイクアンプ１０４は、マイクロホン１０２からの音信号を増幅する。マイクアンプ１０４から出力された音信号Ｘ（ｔ）は、分岐部１０５で２つに分岐され、一方の音信号Ｘ（ｔ）は絶対値回路１０６に入力され、他方の音信号Ｘ（ｔ）はゲート回路１１４に入力される。絶対値回路１０６は、音信号Ｘ（ｔ）の絶対値を出力する。絶対値回路１０６から出力された音信号の絶対値｜Ｘ（ｔ）｜は、時定数回路１０８に入力される。時定数回路１０８は、抵抗値Ｒの抵抗器および容量値Ｃのコンデンサから構成された一次のローパスフィルタであり、その時定数τ＝ＲＣは１００ｍｓ程度に設定される。時定数回路１０８は、音信号の絶対値｜Ｘ（ｔ）｜を平滑化する。時定数回路１０８による平滑化処理により、音信号の絶対値｜Ｘ（ｔ）｜から時定数τよりも速い成分が取り除かれ、包絡線信号Ａ（ｔ）が得られる。比較器１１０は、包絡線信号Ａ（ｔ）と、所定の閾値Ｔとを比較し、Ａ（ｔ）≧Ｔとなるタイミングでゲート回路１１４を開状態とする。これにより、ゲート回路１１４が開状態のときの音信号の区間が、音素（ｍｏｒａ）として分割・抽出される。

音素分割装置１００において、閾値Ｔは、電源電圧＋Ｖｃを可変抵抗器１１２で調整することにより手動で設定される。音声を高い精度で音素に分割するためには、この閾値Ｔの設定が重要である。

図２（ａ）〜（ｅ）は、図１に示す音素分割装置１００による音素分割処理を説明するための図である。図２（ａ）〜（ｅ）の縦軸は信号レベルを任意の単位で表し、横軸は時間ｔを表す。図２（ａ）は、マイクアンプ１０４から出力される音信号Ｘ（ｔ）の波形を示す。図２（ｂ）は、絶対値回路１０６から出力される音信号の絶対値｜Ｘ（ｔ）｜の波形と、時定数回路１０８から出力される包絡線信号Ａ（ｔ）の波形を示す。包絡線信号Ａ（ｔ）の波形の「略一山」が一つの音素（１ｍｏｒａ）に対応する。

図２（ｂ）に示すように、本例において包絡線信号Ａ（ｔ）は６個の「略一山」、すなわち音素１〜６を含んでいる。また、図２（ｂ）には、比較器１１０において包絡線信号Ａ（ｔ）から音素を分割する際に用いる３段階の閾値Ｔ（閾値Ｔ１〜Ｔ３）が図示されている。図２（ｃ）〜（ｅ）は、ゲート回路１１４からの出力信号の波形、すなわち、音素分割装置１００による音素分割結果を示す。音素分割装置１００による音素分割結果は、閾値Ｔに依存する。

図２（ｃ）は、閾値Ｔを暗騒音のレベルより十分大きな閾値Ｔ１に設定したときの音素分割結果を示す。音素分割装置１００のように音信号の包絡線と閾値を比較することで音素分割を行う方法においては、できるだけ安定に音素を分割・抽出しようとすると閾値Ｔを暗騒音のレベルより十分大きな値に設定することとなる。この場合、図２（ｃ）に示すように、音素４，６のような小さいレベルの音素が欠落する可能性がある。

図２（ｅ）は、閾値Ｔを暗騒音のレベルと同程度の小さな閾値Ｔ３に設定したときの音素分割結果を示す。この場合、図２（ｅ）に示すように、隣接する音素１と２および隣接する音素３〜５が分割されていない。このように、閾値Ｔを小さな閾値Ｔ３に設定した場合、音素間の境界があいまいとなり、図２（ｅ）に示すように複数の音素が分割されずに繋がってしまう可能性がある。

図２（ｄ）は、閾値Ｔを暗騒音のレベルにマージンＨを加えた最適な閾値Ｔ２に設定したときの音素分割結果を示す。この場合、図２（ｄ）に示すように音素１〜６が適切に分割されている。このように、適切な音素分割を行うためには、暗騒音のレベルを正確に検知し、この暗騒音のレベルよりも僅かに大きな値を閾値Ｔに設定することが重要である。

一般的な室や空間の暗騒音は、短い時間ではほぼ一定しているのに、長時間でみると午前と午後、昼食時と執務時というように、かなり大きく変動する傾向がある。従って、ある時間の暗騒音のレベルに基づいて閾値Ｔを設定したとしても、暗騒音のレベル変動に起因して適切な音素分割を行うことができない可能性がある。また、暗騒音のレベル変動に合わせて閾値Ｔを手作業で調整するのは大変な作業である。

上記のような従来の音素分割装置の課題を認識した上で、本発明者は、暗騒音のレベルが変動した場合であっても適切な音素分割を自動で実行することを可能ならしめる音素分割方法及び装置を発明した。

図３は、本発明の実施形態に係る音素分割装置１０を説明するための図である。図３に示すように、音素分割装置１０は、マイクアンプ１４と、バンドパスフィルタ１５と、自乗回路１６と、音声用時定数回路１８と、暗騒音用時定数回路２０と、音声用平方根回路２２と、暗騒音用平方根回路２４と、バッファアンプ２６と、加算器２８と、可変抵抗器２９と、比較器３０と、ゲート回路３２とを備える。

マイクアンプ１４は、マイクロホン１２に接続される。マイクロホン１２は、会話などの原音声（マスキー）を集音し、音信号に変換する。マイクアンプ１４は、マイクロホン１２からの音信号を増幅する。

バンドパスフィルタ１５は、マイクアンプ１４からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。このバンドパスフィルタ１５は、例えば成人音声の平均スペクトルに対応する通過帯域（例えば１００Ｈｚ〜７ｋＨｚ、より好適には２５０Ｈｚ〜４ｋＨｚ）を有する。バンドパスフィルタ１５を設けることにより、音素の分割・抽出精度を向上できる。

バンドパスフィルタ１５から出力される音信号Ｘ（ｔ）は、音声信号ｘ（ｔ）に室（空間）の暗騒音信号ｎ（ｔ）が重畳されたものである。すなわち、Ｘ（ｔ）＝ｘ（ｔ）＋ｎ（ｔ）と表される。

バンドパスフィルタ１５から出力された音信号Ｘ（ｔ）は、第１分岐部１３で２つに分岐される。第１分岐部１３で分岐された一方の音信号Ｘ（ｔ）は自乗回路１６に入力され、他方の音信号Ｘ（ｔ）はゲート回路３２に入力される。図３から分かるように、本実施形態では第１分岐部１３の前段にバンドパスフィルタ１５が設けられている。また、第１分岐部１３と第２分岐部１７との間には自乗回路１６が設けられている。

自乗回路１６は、第１分岐部１３で分岐された一方の音信号Ｘ（ｔ）の自乗信号Ｘ^２（ｔ）を出力する。音信号Ｘ（ｔ）には、正負の値が含まれる。自乗回路１６で音信号Ｘ（ｔ）を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路１６から出力された自乗信号Ｘ^２（ｔ）は、第２分岐部１７で２つの分岐される。第２分岐部１７で分岐された一方の自乗信号Ｘ^２（ｔ）は音声用時定数回路１８に入力され、他方の自乗信号Ｘ^２（ｔ）は暗騒音用時定数回路２０に入力される。

音声用時定数回路１８は、抵抗値Ｒの第１抵抗器３４と、容量値Ｃの第２コンデンサ３６とから構成される一次のローパスフィルタである。第１抵抗器３４の一方の端子は自乗回路１６に接続され、他方の端子は音声用平方根回路２２に接続されている。第２コンデンサ３６の一方の端子は第１抵抗器３４の他方の端子に接続され、第２コンデンサ３６の他方の端子は接地されている。音声用時定数回路１８の時定数（以下、「音声用時定数」と呼ぶ）τ_ｖ＝ＲＣは、数１０ｍｓ〜数１００ｍｓ（例えば１２５ｍｓ）の比較的小さい値に設定される。音声用時定数回路１８は、自乗信号Ｘ^２（ｔ）を音声用時定数τ_ｖで平滑化（平均化）する。音声用時定数回路１８による平滑化処理（平均化処理）により、自乗信号Ｘ^２（ｔ）から音声用時定数τ_ｖよりも速い成分が取り除かれ、自乗信号Ｘ^２（ｔ）の包絡線信号が得られる。

音声用時定数回路１８の後段に設けられた音声用平方根回路２２は、音声用時定数回路１８から入力された信号の平方根を演算する。この音声用平方根回路２２から出力される信号Ａ（ｔ）は、音声信号ｘ（ｔ）の包絡線、すなわち音声信号ｘ（ｔ）の実効値ｘ_ｒｍｓと見なすことができる（以下の数式参照）。以下、Ａ（ｔ）を「音声包絡線信号」と呼ぶ。

暗騒音用時定数回路２０は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路２０は、抵抗値Ｒ’の第２抵抗器３８と、容量Ｃの第２コンデンサ４０と、ダイオード４２と、抵抗値Ｒの第３抵抗器４４とから成る。第２抵抗器３８の一方の端子は自乗回路１６に接続され、他方の端子は暗騒音用平方根回路２４に接続されている。ダイオード４２のカソード端子は自乗回路１６に接続され、アノード端子は第３抵抗器４４の一方の端子に接続されている。第３抵抗器４４の他方の端子は暗騒音用平方根回路２４に接続されている。第２コンデンサ４０の一方の端子は第２抵抗器３８および第３抵抗器４４の他方の端子接続され、第２コンデンサ４０の他方の端子は接地されている。

このように構成された暗騒音用時定数回路２０においては、入力信号の立ち上がりに対しては、第２抵抗器３８と第２コンデンサ４０から構成される時定数（以下、「立ち上がり用時定数」と呼ぶ）τ_ｕ＝Ｒ’Ｃのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、第３抵抗器４４と第２コンデンサ４０から構成される時定数（以下、「立ち下がり用時定数」と呼ぶ）τ_ｄ＝ＲＣのローパスフィルタで平滑化が行われる。

本実施形態に係る暗騒音用時定数回路２０において、立ち上がり用時定数τ_ｕは、立ち下がり用時定数τ_ｄよりも非常に大きな値に設定される。すなわち、暗騒音用時定数回路２０は、非対称な２つの時定数で構成される。具体的には、立ち上がり用時定数τ_ｕは、立ち下がり用時定数τ_ｄより少なくとも１０倍以上、より好適には１００倍〜１０００倍以上大きく設定される。例えば、τ_ｕ＝Ｒ’Ｃ≧３００τ_ｄ〜３０００τ_ｄのように設定されてよい。一方、立ち下がり用時定数τ_ｄは、音声用時定数回路１８の音声用時定数τ_ｖと略同じ値に設定される。本実施形態では、立ち下がり用時定数τ_ｄは音声用時定数に等しい（すなわち、τ_ｄ＝τ_ｖ＝ＲＣ）。

暗騒音用時定数回路２０の後段に設けられた暗騒音用平方根回路２４は、暗騒音用時定数回路２０から入力された信号の平方根Ｂ（ｔ）を演算する。暗騒音用時定数回路２０の立ち上がり用時定数τ_ｕは、音声用時定数回路１８の音声用時定数τ_ｖよりも非常に大きな値に設定されるため、Ｂ（ｔ）は音声信号ｘ（ｔ）のレベル変化にはほとんど不感で、一般的にはほぼ一定と考えられる暗騒音レベル（例えば、銀行ロビーや病院の待合室などの暗騒音レベル）、つまり音信号Ｘ（ｔ）の最低レベル付近に維持される。すなわち、Ｂ（ｔ）は音素（ｍｏｒａ）間の僅かの無音部（途切れ目）を通じて素早く暗騒音レベルまで低下し、全体において常に暗騒音に等しいレベルを維持する。

しかし場合によっては、大声の人が連続して話したり、短時間の始業ベルが鳴ったりしてゆっくりではあるが信号Ｂ（ｔ）が上昇することがあるため、それらが停止した時点で速やかに本来の暗騒音レベルに戻るよう、立ち下がり用時定数τ_ｄについては立ち上がり用時定数τ_ｕとは異なる値、具体的には音声用時定数回路１８の音声用時定数τ_ｖと同程度の時定数となっている。これにより、信号Ｂ（ｔ）は朝の早い時間から午前中にかけて、また昼食時から午後にかけて、といった対称空間のゆっくりした暗騒音変化には追従するが、音声程度の速いレベル変化にはほとんど追従せず不感、ということになる。このように変化する信号Ｂ（ｔ）は、刻々変化する音声包絡線信号Ａ（ｔ）に対し、暗騒音信号ｎ（ｔ）の包絡線、すなわち暗騒音信号ｎ（ｔ）の実効値ｎ_ｒｍｓと見なすことができる（以下の数式参照）。以下、Ｂ（ｔ）を「暗騒音包絡線信号」と呼ぶ。

比較器３０は、音声用平方根回路２２から出力された音声包絡線信号Ａ（ｔ）と暗騒音用平方根回路２４から出力された暗騒音包絡線信号Ｂ（ｔ）とを比較する。ここで、本実施形態では、比較器３０に入力する前に、暗騒音包絡線信号Ｂ（ｔ）をバッファアンプ２６を用いて所定の増幅率ｍで増幅し、さらに加算器２８を用いて所定のオフセット値ｈを加算している。すなわち、本実施形態では、音声包絡線信号Ａ（ｔ）とＢ’（ｔ）＝ｍＢ（ｔ）＋ｈとが比較器３０で比較される。以下、Ｂ’（ｔ）＝ｍＢ（ｔ）＋ｈを「閾値信号」と呼ぶ。増幅率ｍは、例えばｍ＝１〜３の範囲で選択されてよい。また、オフセット値ｈは、例えばｈ＝０〜[Ｂ（ｔ）に想定される最大値の１０倍程度]の範囲から選択されてよい。一般に暗騒音レベルは音声レベルに対し十分低いので、このようにＢ（ｔ）よりも僅かに大きな閾値信号Ｂ’（ｔ）と音声包絡線信号Ａ（ｔ）とを比較することで、音素分割を安全・安定に行うことができる。変形例では、音声包絡線信号Ａ（ｔ）と暗騒音包絡線信号Ｂ（ｔ）とが直接比較されてもよい。

比較器３０は、音声包絡線信号Ａ（ｔ）が閾値信号Ｂ’（ｔ）以上（すなわち、Ａ（ｔ）≧Ｂ’（ｔ））となる区間でゲート回路３２にハイレベルを出力し、音声包絡線信号Ａ（ｔ）が閾値信号Ｂ’（ｔ）未満（すなわち、Ａ（ｔ）＜Ｂ’（ｔ））となる区間でゲート回路３２にローレベルを出力する。

ゲート回路３２は、比較器３０の比較結果に応じて、第１分岐部１３で分岐された他方の音信号Ｘ（ｔ）の通過／非通過を制御する。すなわち、ゲート回路３２は、比較器３０からハイレベルを受けたときは開状態となって音号Ｘ（ｔ）を通過させ、比較器３０からローレベルを受けたときには閉状態となって音号Ｘ（ｔ）を非通過とする。このような動作により、ゲート回路３２から音素信号が出力される。

図４（ａ）〜（ｆ）は、図３に示す音素分割装置１０による音素分割処理を説明するための図である。図４（ａ）〜（ｆ）の縦軸は信号レベルｖを単位ｍＶで表し、横軸は時間ｔを単位ｍｓで表す。

図４（ａ）は、バンドパスフィルタ１５から出力される音信号Ｘ（ｔ）の波形を示す。音信号Ｘ（ｔ）は、音声信号ｘ（ｔ）に暗騒音信号ｎ（ｔ）が重畳されたものである。この音信号Ｘ（ｔ）は、第１分岐部１３で２つに分岐される。分岐された一方の音信号Ｘ（ｔ）は自乗回路１６に入力され、他方の音信号Ｘ（ｔ）はゲート回路３２に入力される。

図４（ｂ）は、自乗回路１６から出力された自乗信号Ｘ^２（ｔ）の波形を示す。図４（ｂ）に示すように、自乗信号Ｘ^２（ｔ）は正の成分のみを含む。この自乗信号Ｘ^２（ｔ）は、第２分岐部１７で２つに分岐される。分岐された一方の自乗信号Ｘ^２（ｔ）は音声用時定数回路１８に入力され、他方の自乗信号Ｘ^２（ｔ）は暗騒音用時定数回路２０に入力される。

音声用時定数回路１８で平滑化された信号は、音声用平方根回路２２でその平方根がとられる。この平方根は音声包絡線信号Ａ（ｔ）となる。図４（ｃ）は、音声用平方根回路２２から出力される音声包絡線信号Ａ（ｔ）の波形を示す。図４（ｃ）に示すように、音声包絡線信号Ａ（ｔ）は、ほぼ入力原音声の実効値ｘ_ｒｍｓに追従して変化する正の波形である。

一方、暗騒音用時定数回路２０で平滑化された信号は、暗騒音用平方根回路２４でその平方根がとられる。この平方根は暗騒音包絡線信号Ｂ（ｔ）となる。図４（ｄ）は、暗騒音用平方根回路２４から出力される暗騒音包絡線信号Ｂ（ｔ）の波形を示す。図４（ｄ）に示すように、暗騒音包絡線信号Ｂ（ｔ）は、入力原音声にはほとんど追従せず、入力原音声の途切れ部分においてのみこれに沿って急速に最低値、即ち暗騒音レベルまで低下する。つまり、Ｂ（ｔ）は常に暗騒音のレベルに維持され、音素分割の域値として利用することができる。

暗騒音用平方根回路２４から出力された暗騒音包絡線信号Ｂ（ｔ）は、バッファアンプ２６でｍ倍に増幅された後、加算器２８でオフセット値ｈが加算され、閾値信号Ｂ’（ｔ）＝ｍＢ（ｔ）＋ｈとされる。図４（ｄ）には、暗騒音包絡線信号Ｂ（ｔ）に加えて、閾値信号Ｂ’（ｔ）の波形が図示されている。

図４（ｃ）は、音声包絡線信号Ａ（ｔ）に加えて、閾値信号Ｂ’（ｔ）＝ｍＢ（ｔ）＋ｈを図示している。すなわち、図４（ｃ）には、比較器３０で比較される２つの信号が図示されている。図４（ｃ）に示すように、音声包絡線信号Ａ（ｔ）と閾値信号Ｂ’（ｔ）との交点が得られる。図４（ｅ）は、比較器３０の出力信号を示す。比較器３０は、音声包絡線信号Ａ（ｔ）と閾値信号Ｂ’（ｔ）との交点に有効に挟まれる区間のうち、Ａ（ｔ）≧Ｂ’（ｔ）となる区間でハイレベルを出力し、Ａ（ｔ）＜Ｂ’（ｔ）となる区間でローレベルを出力する。

図４（ｆ）は、ゲート回路３２の出力信号を示す。ゲート回路３２は、比較器３０からハイレベルを受けたときだけ音号Ｘ（ｔ）を通過させ、比較器３０からローレベルを受けたときには音号Ｘ（ｔ）を非通過とする。これにより、図４（ｆ）に示すように音素と暗騒音が明確に区画され、３つの音素が分割・抽出されている。

以上、本実施形態に係る音素分割装置１０について説明した。この音素分割装置１０によれば、暗騒音のレベルが自動で検知されるので、時間帯によって暗騒音が変化しても音素を分割・抽出するための閾値は常に最適な値に維持される。その結果、従来よりも高い精度で音素分割を行うことができる。

本実施形態の音素分割装置１０によれば、暗騒音のレベル変動に合わせて閾値Ｔを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。

図５は、変形例に係る音素分割装置５０を説明するための図である。図５に示す音素分割装置５０は、バンドパスフィルタ１５が第１分岐部１３と自乗回路１６との間に設けられている点が図３に示す音素分割装置１０と異なる。

本変形例に係る音素分割装置５０では、第１分岐部１３と自乗回路１６の間にバンドパスフィルタ１５が設けられていることにより、ゲート回路３２にはバンドバスフィルタを通っていない音信号が入力される。従って、音素分割装置５０では原音声信号により近い音素信号が得られるため、図３に示す音素分割装置１０と比べて音質を向上することができる。なお、音素分割装置５０においては自乗回路１６に入る音信号はバンドパスフィルタ１５を通っているため、音素の分割・抽出精度は図３に示す音素分割装置と同等である。

図６は、本発明の別の実施形態に係る音素分割装置６０を説明するための図である。図６に示す音素分割装置６０は、自乗回路に代えて絶対値回路６２を備える点が図３に示す音素分割装置１０と異なる。

図６に示すように、音素分割装置６０は、マイクアンプ１４と、絶対値回路６２と、音声用時定数回路１８と、暗騒音用時定数回路２０と、バッファアンプ２６と、加算器２８と、可変抵抗器２９と、比較器３０と、ゲート回路３２とを備える。

マイクアンプ１４は、マイクロホン１２に接続される。マイクロホン１２は、会話などの原音声（マスキー）を集音し、音信号に変換する。マイクアンプ１４は、マイクロホン１２からの音信号を増幅する。マイクロホン１２で増幅された音信号Ｘ（ｔ）は、音声信号ｘ（ｔ）に暗騒音信号ｎ（ｔ）が重畳されたものである。

マイクアンプ１４から出力された音信号Ｘ（ｔ）は、第１分岐部１３で２つに分岐される。第１分岐部１３で分岐された一方の音信号Ｘ（ｔ）は絶対値回路６２に入力され、他方の音信号Ｘ（ｔ）はゲート回路３２に入力される。図３に示す音素分割装置１０と同様に、第１分岐部１３の前段にバンドパスフィルタが設けられてもよい。あるいは、図５に示す音素分割装置５０と同様に、第１分岐部１３と絶対値回路６２の間にバンドパスフィルタが設けられてもよい。また、第１分岐部１３と第２分岐部１７との間には絶対値回路６２が設けられている。

絶対値回路６２は、第１分岐部１３で分岐された一方の音信号Ｘ（ｔ）の絶対値｜Ｘ（ｔ）｜を出力する。自乗回路を用いた実施形態と同様に、絶対値回路６２で音信号Ｘ（ｔ）の絶対値をとることで、正の値のみを処理すればよいため、信号処理を容易にすることができる。絶対値回路６２から出力された絶対値信号｜Ｘ（ｔ）｜は、第２分岐部１７で２つに分岐される。第２分岐部１７で分岐された一方の絶対値信号｜Ｘ（ｔ）｜は音声用時定数回路１８に入力され、他方の絶対値信号｜Ｘ（ｔ）｜は暗騒音用時定数回路２０に入力される。

音声用時定数回路１８は、抵抗値Ｒの第１抵抗器３４と、容量値Ｃの第２コンデンサ３６とから構成される一次のローパスフィルタである。音声用時定数回路１８は、絶対値信号｜Ｘ（ｔ）｜を数１０〜数１００ｍｓの音声用時定数τ_ｖで平滑化（平均化）する。音声用時定数回路１８から出力される信号Ａ（ｔ）は、音声信号ｘ（ｔ）の包絡線、すなわち音声信号ｘ（ｔ）の実効値ｘ_ｒｍｓと見なすことができる。以下、Ａ（ｔ）を「音声包絡線信号」と呼ぶ。

暗騒音用時定数回路２０は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路２０においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τ_ｕ＝Ｒ’Ｃのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τ_ｄ＝ＲＣのローパスフィルタで平滑化が行われる。

本実施形態に係る暗騒音用時定数回路２０において、立ち上がり用時定数τ_ｕは、立ち下がり用時定数τ_ｄよりも非常に大きな値に設定される。具体的には、立ち上がり用時定数τ_ｕは、立ち下がり用時定数τ_ｄより少なくとも１０倍以上、より好適には１００倍〜１０００倍以上大きく設定される。例えば、τ_ｕ＝Ｒ’Ｃ≧３００τ_ｄ〜３０００τ_ｄのように設定されてよい。一方、立ち下がり用時定数τ_ｄは、音声用時定数回路１８の音声用時定数τ_ｖと略同じ値に設定される。本実施形態では、立ち下がり用時定数τ_ｄは音声用時定数に等しい（すなわち、τ_ｄ＝τ_ｖ＝ＲＣ）。

暗騒音用時定数回路２０で平滑化された信号Ｂ（ｔ）は、音声信号ｘ（ｔ）のレベル変化にはほとんど不感で、暗騒音レベル付近に維持される。信号Ｂ（ｔ）は、暗騒音信号ｎ（ｔ）の包絡線、すなわち暗騒音信号ｎ（ｔ）の実効値ｎ_ｒｍｓと見なすことができる。以下、Ｂ（ｔ）を「暗騒音包絡線信号」と呼ぶ。

比較器３０は、音声用時定数回路１８から出力された音声包絡線信号Ａ（ｔ）と暗騒音用時定数回路２０から出力された暗騒音包絡線信号Ｂ（ｔ）とを比較する。ここで、本実施形態では、比較器３０に入力する前に、暗騒音包絡線信号Ｂ（ｔ）をバッファアンプ２６を用いて所定の増幅率ｍで増幅し、さらに加算器２８を用いて所定のオフセット値ｈを加算している。すなわち、本実施形態では、音声包絡線信号Ａ（ｔ）とＢ’（ｔ）＝ｍＢ（ｔ）＋ｈとが比較器３０で比較される。以下、Ｂ’（ｔ）＝ｍＢ（ｔ）＋ｈを「閾値信号」と呼ぶ。増幅率ｍは、例えばｍ＝１〜３の範囲で選択されてよい。また、オフセット値ｈは、例えばｈ＝０〜[Ｂ（ｔ）に想定される最大値の１０倍程度]の範囲から選択されてよい。変形例では、音声包絡線信号Ａ（ｔ）と暗騒音包絡線信号Ｂ（ｔ）とが直接比較されてもよい。

以上、本実施形態に係る音素分割装置６０について説明した。この音素分割装置６０においても、暗騒音のレベルが自動で検知されるので、時間帯によって暗騒音が変化しても音素を分割・抽出するための閾値は常に最適な値に維持される。その結果、従来よりも高い精度で音素分割を行うことができる。

また、本実施形態の音素分割装置６０においても、暗騒音のレベル変動に合わせて閾値Ｔを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。

図７は、本発明のさらに別の実施形態に係る音素分割装置７０を説明するための図である。図３，５，６に示す実施形態では、音素分割処理をアナログ回路で実現したが、図７に示す本実施形態では、音素分割処理をソフトウェアによって実現している。

音素分割装置７０は、マイクアンプ１４と、ＤＳＰ（Digital Signal Processor）ボード７１とを備える。ＤＳＰボード７１には、入力アンプ７２と、Ａ／Ｄ変換器７３と、ＤＳＰ７４と、Ｄ／Ａ変換器７５と、出力アンプ７６と、ＲＯＭ７７と、ＳＤ−ＲＡＭ７８と、入力ポート７９と、出力ポート８０とが実装されている。

マイクアンプ１４は、マイクロホン１２に接続される。マイクロホン１２は、会話などの原音声（マスキー）を集音し、音信号に変換する。マイクアンプ１４は、マイクロホン１２からの音信号を増幅する。マイクロホン１２で増幅された音信号Ｘ（ｔ）は、ＤＳＰボード７１の入力ポート７９に入力される。音信号Ｘ（ｔ）は、アナログ信号であり、音声信号に暗騒音信号が重畳されたものである。入力ポート７９から入力された音信号Ｘ（ｔ）は、入力アンプ７２で増幅された後、Ａ／Ｄ変換器７３でデジタル信号に変換される。Ａ／Ｄ変換器７３から出力された音信号Ｘ（ｔ）のデジタル信号は、ＤＳＰ７４に入力される。

ＤＳＰ７４は、音素分割処理を行うためのプログラムを格納するＲＯＭ７７と、ＤＳＰ７４で処理中のデータを格納するＳＤ−ＲＡＭ７８と接続されている。ＤＳＰ７４は、ＲＯＭ７７から音素分割プログラムを読み込み、音素分割処理を行う。

ＲＯＭ７７に格納された音素分割プログラムは、ＤＳＰ７４に、音信号Ｘ（ｔ）を２つに分岐する第１分岐ステップと、第１分岐ステップで分岐された一方の音信号Ｘ（ｔ）を自乗する自乗ステップと、自乗信号Ｘ^２（ｔ）を２つに分岐する第２分岐ステップと、第２分岐ステップで分岐された一方の自乗信号Ｘ^２（ｔ）を数１０〜数１００ｍｓの音声用時定数τ_ｖで平滑化する第１平滑化ステップと、第１平滑化ステップで平滑化された信号の平方根を演算する第１平方根演算ステップと、第２分岐ステップで分岐された他方の自乗信号Ｘ^２（ｔ）の立ち上がりに対しては音声用時定数τ_ｖより少なくとも１０倍以上、より好適には１００〜１０００倍以上大きい立ち上がり用時定数τ_ｕで平滑化するとともに、他方の自乗信号Ｘ^２（ｔ）の立ち下がりに対しては音声用時定数τ_ｖと略同じ立ち下がり用時定数τ_ｄで平滑化する第２平滑化ステップと、第２平滑化ステップで平滑化された信号の平方根を演算する第２平方根演算ステップと、第１平方根演算ステップで演算された音声包絡線信号Ａ（ｔ）と、第２平方根演算ステップで演算された暗騒音包絡線信号Ｂ（ｔ）とを比較する比較ステップと、比較ステップの比較結果に応じて、第１分岐ステップで分岐された他方の音信号の通過／非通過を制御する通過制御ステップと、を実行させるためのプログラムであってよい。このプログラムの比較ステップでは、音声包絡線信号Ａ（ｔ）と、閾値信号Ｂ’（ｔ）＝ｍＢ（ｔ）＋ｈとが比較されてもよい。増幅率ｍは、例えばｍ＝１〜３の範囲で選択されてよい。また、オフセット値ｈは、例えばｈ＝０〜[Ｂ（ｔ）に想定される最大値の１０倍程度]の範囲から選択されてよい。

あるいは、ＲＯＭ７７に格納された音素分割プログラムは、ＤＳＰ７４に、音信号Ｘ（ｔ）を２つに分岐する第１分岐ステップと、第１分岐ステップで分岐された一方の音信号Ｘ（ｔ）の絶対値｜Ｘ（ｔ）｜を演算する絶対値演算ステップと、絶対値演算ステップからの絶対値信号｜Ｘ（ｔ）｜を２つに分岐する第２分岐ステップと、第２分岐ステップで分岐された一方の絶対値信号｜Ｘ（ｔ）｜を数１０〜数１００ｍｓの音声用時定数τ_ｖで平滑化する第１平滑化ステップと、第２分岐ステップで分岐された他方の絶対値信号｜Ｘ（ｔ）｜の立ち上がりに対しては音声用時定数τ_ｖより少なくとも１０倍以上、より好適には１００〜１０００倍以上大きい立ち上がり用時定数τ_ｕで平滑化するとともに、他方の絶対値信号｜Ｘ（ｔ）｜の立ち下がりに対しては音声用時定数τ_ｖと略同じ立ち下がり用時定数τ_ｄで平滑化する第２平滑化ステップと、第１平滑化ステップで平滑化された音声包絡線信号Ａ（ｔ）と、第２平滑化ステップで平滑化された暗騒音包絡線信号Ｂ（ｔ）とを比較する比較ステップと、比較ステップの比較結果に応じて、第１分岐ステップで分岐された他方の音信号Ｘ（ｔ）の通過／非通過を制御する通過制御ステップと、を実行させるためのプログラムであってもよい。このプログラムの比較ステップにおいても、音声包絡線信号Ａ（ｔ）と、閾値信号Ｂ’（ｔ）＝ｍＢ（ｔ）＋ｈとが比較されてもよい。増幅率ｍは、例えばｍ＝１〜３の範囲で選択されてよい。また、オフセット値ｈは、例えばｈ＝０〜[Ｂ（ｔ）に想定される最大値の１０倍程度]の範囲から選択されてよい。

ＤＳＰ７４からの出力された音素のデジタル信号は、Ｄ／Ａ変換器７５でアナログ信号に変換された後、出力アンプ７６で増幅され、出力ポート８０から出力される。

図８（ａ）〜（ｃ）は、図７に示す音素分割装置７０による音素分割処理を説明するための図である。図８（ａ）〜（ｃ）の縦軸は信号レベルを任意の単位で表し、横軸は時間を任意の単位で表す。

図８（ａ）は、音声包絡線信号Ａ（ｔ）の波形を示す。図８（ｂ）は、暗騒音包絡線信号Ｂ（ｔ）の波形を示す。図８（ｃ）は、音声包絡線信号Ａ（ｔ）と閾値信号Ｂ’（ｔ）＝ｍＢ（ｔ）＋ｈを比較した波形（すなわち、Ａ（ｔ）−Ｂ’（ｔ））を示す。ここでは、増幅率ｍ＝１、オフセット値ｈ＝２００に設定されている。図８（ａ）および（ｂ）に示すように、音素分割処理をソフトウェアで行った場合も、音信号から適切に音声包絡線信号Ａ（ｔ）と暗騒音包絡線信号Ｂ（ｔ）とを分離することができる。暗騒音のレベルが自動で検知されるため、図８（ｃ）に示すように音声包絡線信号Ａ（ｔ）と閾値信号Ｂ’（ｔ）との比較により高い精度で音素の分割・抽出を行うことができる。また、本実施形態の音素分割装置７０によれば、暗騒音のレベル変動に合わせて閾値Ｔを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。

図９は、本発明のさらに別の実施形態に係る音声処理システム９０を説明するための図である。この音声処理システム９０は、上述の音素分割装置を利用して入力された音声に所定の処理を施し、空間に出力するものである。

図９に示すように、音声処理システム９０は、集音装置としてのマイクロホン１２と、マイクアンプ１４と、音素分割装置９２と、音素処理装置９４と、アンプ９５と、出力装置としてのスピーカ９６とを備える。マイクロホン１２は、原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する。マイクアンプ１４は、マイクロホン１２からの音信号を増幅する。音素分割装置９２は、マイクアンプ１４からの増幅音信号を受信して、音声信号を音素に分割する。音素分割装置９２としては、上述の音素分割装置１０，５０，６０，７０を好適に利用することができる。音素処理装置９４は、音素処理装置９４から得られる音素信号に所定の処理を施す。この所定の処理の例については後述する。アンプ９５は、音素処理装置９４によって処理された音素信号を増幅する。スピーカ９６は、増幅された音素信号を音として空間に出力する。

音声処理システム９０は、例えばスピーチプライバシーシステム（音声情報秘話装置）であってよい。スピーチプライバシーシステムは、信号処理により音声信号の構造自体を略実時間で変更・処理することにより、音声信号のスペクトラムやエネルギー包絡線など統計的な性質を大きく変更することなく、その音声の内容のみを隠蔽／遮断し、受聴者に会話の中身を理解不能とするものである．このスピーチプライバシーシステムは、従来の音声マスキングシステムと異なり、原音声の発生時（発声時）以外には音が出ないので、室内の騒音レベルや受聴者の不快感を増長させることなく、音声の内容のみを有効に隠蔽することができる。スピーチプライバシーシステムの詳細については、例えば上記の特許文献１を参照されたい。

スピーチプライバシーシステムにおいては、音素処理装置９４は、音素分割装置９２で分割・抽出された音素（ｍｏｒａ）を再配置、例えば音素の順番を入れ替えたりする。そしてこの再配置された音素信号がスピーカ９６から音として空間に出力される。このスピーカ９６からの音により原音声がマスキングされるため、原音声の内容を受聴者に理解不能とすることができる。

あるいは、音声処理システム９０は、携帯電話、無線機、トランシーバなどの通信システムであってもよい。例えば工事現場やガード下、或いは鉄道のホームなどで携帯電話を使う場合、受信側では暗騒音が受信音声に重畳し、会話内容の理解を妨げる。すなわち、聞き取りや文章了解度が低下する。そこで、音素処理装置９４は、音素分割装置９２で分割・抽出された音素間（すなわち、会話の途切れ部分）の出力をゼロ（無音）にする。このように処理された音素信号をスピーカ９６から出力することで騒音低減・通話品質の向上を図ることができる。このような通信システムにおいて、音素分割装置９２の暗騒音用時定数回路における立ち上がり用時定数τ_ｕ＝Ｒ’Ｃは、スピーチプライバシーシステムに用いる場合より小さく設定されることが好ましい。なお、音声部分には暗騒音が依然として重畳しているが、聴覚の補完作用により音声のあるこの部分の暗騒音はほとんど認識されず、聴感的には騒音がほとんど除去されたように認識されるため、聞き取りは大きく改善される。

あるいは、上述の実施形態に係る音素分割装置は、音声認識機能を内包した車載ナビゲーションシステムに用いられてもよい。上述の音素分割装置から出力される音素信号を音声認識に利用することで、刻々変化する走行騒音の影響を受けることなく音声の認識率を向上させることができる。この場合、音素分割装置の暗騒音用時定数回路における立ち上がり用時定数τ_ｕ＝Ｒ’Ｃは、スピーチプライバシーシステムに用いる場合より小さく設定されることが好ましい。

あるいは、上述の実施形態に係る音素分割装置は、半二重通信のVOX（Voice Operating tX; tx=Transmitter）機能に利用されてもよい。音素分割装置から出力される音素信号に基づいて発話の発生を的確に把握することで、確実に送信・受信を切り替えることが可能となる。

図１０は、本発明のさらに別の実施形態に係る騒音測定装置１２０を説明するための図である。図１０に示す騒音測定装置１２０は、周囲音に含まれる暗騒音のレベルを測定することができる。騒音測定装置１２０は、マイクロホン１２と、マイクアンプ１４と、バンドパスフィルタ１５と、自乗回路１６と、暗騒音用時定数回路２０と、暗騒音用平方根回路２４とを備える。

マイクロホン１２は、周囲音を集音して音信号に変換する。マイクアンプ１４は、マイクロホン１２からの音信号を増幅する。バンドパスフィルタ１５は、マイクアンプ１４からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。バンドパスフィルタ１５から出力される音信号Ｘ（ｔ）は、音声信号ｘ（ｔ）に室（空間）の暗騒音信号ｎ（ｔ）が重畳されたものである。

自乗回路１６は、音信号Ｘ（ｔ）の自乗信号Ｘ^２（ｔ）を出力する。音信号Ｘ（ｔ）には、正負の値が含まれる。自乗回路１６で音信号Ｘ（ｔ）を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路１６は、絶対値回路に置き換えられてもよい。この場合、暗騒音用平方根回路２４は不要となる。

本実施形態に係る暗騒音用時定数回路２０において、立ち上がり用時定数τ_ｕは、立ち下がり用時定数τ_ｄよりも非常に大きな値に設定される。具体的には、立ち下がり用時定数τ_ｄは、数１０ｍｓ〜数１００ｍｓ（例えば１２５ｍｓ）の比較的小さい値に設定される。一方、立ち上がり用時定数τ_ｕは、立ち下がり用時定数τ_ｄより少なくとも１０倍以上、より好適には１００倍〜１０００倍以上大きく設定される。例えば、τ_ｕ＝Ｒ’Ｃ≧３００τ_ｄ〜３０００τ_ｄのように設定されてよい。

暗騒音用時定数回路２０の後段に設けられた暗騒音用平方根回路２４は、暗騒音用時定数回路２０から入力された信号の平方根Ｂ（ｔ）を演算する。上述したように、この信号Ｂ（ｔ）は、暗騒音信号ｎ（ｔ）の包絡線、すなわち暗騒音信号ｎ（ｔ）の実効値ｎ_ｒｍｓ（すなわち暗騒音のレベル）と見なすことができる。

このように、本実施形態に係る騒音測定装置１２０によれば、周囲音に含まれる暗騒音のレベルを測定することができる。本実施形態に係る騒音測定装置１２０は、会話や特定の変動騒音（有意味騒音）がある空間での暗騒音測定に特に有効である。騒音測定装置１２０は、暗騒音用平方根回路２４から出力される信号を表示する表示部を備えてもよい。この場合、暗騒音を視覚的に認識することができる。

騒音測定装置１２０は、例えばテレビジョンシステム、車載テレビジョンシステム、カーステレオシステム等の音響システムに用いることができる。騒音測定装置１２０で測定される暗騒音のレベルは、在室者間の会話音声や短時間の間歇的騒音の影響を受けない。従って、この暗騒音のレベルを参照することで、例えば、暗騒音レベルが高い場合にはスピーカーの音量を上げ、暗騒音レベルが低い場合にはスピーカーの音量を下げるといったように、スピーカーの音量を最適に制御することができる。

図１１は、本発明のさらに別の実施形態に係る騒音測定装置１３０を説明するための図である。図１１に示す騒音測定装置１３０は、周囲音に含まれる騒音のレベルを測定することができる。騒音測定装置１３０は、マイクロホン１２と、マイクアンプ１４と、バンドパスフィルタ１５と、自乗回路１６と、音声用時定数回路１８と、暗騒音用時定数回路２０と、音声用平方根回路２２と、暗騒音用平方根回路２４と、表示部１３４とを備える。

自乗回路１６は、音信号Ｘ（ｔ）の自乗信号Ｘ^２（ｔ）を出力する。音信号Ｘ（ｔ）には、正負の値が含まれる。自乗回路１６で音信号Ｘ（ｔ）を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路１６は、絶対値回路に置き換えられてもよい。この場合、音声用平方根回路２２および暗騒音用平方根回路２４は不要となる。

自乗回路１６から出力された自乗信号Ｘ^２（ｔ）は、分岐部１３２で２つの分岐される。分岐部１３２で分岐された一方の自乗信号Ｘ^２（ｔ）は音声用時定数回路１８に入力され、他方の自乗信号Ｘ^２（ｔ）は暗騒音用時定数回路２０に入力される。

音声用時定数回路１８は、数１０〜数１００ｍｓの音声用時定数τ_ｖを有する一次のローパスフィルタである。音声用時定数回路１８は、入力信号を音声用時定数τ_ｖで平滑化（平均化）する。音声用時定数回路１８から出力される信号Ａ（ｔ）は、音声信号ｘ（ｔ）の包絡線、すなわち音声信号ｘ（ｔ）の実効値ｘ_ｒｍｓ（すなわち音声信号のレベル）と見なすことができる。

暗騒音用時定数回路２０は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路２０においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τ_ｕ＝Ｒ’Ｃのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τ_ｄ＝ＲＣのローパスフィルタで平滑化が行われる。音声用時定数回路１８による平滑化処理（平均化処理）により、自乗信号Ｘ^２（ｔ）から音声用時定数τ_ｖよりも速い成分が取り除かれ、自乗信号Ｘ^２（ｔ）の包絡線信号が得られる。

音声用時定数回路１８の後段に設けられた音声用平方根回路２２は、音声用時定数回路１８から入力された信号の平方根を演算する。この音声用平方根回路２２から出力される信号Ａ（ｔ）は、音声信号ｘ（ｔ）の包絡線、すなわち音声信号ｘ（ｔ）の実効値ｘ_ｒｍｓ（すなわち音声信号のレベル）と見なすことができる。

表示部１３４は、音声用平方根回路２２からの信号Ａ（ｔ）と、暗騒音用平方根回路２４からの信号Ｂ（ｔ）とを表示する。例えば、表示部１３４は、信号Ａ（ｔ）と、信号Ｂ（ｔ）の両者を区別して二元表示してもよい。信号Ａ（ｔ）は、短時間に変化する会話音声や建設現場の間歇騒音のレベルを表し、信号Ｂ（ｔ）は、暗騒音のレベルを表す。信号Ａ（ｔ）については、Ａ（ｔ）が暗騒音が含まれる。そこで、表示部１３４は、信号Ａ（ｔ）に代えてまたは加えて、以下の数式に従って得られる「暗騒音補正された信号Ａ’（ｔ）」を「正味騒音レベル」として表示させることもできる。

図１２は、表示部１３４による騒音レベル表示の一例を示す。図１２に示す騒音レベル表示例では、音声用平方根回路２２からの信号Ａ（ｔ）が「全騒音」として表示され、暗騒音用平方根回路２４からの信号Ｂ（ｔ）が「暗騒音」として表示され、暗騒音補正された信号Ａ’（ｔ）が「正味騒音」として表示されている。図１２に示すように全騒音、暗騒音、正味騒音のレベルを可視化することで、ユーザは瞬時に各騒音レベルを把握することができる。

以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。

入力信号に対する包絡線取得、すなわち包絡線検波は、上述の実施形態で説明した自乗平均値の平方根を取る方法や絶対値を平滑化する方法のみならず、ウェーブレット変換やヒルベルト変換、あるいは簡略的にはダイオードなどにより半波整流した結果を平滑化する方法などその他の類似の方法によってなされてもよい。

１０，５０，６０，７０，９２音素分割装置、１２マイクロホン、１３第１分岐部、１４マイクアンプ、１５バンドパスフィルタ、１６自乗回路、１７第２分岐部、１８音声用時定数回路、２０暗騒音用時定数回路、２２音声用平方根回路、２４暗騒音用平方根回路、２６バッファアンプ、２８加算器、３０比較器、３２ゲート回路、６２絶対値回路、７１ＤＳＰボード、７４ＤＳＰ、７６出力アンプ、７７ＲＯＭ、９０音声処理システム、９４音素処理装置、９６スピーカ、１２０，１３０騒音測定装置、１３４表示部。

Claims

音声信号に暗騒音信号が重畳された音信号を２つに分岐する第１分岐部と、
前記第１分岐部で分岐された一方の音信号をさらに２つに分岐する第２分岐部と、
前記第２分岐部で分岐された一方の音信号を数１０〜数１００ｍｓの音声用時定数で平滑化する音声用時定数部と、
前記第２分岐部で分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、
前記音声用時定数部からの信号と、前記暗騒音用時定数部からの信号とを比較する比較部と、
前記比較部の比較結果に応じて、前記第１分岐部で分岐された他方の音信号の通過／非通過を制御するゲート部と、
を備えることを特徴とする音素分割装置。
前記立ち上がり用時定数は、前記音声用時定数よりも１００〜１０００倍以上大きいことを特徴とする請求項１に記載の音素分割装置。
前記暗騒音用時定数部からの信号を所定の増幅率で増幅するアンプと、
前記アンプからの出力に所定のオフセット値を加える加算器と、をさらに備え、
前記比較部は、前記音声用時定数部からの信号と、前記加算器からの信号とを比較することを特徴とする請求項１または２に記載の音素分割装置。
前記第１分岐部の前段に設けられた、音声の平均スペクトルに対応する通過帯域を有するバンドバスフィルタをさらに備えることを特徴とする請求項１から３のいずれかに記載の音素分割装置。
前記第１分岐部と前記第２分岐部との間に設けられた、音声の平均スペクトルに対応する通過帯域を有するバンドバスフィルタをさらに備えることを特徴とする請求項１から３のいずれかに記載の音素分割装置。
前記第１分岐部の後段に前記第２分岐部との間に設けられた、前記第１分岐部で分岐された一方の音信号を自乗する自乗部と、
前記音声用時定数部の後段に設けられた、前記音声用時定数部からの信号の平方根を演算する音声用平方根演算部と、
前記暗騒音用時定数部の後段に設けられた、前記暗騒音用時定数部からの信号の平方根を演算する暗騒音用平方根演算部と、
をさらに備えることを特徴とする請求項１から５のいずれかに記載の音素分割装置。
前記第１分岐部と前記第２分岐部との間に設けられた、前記第１分岐部で分岐された一方の音信号の絶対値を出力する絶対値演算部をさらに備えることを特徴とする請求項１から５のいずれかに記載の音素分割装置。
原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する集音装置と、
前記集音装置からの前記音信号を受信して、前記音声信号を音素に分割する請求項１から７のいずれかに記載の音素分割装置と、
前記音素分割装置から得られる音素信号に所定の処理を施す音素処理装置と、
前記音素処理装置によって処理された音素信号を音として空間に出力する出力装置と、
を備えることを特徴とする音声処理システム。
音声信号に暗騒音信号が重畳された音信号を２つに分岐する第１分岐ステップと、
前記第１分岐ステップで分岐された一方の音信号を２つに分岐する第２分岐ステップと、
前記第２分岐ステップで分岐された一方の音信号を数１０〜数１００ｍｓの音声用時定数で平滑化する第１平滑化ステップと、
前記第２分岐ステップで分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する第２平滑化ステップと、
前記第１平滑化ステップで演算された信号と、前記第２平滑化ステップで演算された信号とを比較する比較ステップと、
前記比較ステップの比較結果に応じて、前記第１分岐ステップで分岐された他方の音信号の通過／非通過を制御する通過制御ステップと、
を備えることを特徴とする音素分割方法。
コンピュータに、
音声信号に暗騒音信号が重畳された音信号を２つに分岐する第１分岐ステップと、
前記第１分岐ステップで分岐された一方の音信号を２つに分岐する第２分岐ステップと、
前記第２分岐ステップで分岐された一方の音信号を数１０〜数１００ｍｓの音声用時定数で平滑化する第１平滑化ステップと、
前記第２分岐ステップで分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する第２平滑化ステップと、
前記第１平滑化ステップで演算された信号と、前記第２平滑化ステップで演算された信号とを比較する比較ステップと、
前記比較ステップの比較結果に応じて、前記第１分岐ステップで分岐された他方の音信号の通過／非通過を制御する通過制御ステップと、
を実行させるための音素分割プログラム。
周囲音に含まれる暗騒音のレベルを測定する騒音測定装置であって、
周囲音を集音する集音部と、
前記集音部からの音信号の立ち下がりに対しては数１０〜数１００ｍｓの立ち下がり用時定数で平滑化するとともに、前記集音部からの音信号の立ち上がりに対しては前記立ち下がり用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化する暗騒音用時定数部と、
を備えることを特徴とする騒音測定装置。
周囲音に含まれる騒音のレベルを測定する騒音測定装置であって、
周囲音を２つに分岐する分岐部と、
前記分岐部で分岐された一方の音信号を数１０〜数１００ｍｓの音声用時定数で平滑化する音声用時定数部と、
前記分岐部で分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも１０倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、
前記音声用時定数部からの信号と、前記暗騒音用時定数部からの信号とを表示する表示部と、
を備えることを特徴とする騒音測定装置。
前記音声用時定数部からの信号をＡ（ｔ）と、前記暗騒音用時定数部からの信号をＢ（ｔ）としたときに、前記表示部は、以下の数式

から得られる暗騒音補正された信号Ａ’（ｔ）を、前記暗騒音用時定数部からの信号Ａ（ｔ）に代えてまたは加えて表示することを特徴とする請求項１２に記載の騒音測定装置。