JP2016038552A - 音素分割装置、音声処理システム、音素分割方法、音素分割プログラム、および騒音測定装置 - Google Patents

音素分割装置、音声処理システム、音素分割方法、音素分割プログラム、および騒音測定装置 Download PDF

Info

Publication number
JP2016038552A
JP2016038552A JP2014163880A JP2014163880A JP2016038552A JP 2016038552 A JP2016038552 A JP 2016038552A JP 2014163880 A JP2014163880 A JP 2014163880A JP 2014163880 A JP2014163880 A JP 2014163880A JP 2016038552 A JP2016038552 A JP 2016038552A
Authority
JP
Japan
Prior art keywords
signal
time constant
sound
background noise
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014163880A
Other languages
English (en)
Other versions
JP6435133B2 (ja
Inventor
川上 福司
Fukuji Kawakami
福司 川上
雅和 木山
Masakazu Kiyama
雅和 木山
健久 岡本
Takehisa Okamoto
健久 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Sheet Glass Environment Amenity Co Ltd
Original Assignee
Nippon Sheet Glass Environment Amenity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Sheet Glass Environment Amenity Co Ltd filed Critical Nippon Sheet Glass Environment Amenity Co Ltd
Priority to JP2014163880A priority Critical patent/JP6435133B2/ja
Publication of JP2016038552A publication Critical patent/JP2016038552A/ja
Application granted granted Critical
Publication of JP6435133B2 publication Critical patent/JP6435133B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】暗騒音レベルを自動検知することで適切な音素分割を行う。【解決手段】音素分割装置10は、音信号を分岐する第1分岐部13と、一方の音信号を自乗する自乗回路16と、自乗信号を分岐する第2分岐部17と、一方の自乗信号を数10〜数100msの音声用時定数で平滑化する音声用時定数回路18と、平滑化信号の平方根を演算する音声用平方根回路22と、他方の自乗信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、自乗信号の立ち下がりに対しては音声用時定数と同じ立ち下がり用時定数で平滑化する暗騒音用時定数回路20と、平滑化信号の平方根を演算する暗騒音用平方根回路24と、音声用平方根回路22からの信号と、暗騒音用平方根回路24からの信号とを比較する比較部30と、比較部30の比較結果に応じて他方の音信号の通過/非通過を制御するゲート回路32とを備える。【選択図】図3

Description

本発明は、音声信号から音素を分割・抽出するための音素分割装置、該音素分割装置を用いた音声処理システム、音素分割方法、音素分割プログラム、および騒音測定装置に関する。
近年、「個人情報保護法」の施行等により銀行やオフィスにおいて会話情報を保護する必要性が高まってきたが、その手段として、物理的に空間を分離する従来の遮音・防音とは別に、オープンプランオフィスなどにおいて音声信号を別の雑音・音楽などで隠蔽(情報マスキング)するスピーチプライバシーシステム(音声情報秘話装置)が提案されている。スピーチプライバシーシステムとしては、例えば原音声をマスカーとして用いるもの(例えば、特許文献1参照)が知られている。
電気音響を用いた一般のSR(Sound Reinforcement)システムやPA(Public Address)システムが音量や明瞭を向上させる目的で用いられるのに対し、スピーチプライバシーシステムは、信号処理により音声信号の構造自体を略実時間で変更・処理することにより、音声信号のスペクトラムやエネルギー包絡線など統計的な性質を大きく変更することなく、その音声の内容のみを隠蔽/遮断し、受聴者に会話の中身を理解不能とすることを目的としたものである。
上記特許文献1では、音声包絡線の「略一山」を1つの音素として抽出し、これを再配置するなどして音声の構造を変化させてマスカー(原音声に重畳してその内容を隠蔽する別音声)として利用している。
従来、音声包絡線の略一山を抽出する方法としては、入力音声のエネルギー包絡線が閾値を越えて立ち上がり、再び元に戻るまでを1音素(1 mora)とする方法が一般的である。
特開2011−123141号公報
しかしながら、マイクロホン等で集音された入力音声には通常、暗騒音(バックグラウンドノイズ)が重畳している。一般的な室や空間の暗騒音は、短い時間ではほぼ一定しているのに、長時間でみるとかなり大きく変動する傾向がある。従って、ある時間の暗騒音のレベルに基づいて閾値を設定したとしても、暗騒音のレベル変動に起因して適切な音素分割を行うことができない可能性がある。また、暗騒音のレベル変動に合わせて閾値を手作業で調整するのは大変な作業である。
本発明はこうした課題に鑑みてなされたものであり、その目的は、暗騒音のレベルを自動で検知することを可能ならしめる技術を提供することにある。
上記課題を解決するために、本発明のある態様の音素分割装置は、音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐部と、第1分岐部で分岐された一方の音信号をさらに2つに分岐する第2分岐部と、第2分岐部で分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する音声用時定数部と、第2分岐部で分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、音声用時定数部からの信号と、暗騒音用時定数部からの信号とを比較する比較部と、比較部の比較結果に応じて、第1分岐部で分岐された他方の音信号の通過/非通過を制御するゲート部とを備える。
本発明の別の態様は、音声処理システムである。このシステムは、原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する集音装置と、集音装置からの音信号を受信して、音声信号を音素に分割する上述の音素分割装置と、音素分割装置から得られる音素信号に所定の処理を施す音素処理装置と、音素処理装置によって処理された音素信号を音として空間に出力する出力装置とを備える。
本発明のさらに別の態様は、音素分割方法である。この方法は、音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、第1平滑化ステップで演算された信号と、第2平滑化ステップで演算された信号とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップとを備える。
本発明のさらに別の態様は、音素分割プログラムである。このプログラムは、コンピュータに、音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、第1平滑化ステップで演算された信号と、第2平滑化ステップで演算された信号とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップとを実行させるための音素分割プログラムである。
本発明のさらに別の態様は、騒音測定装置である。この装置は、周囲音に含まれる暗騒音のレベルを測定する騒音測定装置であって、周囲音を集音する集音部と、集音部からの音信号の立ち下がりに対しては数10〜数100msの立ち下がり用時定数で平滑化するとともに、集音部からの音信号の立ち上がりに対しては立ち下がり用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化する暗騒音用時定数部とを備える。
本発明のさらに別の態様もまた、騒音測定装置である。この装置は、周囲音に含まれる騒音のレベルを測定する騒音測定装置であって、周囲音を2つに分岐する分岐部と、分岐部で分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する音声用時定数部と、分岐部で分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、音声用時定数部からの信号と、暗騒音用時定数部からの信号とを表示する表示部とを備える。
なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。
本発明によれば、暗騒音のレベルを自動で検知することができる。
従来の音素分割装置の一例を説明するための図である。 図2(a)〜(e)は、図1に示す音素分割装置による音素分割処理を説明するための図である。 本発明の実施形態に係る音素分割装置を説明するための図である。 図4(a)〜(f)は、図3に示す音素分割装置による音素分割処理を説明するための図である。 変形例に係る音素分割装置を説明するための図である。 本発明の別の実施形態に係る音素分割装置を説明するための図である。 本発明のさらに別の実施形態に係る音素分割装置を説明するための図である。 図8(a)〜(c)は、図7に示す音素分割装置による音素分割処理を説明するための図である。 本発明のさらに別の実施形態に係る音声処理システムを説明するための図である。 本発明のさらに別の実施形態に係る騒音測定装置を説明するための図である。 本発明のさらに別の実施形態に係る騒音測定装置を説明するための図である。 表示部による騒音レベル表示の一例を示す図である。
以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。
まず、本発明の実施形態に係る音素分割装置について説明する前に、従来の音素分割装置の一例について説明する。
図1は、従来の音素分割装置の一例を説明するための図である。図1に音素分割装置100は、マイクアンプ104と、絶対値回路106と、時定数回路108と、比較器110と、可変抵抗器112と、ゲート回路114とを備える。
マイクアンプ104は、マイクロホン102に接続される。マイクロホン102は、原音声(マスキー)を集音し、音信号に変換する。この音信号は、音声に暗騒音が重畳されたものである。マイクアンプ104は、マイクロホン102からの音信号を増幅する。マイクアンプ104から出力された音信号X(t)は、分岐部105で2つに分岐され、一方の音信号X(t)は絶対値回路106に入力され、他方の音信号X(t)はゲート回路114に入力される。絶対値回路106は、音信号X(t)の絶対値を出力する。絶対値回路106から出力された音信号の絶対値|X(t)|は、時定数回路108に入力される。時定数回路108は、抵抗値Rの抵抗器および容量値Cのコンデンサから構成された一次のローパスフィルタであり、その時定数τ=RCは100ms程度に設定される。時定数回路108は、音信号の絶対値|X(t)|を平滑化する。時定数回路108による平滑化処理により、音信号の絶対値|X(t)|から時定数τよりも速い成分が取り除かれ、包絡線信号A(t)が得られる。比較器110は、包絡線信号A(t)と、所定の閾値Tとを比較し、A(t)≧Tとなるタイミングでゲート回路114を開状態とする。これにより、ゲート回路114が開状態のときの音信号の区間が、音素(mora)として分割・抽出される。
音素分割装置100において、閾値Tは、電源電圧+Vcを可変抵抗器112で調整することにより手動で設定される。音声を高い精度で音素に分割するためには、この閾値Tの設定が重要である。
図2(a)〜(e)は、図1に示す音素分割装置100による音素分割処理を説明するための図である。図2(a)〜(e)の縦軸は信号レベルを任意の単位で表し、横軸は時間tを表す。図2(a)は、マイクアンプ104から出力される音信号X(t)の波形を示す。図2(b)は、絶対値回路106から出力される音信号の絶対値|X(t)|の波形と、時定数回路108から出力される包絡線信号A(t)の波形を示す。包絡線信号A(t)の波形の「略一山」が一つの音素(1mora)に対応する。
図2(b)に示すように、本例において包絡線信号A(t)は6個の「略一山」、すなわち音素1〜6を含んでいる。また、図2(b)には、比較器110において包絡線信号A(t)から音素を分割する際に用いる3段階の閾値T(閾値T1〜T3)が図示されている。図2(c)〜(e)は、ゲート回路114からの出力信号の波形、すなわち、音素分割装置100による音素分割結果を示す。音素分割装置100による音素分割結果は、閾値Tに依存する。
図2(c)は、閾値Tを暗騒音のレベルより十分大きな閾値T1に設定したときの音素分割結果を示す。音素分割装置100のように音信号の包絡線と閾値を比較することで音素分割を行う方法においては、できるだけ安定に音素を分割・抽出しようとすると閾値Tを暗騒音のレベルより十分大きな値に設定することとなる。この場合、図2(c)に示すように、音素4,6のような小さいレベルの音素が欠落する可能性がある。
図2(e)は、閾値Tを暗騒音のレベルと同程度の小さな閾値T3に設定したときの音素分割結果を示す。この場合、図2(e)に示すように、隣接する音素1と2および隣接する音素3〜5が分割されていない。このように、閾値Tを小さな閾値T3に設定した場合、音素間の境界があいまいとなり、図2(e)に示すように複数の音素が分割されずに繋がってしまう可能性がある。
図2(d)は、閾値Tを暗騒音のレベルにマージンHを加えた最適な閾値T2に設定したときの音素分割結果を示す。この場合、図2(d)に示すように音素1〜6が適切に分割されている。このように、適切な音素分割を行うためには、暗騒音のレベルを正確に検知し、この暗騒音のレベルよりも僅かに大きな値を閾値Tに設定することが重要である。
一般的な室や空間の暗騒音は、短い時間ではほぼ一定しているのに、長時間でみると午前と午後、昼食時と執務時というように、かなり大きく変動する傾向がある。従って、ある時間の暗騒音のレベルに基づいて閾値Tを設定したとしても、暗騒音のレベル変動に起因して適切な音素分割を行うことができない可能性がある。また、暗騒音のレベル変動に合わせて閾値Tを手作業で調整するのは大変な作業である。
上記のような従来の音素分割装置の課題を認識した上で、本発明者は、暗騒音のレベルが変動した場合であっても適切な音素分割を自動で実行することを可能ならしめる音素分割方法及び装置を発明した。
図3は、本発明の実施形態に係る音素分割装置10を説明するための図である。図3に示すように、音素分割装置10は、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、音声用時定数回路18と、暗騒音用時定数回路20と、音声用平方根回路22と、暗騒音用平方根回路24と、バッファアンプ26と、加算器28と、可変抵抗器29と、比較器30と、ゲート回路32とを備える。
マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。
バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。このバンドパスフィルタ15は、例えば成人音声の平均スペクトルに対応する通過帯域(例えば100Hz〜7kHz、より好適には250Hz〜4kHz)を有する。バンドパスフィルタ15を設けることにより、音素の分割・抽出精度を向上できる。
バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。すなわち、X(t)=x(t)+n(t)と表される。
バンドパスフィルタ15から出力された音信号X(t)は、第1分岐部13で2つに分岐される。第1分岐部13で分岐された一方の音信号X(t)は自乗回路16に入力され、他方の音信号X(t)はゲート回路32に入力される。図3から分かるように、本実施形態では第1分岐部13の前段にバンドパスフィルタ15が設けられている。また、第1分岐部13と第2分岐部17との間には自乗回路16が設けられている。
自乗回路16は、第1分岐部13で分岐された一方の音信号X(t)の自乗信号X(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16から出力された自乗信号X(t)は、第2分岐部17で2つの分岐される。第2分岐部17で分岐された一方の自乗信号X(t)は音声用時定数回路18に入力され、他方の自乗信号X(t)は暗騒音用時定数回路20に入力される。
音声用時定数回路18は、抵抗値Rの第1抵抗器34と、容量値Cの第2コンデンサ36とから構成される一次のローパスフィルタである。第1抵抗器34の一方の端子は自乗回路16に接続され、他方の端子は音声用平方根回路22に接続されている。第2コンデンサ36の一方の端子は第1抵抗器34の他方の端子に接続され、第2コンデンサ36の他方の端子は接地されている。音声用時定数回路18の時定数(以下、「音声用時定数」と呼ぶ)τ=RCは、数10ms〜数100ms(例えば125ms)の比較的小さい値に設定される。音声用時定数回路18は、自乗信号X(t)を音声用時定数τで平滑化(平均化)する。音声用時定数回路18による平滑化処理(平均化処理)により、自乗信号X(t)から音声用時定数τよりも速い成分が取り除かれ、自乗信号X(t)の包絡線信号が得られる。
音声用時定数回路18の後段に設けられた音声用平方根回路22は、音声用時定数回路18から入力された信号の平方根を演算する。この音声用平方根回路22から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrmsと見なすことができる(以下の数式参照)。以下、A(t)を「音声包絡線信号」と呼ぶ。
Figure 2016038552
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20は、抵抗値R’の第2抵抗器38と、容量Cの第2コンデンサ40と、ダイオード42と、抵抗値Rの第3抵抗器44とから成る。第2抵抗器38の一方の端子は自乗回路16に接続され、他方の端子は暗騒音用平方根回路24に接続されている。ダイオード42のカソード端子は自乗回路16に接続され、アノード端子は第3抵抗器44の一方の端子に接続されている。第3抵抗器44の他方の端子は暗騒音用平方根回路24に接続されている。第2コンデンサ40の一方の端子は第2抵抗器38および第3抵抗器44の他方の端子接続され、第2コンデンサ40の他方の端子は接地されている。
このように構成された暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、第2抵抗器38と第2コンデンサ40から構成される時定数(以下、「立ち上がり用時定数」と呼ぶ)τ=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、第3抵抗器44と第2コンデンサ40から構成される時定数(以下、「立ち下がり用時定数」と呼ぶ)τ=RCのローパスフィルタで平滑化が行われる。
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τは、立ち下がり用時定数τよりも非常に大きな値に設定される。すなわち、暗騒音用時定数回路20は、非対称な2つの時定数で構成される。具体的には、立ち上がり用時定数τは、立ち下がり用時定数τより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τ=R’C≧300τ〜3000τのように設定されてよい。一方、立ち下がり用時定数τは、音声用時定数回路18の音声用時定数τと略同じ値に設定される。本実施形態では、立ち下がり用時定数τは音声用時定数に等しい(すなわち、τ=τ=RC)。
暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。暗騒音用時定数回路20の立ち上がり用時定数τは、音声用時定数回路18の音声用時定数τよりも非常に大きな値に設定されるため、B(t)は音声信号x(t)のレベル変化にはほとんど不感で、一般的にはほぼ一定と考えられる暗騒音レベル(例えば、銀行ロビーや病院の待合室などの暗騒音レベル)、つまり音信号X(t)の最低レベル付近に維持される。すなわち、B(t)は音素(mora)間の僅かの無音部(途切れ目)を通じて素早く暗騒音レベルまで低下し、全体において常に暗騒音に等しいレベルを維持する。
しかし場合によっては、大声の人が連続して話したり、短時間の始業ベルが鳴ったりしてゆっくりではあるが信号B(t)が上昇することがあるため、それらが停止した時点で速やかに本来の暗騒音レベルに戻るよう、立ち下がり用時定数τについては立ち上がり用時定数τとは異なる値、具体的には音声用時定数回路18の音声用時定数τと同程度の時定数となっている。これにより、信号B(t)は朝の早い時間から午前中にかけて、また昼食時から午後にかけて、といった対称空間のゆっくりした暗騒音変化には追従するが、音声程度の速いレベル変化にはほとんど追従せず不感、ということになる。このように変化する信号B(t)は、刻々変化する音声包絡線信号A(t)に対し、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrmsと見なすことができる(以下の数式参照)。以下、B(t)を「暗騒音包絡線信号」と呼ぶ。
Figure 2016038552
比較器30は、音声用平方根回路22から出力された音声包絡線信号A(t)と暗騒音用平方根回路24から出力された暗騒音包絡線信号B(t)とを比較する。ここで、本実施形態では、比較器30に入力する前に、暗騒音包絡線信号B(t)をバッファアンプ26を用いて所定の増幅率mで増幅し、さらに加算器28を用いて所定のオフセット値hを加算している。すなわち、本実施形態では、音声包絡線信号A(t)とB’(t)=mB(t)+hとが比較器30で比較される。以下、B’(t)=mB(t)+hを「閾値信号」と呼ぶ。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。一般に暗騒音レベルは音声レベルに対し十分低いので、このようにB(t)よりも僅かに大きな閾値信号B’(t)と音声包絡線信号A(t)とを比較することで、音素分割を安全・安定に行うことができる。変形例では、音声包絡線信号A(t)と暗騒音包絡線信号B(t)とが直接比較されてもよい。
比較器30は、音声包絡線信号A(t)が閾値信号B’(t)以上(すなわち、A(t)≧B’(t))となる区間でゲート回路32にハイレベルを出力し、音声包絡線信号A(t)が閾値信号B’(t)未満(すなわち、A(t)<B’(t))となる区間でゲート回路32にローレベルを出力する。
ゲート回路32は、比較器30の比較結果に応じて、第1分岐部13で分岐された他方の音信号X(t)の通過/非通過を制御する。すなわち、ゲート回路32は、比較器30からハイレベルを受けたときは開状態となって音号X(t)を通過させ、比較器30からローレベルを受けたときには閉状態となって音号X(t)を非通過とする。このような動作により、ゲート回路32から音素信号が出力される。
図4(a)〜(f)は、図3に示す音素分割装置10による音素分割処理を説明するための図である。図4(a)〜(f)の縦軸は信号レベルvを単位mVで表し、横軸は時間tを単位msで表す。
図4(a)は、バンドパスフィルタ15から出力される音信号X(t)の波形を示す。音信号X(t)は、音声信号x(t)に暗騒音信号n(t)が重畳されたものである。この音信号X(t)は、第1分岐部13で2つに分岐される。分岐された一方の音信号X(t)は自乗回路16に入力され、他方の音信号X(t)はゲート回路32に入力される。
図4(b)は、自乗回路16から出力された自乗信号X(t)の波形を示す。図4(b)に示すように、自乗信号X(t)は正の成分のみを含む。この自乗信号X(t)は、第2分岐部17で2つに分岐される。分岐された一方の自乗信号X(t)は音声用時定数回路18に入力され、他方の自乗信号X(t)は暗騒音用時定数回路20に入力される。
音声用時定数回路18で平滑化された信号は、音声用平方根回路22でその平方根がとられる。この平方根は音声包絡線信号A(t)となる。図4(c)は、音声用平方根回路22から出力される音声包絡線信号A(t)の波形を示す。図4(c)に示すように、音声包絡線信号A(t)は、ほぼ入力原音声の実効値xrmsに追従して変化する正の波形である。
一方、暗騒音用時定数回路20で平滑化された信号は、暗騒音用平方根回路24でその平方根がとられる。この平方根は暗騒音包絡線信号B(t)となる。図4(d)は、暗騒音用平方根回路24から出力される暗騒音包絡線信号B(t)の波形を示す。図4(d)に示すように、暗騒音包絡線信号B(t)は、入力原音声にはほとんど追従せず、入力原音声の途切れ部分においてのみこれに沿って急速に最低値、即ち暗騒音レベルまで低下する。つまり、B(t)は常に暗騒音のレベルに維持され、音素分割の域値として利用することができる。
暗騒音用平方根回路24から出力された暗騒音包絡線信号B(t)は、バッファアンプ26でm倍に増幅された後、加算器28でオフセット値hが加算され、閾値信号B’(t)=mB(t)+hとされる。図4(d)には、暗騒音包絡線信号B(t)に加えて、閾値信号B’(t)の波形が図示されている。
図4(c)は、音声包絡線信号A(t)に加えて、閾値信号B’(t)=mB(t)+hを図示している。すなわち、図4(c)には、比較器30で比較される2つの信号が図示されている。図4(c)に示すように、音声包絡線信号A(t)と閾値信号B’(t)との交点が得られる。図4(e)は、比較器30の出力信号を示す。比較器30は、音声包絡線信号A(t)と閾値信号B’(t)との交点に有効に挟まれる区間のうち、A(t)≧B’(t)となる区間でハイレベルを出力し、A(t)<B’(t)となる区間でローレベルを出力する。
図4(f)は、ゲート回路32の出力信号を示す。ゲート回路32は、比較器30からハイレベルを受けたときだけ音号X(t)を通過させ、比較器30からローレベルを受けたときには音号X(t)を非通過とする。これにより、図4(f)に示すように音素と暗騒音が明確に区画され、3つの音素が分割・抽出されている。
以上、本実施形態に係る音素分割装置10について説明した。この音素分割装置10によれば、暗騒音のレベルが自動で検知されるので、時間帯によって暗騒音が変化しても音素を分割・抽出するための閾値は常に最適な値に維持される。その結果、従来よりも高い精度で音素分割を行うことができる。
本実施形態の音素分割装置10によれば、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。
図5は、変形例に係る音素分割装置50を説明するための図である。図5に示す音素分割装置50は、バンドパスフィルタ15が第1分岐部13と自乗回路16との間に設けられている点が図3に示す音素分割装置10と異なる。
本変形例に係る音素分割装置50では、第1分岐部13と自乗回路16の間にバンドパスフィルタ15が設けられていることにより、ゲート回路32にはバンドバスフィルタを通っていない音信号が入力される。従って、音素分割装置50では原音声信号により近い音素信号が得られるため、図3に示す音素分割装置10と比べて音質を向上することができる。なお、音素分割装置50においては自乗回路16に入る音信号はバンドパスフィルタ15を通っているため、音素の分割・抽出精度は図3に示す音素分割装置と同等である。
図6は、本発明の別の実施形態に係る音素分割装置60を説明するための図である。図6に示す音素分割装置60は、自乗回路に代えて絶対値回路62を備える点が図3に示す音素分割装置10と異なる。
図6に示すように、音素分割装置60は、マイクアンプ14と、絶対値回路62と、音声用時定数回路18と、暗騒音用時定数回路20と、バッファアンプ26と、加算器28と、可変抵抗器29と、比較器30と、ゲート回路32とを備える。
マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。マイクロホン12で増幅された音信号X(t)は、音声信号x(t)に暗騒音信号n(t)が重畳されたものである。
マイクアンプ14から出力された音信号X(t)は、第1分岐部13で2つに分岐される。第1分岐部13で分岐された一方の音信号X(t)は絶対値回路62に入力され、他方の音信号X(t)はゲート回路32に入力される。図3に示す音素分割装置10と同様に、第1分岐部13の前段にバンドパスフィルタが設けられてもよい。あるいは、図5に示す音素分割装置50と同様に、第1分岐部13と絶対値回路62の間にバンドパスフィルタが設けられてもよい。また、第1分岐部13と第2分岐部17との間には絶対値回路62が設けられている。
絶対値回路62は、第1分岐部13で分岐された一方の音信号X(t)の絶対値|X(t)|を出力する。自乗回路を用いた実施形態と同様に、絶対値回路62で音信号X(t)の絶対値をとることで、正の値のみを処理すればよいため、信号処理を容易にすることができる。絶対値回路62から出力された絶対値信号|X(t)|は、第2分岐部17で2つに分岐される。第2分岐部17で分岐された一方の絶対値信号|X(t)|は音声用時定数回路18に入力され、他方の絶対値信号|X(t)|は暗騒音用時定数回路20に入力される。
音声用時定数回路18は、抵抗値Rの第1抵抗器34と、容量値Cの第2コンデンサ36とから構成される一次のローパスフィルタである。音声用時定数回路18は、絶対値信号|X(t)|を数10〜数100msの音声用時定数τで平滑化(平均化)する。音声用時定数回路18から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrmsと見なすことができる。以下、A(t)を「音声包絡線信号」と呼ぶ。
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τ=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τ=RCのローパスフィルタで平滑化が行われる。
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τは、立ち下がり用時定数τよりも非常に大きな値に設定される。具体的には、立ち上がり用時定数τは、立ち下がり用時定数τより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τ=R’C≧300τ〜3000τのように設定されてよい。一方、立ち下がり用時定数τは、音声用時定数回路18の音声用時定数τと略同じ値に設定される。本実施形態では、立ち下がり用時定数τは音声用時定数に等しい(すなわち、τ=τ=RC)。
暗騒音用時定数回路20で平滑化された信号B(t)は、音声信号x(t)のレベル変化にはほとんど不感で、暗騒音レベル付近に維持される。信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrmsと見なすことができる。以下、B(t)を「暗騒音包絡線信号」と呼ぶ。
比較器30は、音声用時定数回路18から出力された音声包絡線信号A(t)と暗騒音用時定数回路20から出力された暗騒音包絡線信号B(t)とを比較する。ここで、本実施形態では、比較器30に入力する前に、暗騒音包絡線信号B(t)をバッファアンプ26を用いて所定の増幅率mで増幅し、さらに加算器28を用いて所定のオフセット値hを加算している。すなわち、本実施形態では、音声包絡線信号A(t)とB’(t)=mB(t)+hとが比較器30で比較される。以下、B’(t)=mB(t)+hを「閾値信号」と呼ぶ。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。変形例では、音声包絡線信号A(t)と暗騒音包絡線信号B(t)とが直接比較されてもよい。
比較器30は、音声包絡線信号A(t)が閾値信号B’(t)以上(すなわち、A(t)≧B’(t))となる区間でゲート回路32にハイレベルを出力し、音声包絡線信号A(t)が閾値信号B’(t)未満(すなわち、A(t)<B’(t))となる区間でゲート回路32にローレベルを出力する。
ゲート回路32は、比較器30の比較結果に応じて、第1分岐部13で分岐された他方の音信号X(t)の通過/非通過を制御する。すなわち、ゲート回路32は、比較器30からハイレベルを受けたときは開状態となって音号X(t)を通過させ、比較器30からローレベルを受けたときには閉状態となって音号X(t)を非通過とする。このような動作により、ゲート回路32から音素信号が出力される。
以上、本実施形態に係る音素分割装置60について説明した。この音素分割装置60においても、暗騒音のレベルが自動で検知されるので、時間帯によって暗騒音が変化しても音素を分割・抽出するための閾値は常に最適な値に維持される。その結果、従来よりも高い精度で音素分割を行うことができる。
また、本実施形態の音素分割装置60においても、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。
図7は、本発明のさらに別の実施形態に係る音素分割装置70を説明するための図である。図3,5,6に示す実施形態では、音素分割処理をアナログ回路で実現したが、図7に示す本実施形態では、音素分割処理をソフトウェアによって実現している。
音素分割装置70は、マイクアンプ14と、DSP(Digital Signal Processor)ボード71とを備える。DSPボード71には、入力アンプ72と、A/D変換器73と、DSP74と、D/A変換器75と、出力アンプ76と、ROM77と、SD−RAM78と、入力ポート79と、出力ポート80とが実装されている。
マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。マイクロホン12で増幅された音信号X(t)は、DSPボード71の入力ポート79に入力される。音信号X(t)は、アナログ信号であり、音声信号に暗騒音信号が重畳されたものである。入力ポート79から入力された音信号X(t)は、入力アンプ72で増幅された後、A/D変換器73でデジタル信号に変換される。A/D変換器73から出力された音信号X(t)のデジタル信号は、DSP74に入力される。
DSP74は、音素分割処理を行うためのプログラムを格納するROM77と、DSP74で処理中のデータを格納するSD−RAM78と接続されている。DSP74は、ROM77から音素分割プログラムを読み込み、音素分割処理を行う。
ROM77に格納された音素分割プログラムは、DSP74に、音信号X(t)を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号X(t)を自乗する自乗ステップと、自乗信号X(t)を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の自乗信号X(t)を数10〜数100msの音声用時定数τで平滑化する第1平滑化ステップと、第1平滑化ステップで平滑化された信号の平方根を演算する第1平方根演算ステップと、第2分岐ステップで分岐された他方の自乗信号X(t)の立ち上がりに対しては音声用時定数τより少なくとも10倍以上、より好適には100〜1000倍以上大きい立ち上がり用時定数τで平滑化するとともに、他方の自乗信号X(t)の立ち下がりに対しては音声用時定数τと略同じ立ち下がり用時定数τで平滑化する第2平滑化ステップと、第2平滑化ステップで平滑化された信号の平方根を演算する第2平方根演算ステップと、第1平方根演算ステップで演算された音声包絡線信号A(t)と、第2平方根演算ステップで演算された暗騒音包絡線信号B(t)とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップと、を実行させるためのプログラムであってよい。このプログラムの比較ステップでは、音声包絡線信号A(t)と、閾値信号B’(t)=mB(t)+hとが比較されてもよい。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。
あるいは、ROM77に格納された音素分割プログラムは、DSP74に、音信号X(t)を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号X(t)の絶対値|X(t)|を演算する絶対値演算ステップと、絶対値演算ステップからの絶対値信号|X(t)|を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の絶対値信号|X(t)|を数10〜数100msの音声用時定数τで平滑化する第1平滑化ステップと、第2分岐ステップで分岐された他方の絶対値信号|X(t)|の立ち上がりに対しては音声用時定数τより少なくとも10倍以上、より好適には100〜1000倍以上大きい立ち上がり用時定数τで平滑化するとともに、他方の絶対値信号|X(t)|の立ち下がりに対しては音声用時定数τと略同じ立ち下がり用時定数τで平滑化する第2平滑化ステップと、第1平滑化ステップで平滑化された音声包絡線信号A(t)と、第2平滑化ステップで平滑化された暗騒音包絡線信号B(t)とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号X(t)の通過/非通過を制御する通過制御ステップと、を実行させるためのプログラムであってもよい。このプログラムの比較ステップにおいても、音声包絡線信号A(t)と、閾値信号B’(t)=mB(t)+hとが比較されてもよい。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。
DSP74からの出力された音素のデジタル信号は、D/A変換器75でアナログ信号に変換された後、出力アンプ76で増幅され、出力ポート80から出力される。
図8(a)〜(c)は、図7に示す音素分割装置70による音素分割処理を説明するための図である。図8(a)〜(c)の縦軸は信号レベルを任意の単位で表し、横軸は時間を任意の単位で表す。
図8(a)は、音声包絡線信号A(t)の波形を示す。図8(b)は、暗騒音包絡線信号B(t)の波形を示す。図8(c)は、音声包絡線信号A(t)と閾値信号B’(t)=mB(t)+hを比較した波形(すなわち、A(t)−B’(t))を示す。ここでは、増幅率m=1、オフセット値h=200に設定されている。図8(a)および(b)に示すように、音素分割処理をソフトウェアで行った場合も、音信号から適切に音声包絡線信号A(t)と暗騒音包絡線信号B(t)とを分離することができる。暗騒音のレベルが自動で検知されるため、図8(c)に示すように音声包絡線信号A(t)と閾値信号B’(t)との比較により高い精度で音素の分割・抽出を行うことができる。また、本実施形態の音素分割装置70によれば、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。
図9は、本発明のさらに別の実施形態に係る音声処理システム90を説明するための図である。この音声処理システム90は、上述の音素分割装置を利用して入力された音声に所定の処理を施し、空間に出力するものである。
図9に示すように、音声処理システム90は、集音装置としてのマイクロホン12と、マイクアンプ14と、音素分割装置92と、音素処理装置94と、アンプ95と、出力装置としてのスピーカ96とを備える。マイクロホン12は、原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。音素分割装置92は、マイクアンプ14からの増幅音信号を受信して、音声信号を音素に分割する。音素分割装置92としては、上述の音素分割装置10,50,60,70を好適に利用することができる。音素処理装置94は、音素処理装置94から得られる音素信号に所定の処理を施す。この所定の処理の例については後述する。アンプ95は、音素処理装置94によって処理された音素信号を増幅する。スピーカ96は、増幅された音素信号を音として空間に出力する。
音声処理システム90は、例えばスピーチプライバシーシステム(音声情報秘話装置)であってよい。スピーチプライバシーシステムは、信号処理により音声信号の構造自体を略実時間で変更・処理することにより、音声信号のスペクトラムやエネルギー包絡線など統計的な性質を大きく変更することなく、その音声の内容のみを隠蔽/遮断し、受聴者に会話の中身を理解不能とするものである.このスピーチプライバシーシステムは、従来の音声マスキングシステムと異なり、原音声の発生時(発声時)以外には音が出ないので、室内の騒音レベルや受聴者の不快感を増長させることなく、音声の内容のみを有効に隠蔽することができる。スピーチプライバシーシステムの詳細については、例えば上記の特許文献1を参照されたい。
スピーチプライバシーシステムにおいては、音素処理装置94は、音素分割装置92で分割・抽出された音素(mora)を再配置、例えば音素の順番を入れ替えたりする。そしてこの再配置された音素信号がスピーカ96から音として空間に出力される。このスピーカ96からの音により原音声がマスキングされるため、原音声の内容を受聴者に理解不能とすることができる。
あるいは、音声処理システム90は、携帯電話、無線機、トランシーバなどの通信システムであってもよい。例えば工事現場やガード下、或いは鉄道のホームなどで携帯電話を使う場合、受信側では暗騒音が受信音声に重畳し、会話内容の理解を妨げる。すなわち、聞き取りや文章了解度が低下する。そこで、音素処理装置94は、音素分割装置92で分割・抽出された音素間(すなわち、会話の途切れ部分)の出力をゼロ(無音)にする。このように処理された音素信号をスピーカ96から出力することで騒音低減・通話品質の向上を図ることができる。このような通信システムにおいて、音素分割装置92の暗騒音用時定数回路における立ち上がり用時定数τ=R’Cは、スピーチプライバシーシステムに用いる場合より小さく設定されることが好ましい。なお、音声部分には暗騒音が依然として重畳しているが、聴覚の補完作用により音声のあるこの部分の暗騒音はほとんど認識されず、聴感的には騒音がほとんど除去されたように認識されるため、聞き取りは大きく改善される。
あるいは、上述の実施形態に係る音素分割装置は、音声認識機能を内包した車載ナビゲーションシステムに用いられてもよい。上述の音素分割装置から出力される音素信号を音声認識に利用することで、刻々変化する走行騒音の影響を受けることなく音声の認識率を向上させることができる。この場合、音素分割装置の暗騒音用時定数回路における立ち上がり用時定数τ=R’Cは、スピーチプライバシーシステムに用いる場合より小さく設定されることが好ましい。
あるいは、上述の実施形態に係る音素分割装置は、半二重通信のVOX(Voice Operating tX; tx=Transmitter)機能に利用されてもよい。音素分割装置から出力される音素信号に基づいて発話の発生を的確に把握することで、確実に送信・受信を切り替えることが可能となる。
図10は、本発明のさらに別の実施形態に係る騒音測定装置120を説明するための図である。図10に示す騒音測定装置120は、周囲音に含まれる暗騒音のレベルを測定することができる。騒音測定装置120は、マイクロホン12と、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、暗騒音用時定数回路20と、暗騒音用平方根回路24とを備える。
マイクロホン12は、周囲音を集音して音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。
自乗回路16は、音信号X(t)の自乗信号X(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16は、絶対値回路に置き換えられてもよい。この場合、暗騒音用平方根回路24は不要となる。
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τ=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τ=RCのローパスフィルタで平滑化が行われる。
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τは、立ち下がり用時定数τよりも非常に大きな値に設定される。具体的には、立ち下がり用時定数τは、数10ms〜数100ms(例えば125ms)の比較的小さい値に設定される。一方、立ち上がり用時定数τは、立ち下がり用時定数τより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τ=R’C≧300τ〜3000τのように設定されてよい。
暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。上述したように、この信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrms(すなわち暗騒音のレベル)と見なすことができる。
このように、本実施形態に係る騒音測定装置120によれば、周囲音に含まれる暗騒音のレベルを測定することができる。本実施形態に係る騒音測定装置120は、会話や特定の変動騒音(有意味騒音)がある空間での暗騒音測定に特に有効である。騒音測定装置120は、暗騒音用平方根回路24から出力される信号を表示する表示部を備えてもよい。この場合、暗騒音を視覚的に認識することができる。
騒音測定装置120は、例えばテレビジョンシステム、車載テレビジョンシステム、カーステレオシステム等の音響システムに用いることができる。騒音測定装置120で測定される暗騒音のレベルは、在室者間の会話音声や短時間の間歇的騒音の影響を受けない。従って、この暗騒音のレベルを参照することで、例えば、暗騒音レベルが高い場合にはスピーカーの音量を上げ、暗騒音レベルが低い場合にはスピーカーの音量を下げるといったように、スピーカーの音量を最適に制御することができる。
図11は、本発明のさらに別の実施形態に係る騒音測定装置130を説明するための図である。図11に示す騒音測定装置130は、周囲音に含まれる騒音のレベルを測定することができる。騒音測定装置130は、マイクロホン12と、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、音声用時定数回路18と、暗騒音用時定数回路20と、音声用平方根回路22と、暗騒音用平方根回路24と、表示部134とを備える。
マイクロホン12は、周囲音を集音して音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。
自乗回路16は、音信号X(t)の自乗信号X(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16は、絶対値回路に置き換えられてもよい。この場合、音声用平方根回路22および暗騒音用平方根回路24は不要となる。
自乗回路16から出力された自乗信号X(t)は、分岐部132で2つの分岐される。分岐部132で分岐された一方の自乗信号X(t)は音声用時定数回路18に入力され、他方の自乗信号X(t)は暗騒音用時定数回路20に入力される。
音声用時定数回路18は、数10〜数100msの音声用時定数τを有する一次のローパスフィルタである。音声用時定数回路18は、入力信号を音声用時定数τで平滑化(平均化)する。音声用時定数回路18から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrms(すなわち音声信号のレベル)と見なすことができる。
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τ=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τ=RCのローパスフィルタで平滑化が行われる。音声用時定数回路18による平滑化処理(平均化処理)により、自乗信号X(t)から音声用時定数τよりも速い成分が取り除かれ、自乗信号X(t)の包絡線信号が得られる。
音声用時定数回路18の後段に設けられた音声用平方根回路22は、音声用時定数回路18から入力された信号の平方根を演算する。この音声用平方根回路22から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrms(すなわち音声信号のレベル)と見なすことができる。
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τは、立ち下がり用時定数τよりも非常に大きな値に設定される。具体的には、立ち上がり用時定数τは、立ち下がり用時定数τより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τ=R’C≧300τ〜3000τのように設定されてよい。一方、立ち下がり用時定数τは、音声用時定数回路18の音声用時定数τと略同じ値に設定される。本実施形態では、立ち下がり用時定数τは音声用時定数に等しい(すなわち、τ=τ=RC)。
暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。上述したように、この信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrms(すなわち暗騒音のレベル)と見なすことができる。
表示部134は、音声用平方根回路22からの信号A(t)と、暗騒音用平方根回路24からの信号B(t)とを表示する。例えば、表示部134は、信号A(t)と、信号B(t)の両者を区別して二元表示してもよい。信号A(t)は、短時間に変化する会話音声や建設現場の間歇騒音のレベルを表し、信号B(t)は、暗騒音のレベルを表す。信号A(t)については、A(t)が暗騒音が含まれる。そこで、表示部134は、信号A(t)に代えてまたは加えて、以下の数式に従って得られる「暗騒音補正された信号A’(t)」を「正味騒音レベル」として表示させることもできる。
Figure 2016038552
図12は、表示部134による騒音レベル表示の一例を示す。図12に示す騒音レベル表示例では、音声用平方根回路22からの信号A(t)が「全騒音」として表示され、暗騒音用平方根回路24からの信号B(t)が「暗騒音」として表示され、暗騒音補正された信号A’(t)が「正味騒音」として表示されている。図12に示すように全騒音、暗騒音、正味騒音のレベルを可視化することで、ユーザは瞬時に各騒音レベルを把握することができる。
以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。
入力信号に対する包絡線取得、すなわち包絡線検波は、上述の実施形態で説明した自乗平均値の平方根を取る方法や絶対値を平滑化する方法のみならず、ウェーブレット変換やヒルベルト変換、あるいは簡略的にはダイオードなどにより半波整流した結果を平滑化する方法などその他の類似の方法によってなされてもよい。
10,50,60,70,92 音素分割装置、 12 マイクロホン、 13 第1分岐部、 14 マイクアンプ、 15 バンドパスフィルタ、 16 自乗回路、 17 第2分岐部、 18 音声用時定数回路、 20 暗騒音用時定数回路、 22 音声用平方根回路、 24 暗騒音用平方根回路、 26 バッファアンプ、 28 加算器、 30 比較器、 32 ゲート回路、 62 絶対値回路、 71 DSPボード、 74 DSP、 76 出力アンプ、 77 ROM、 90 音声処理システム、 94 音素処理装置、 96 スピーカ、 120,130 騒音測定装置、 134 表示部。

Claims (13)

  1. 音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐部と、
    前記第1分岐部で分岐された一方の音信号をさらに2つに分岐する第2分岐部と、
    前記第2分岐部で分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する音声用時定数部と、
    前記第2分岐部で分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、
    前記音声用時定数部からの信号と、前記暗騒音用時定数部からの信号とを比較する比較部と、
    前記比較部の比較結果に応じて、前記第1分岐部で分岐された他方の音信号の通過/非通過を制御するゲート部と、
    を備えることを特徴とする音素分割装置。
  2. 前記立ち上がり用時定数は、前記音声用時定数よりも100〜1000倍以上大きいことを特徴とする請求項1に記載の音素分割装置。
  3. 前記暗騒音用時定数部からの信号を所定の増幅率で増幅するアンプと、
    前記アンプからの出力に所定のオフセット値を加える加算器と、をさらに備え、
    前記比較部は、前記音声用時定数部からの信号と、前記加算器からの信号とを比較することを特徴とする請求項1または2に記載の音素分割装置。
  4. 前記第1分岐部の前段に設けられた、音声の平均スペクトルに対応する通過帯域を有するバンドバスフィルタをさらに備えることを特徴とする請求項1から3のいずれかに記載の音素分割装置。
  5. 前記第1分岐部と前記第2分岐部との間に設けられた、音声の平均スペクトルに対応する通過帯域を有するバンドバスフィルタをさらに備えることを特徴とする請求項1から3のいずれかに記載の音素分割装置。
  6. 前記第1分岐部の後段に前記第2分岐部との間に設けられた、前記第1分岐部で分岐された一方の音信号を自乗する自乗部と、
    前記音声用時定数部の後段に設けられた、前記音声用時定数部からの信号の平方根を演算する音声用平方根演算部と、
    前記暗騒音用時定数部の後段に設けられた、前記暗騒音用時定数部からの信号の平方根を演算する暗騒音用平方根演算部と、
    をさらに備えることを特徴とする請求項1から5のいずれかに記載の音素分割装置。
  7. 前記第1分岐部と前記第2分岐部との間に設けられた、前記第1分岐部で分岐された一方の音信号の絶対値を出力する絶対値演算部をさらに備えることを特徴とする請求項1から5のいずれかに記載の音素分割装置。
  8. 原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する集音装置と、
    前記集音装置からの前記音信号を受信して、前記音声信号を音素に分割する請求項1から7のいずれかに記載の音素分割装置と、
    前記音素分割装置から得られる音素信号に所定の処理を施す音素処理装置と、
    前記音素処理装置によって処理された音素信号を音として空間に出力する出力装置と、
    を備えることを特徴とする音声処理システム。
  9. 音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐ステップと、
    前記第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、
    前記第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、
    前記第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、
    前記第1平滑化ステップで演算された信号と、前記第2平滑化ステップで演算された信号とを比較する比較ステップと、
    前記比較ステップの比較結果に応じて、前記第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップと、
    を備えることを特徴とする音素分割方法。
  10. コンピュータに、
    音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐ステップと、
    前記第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、
    前記第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、
    前記第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、
    前記第1平滑化ステップで演算された信号と、前記第2平滑化ステップで演算された信号とを比較する比較ステップと、
    前記比較ステップの比較結果に応じて、前記第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップと、
    を実行させるための音素分割プログラム。
  11. 周囲音に含まれる暗騒音のレベルを測定する騒音測定装置であって、
    周囲音を集音する集音部と、
    前記集音部からの音信号の立ち下がりに対しては数10〜数100msの立ち下がり用時定数で平滑化するとともに、前記集音部からの音信号の立ち上がりに対しては前記立ち下がり用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化する暗騒音用時定数部と、
    を備えることを特徴とする騒音測定装置。
  12. 周囲音に含まれる騒音のレベルを測定する騒音測定装置であって、
    周囲音を2つに分岐する分岐部と、
    前記分岐部で分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する音声用時定数部と、
    前記分岐部で分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、
    前記音声用時定数部からの信号と、前記暗騒音用時定数部からの信号とを表示する表示部と、
    を備えることを特徴とする騒音測定装置。
  13. 前記音声用時定数部からの信号をA(t)と、前記暗騒音用時定数部からの信号をB(t)としたときに、前記表示部は、以下の数式
    Figure 2016038552
    から得られる暗騒音補正された信号A’(t)を、前記暗騒音用時定数部からの信号A(t)に代えてまたは加えて表示することを特徴とする請求項12に記載の騒音測定装置。
JP2014163880A 2014-08-11 2014-08-11 音素分割装置、音声処理システム、音素分割方法、および音素分割プログラム Active JP6435133B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014163880A JP6435133B2 (ja) 2014-08-11 2014-08-11 音素分割装置、音声処理システム、音素分割方法、および音素分割プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014163880A JP6435133B2 (ja) 2014-08-11 2014-08-11 音素分割装置、音声処理システム、音素分割方法、および音素分割プログラム

Publications (2)

Publication Number Publication Date
JP2016038552A true JP2016038552A (ja) 2016-03-22
JP6435133B2 JP6435133B2 (ja) 2018-12-05

Family

ID=55529642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014163880A Active JP6435133B2 (ja) 2014-08-11 2014-08-11 音素分割装置、音声処理システム、音素分割方法、および音素分割プログラム

Country Status (1)

Country Link
JP (1) JP6435133B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0315897A (ja) * 1989-06-14 1991-01-24 Fujitsu Ltd 判別閾値設定制御方式
JPH06332491A (ja) * 1993-05-21 1994-12-02 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 音声区間検出装置と雑音抑圧装置
JPH1054754A (ja) * 1996-08-12 1998-02-24 Nishimatsu Constr Co Ltd 騒音・振動測定方法
JP2002264052A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2006209069A (ja) * 2004-12-28 2006-08-10 Advanced Telecommunication Research Institute International 音声区間検出装置および音声区間検出プログラム
JP2008015481A (ja) * 2006-06-08 2008-01-24 Audio Technica Corp 音声会議装置
JP2012008393A (ja) * 2010-06-25 2012-01-12 Nippon Sheet Glass Environment Amenity Co Ltd 音声変更装置、音声変更方法および音声情報秘話システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0315897A (ja) * 1989-06-14 1991-01-24 Fujitsu Ltd 判別閾値設定制御方式
JPH06332491A (ja) * 1993-05-21 1994-12-02 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 音声区間検出装置と雑音抑圧装置
JPH1054754A (ja) * 1996-08-12 1998-02-24 Nishimatsu Constr Co Ltd 騒音・振動測定方法
JP2002264052A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2006209069A (ja) * 2004-12-28 2006-08-10 Advanced Telecommunication Research Institute International 音声区間検出装置および音声区間検出プログラム
JP2008015481A (ja) * 2006-06-08 2008-01-24 Audio Technica Corp 音声会議装置
JP2012008393A (ja) * 2010-06-25 2012-01-12 Nippon Sheet Glass Environment Amenity Co Ltd 音声変更装置、音声変更方法および音声情報秘話システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
川上福司,外3名: "包絡線追従法を用いた実時間音声情報撹乱", 日本音響学会2011年春季研究発表会講演論文集CD−ROM, JPN6018018467, 11 March 2011 (2011-03-11), JP, pages 1209 - 1210, ISSN: 0003800485 *

Also Published As

Publication number Publication date
JP6435133B2 (ja) 2018-12-05

Similar Documents

Publication Publication Date Title
CN102388416B (zh) 信号处理装置及信号处理方法
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
CN111149370B (zh) 会议系统中的啸叫检测
EP2808868B1 (en) Method of processing a voice segment and hearing aid
EP2083417B1 (en) Sound processing device and program
Koning et al. The potential of onset enhancement for increased speech intelligibility in auditory prostheses
KR101961998B1 (ko) 즉각적인 바람 잡음을 감소시키는 것
US9119007B2 (en) Method of and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener
KR102591447B1 (ko) 음성 신호 레벨링
US10176824B2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
WO2010092914A1 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
US20240127843A1 (en) Processing and utilizing audio signals according to activation selections
JP2010091897A (ja) 音声信号強調装置
CN111477246B (zh) 语音处理方法、装置及智能终端
JP6435133B2 (ja) 音素分割装置、音声処理システム、音素分割方法、および音素分割プログラム
JP6296219B2 (ja) 補聴装置
VH et al. A study on speech recognition technology
CN102222507B (zh) 一种适用于汉语语言的听力损失补偿方法及设备
KR20160000680A (ko) 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
JP2011170113A (ja) 会話保護度合評価システムおよび会話保護度合評価方法
Kupryjanow et al. Improved method for real-time speech stretching
CN114390390A (zh) 耳机的降噪方法、装置、电子设备及存储介质
Paul et al. A dynamic automatic noisy speech recognition (DANSR) system for a single-channel hybrid noisy industrial environment
CN103811012A (zh) 一种语音处理方法以及一种电子设备
Bykov et al. RELIABLE METHOD OF SYLLABLE SEGMENTS ALLOCATION IN SPEECH SIGNAL

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181112

R150 Certificate of patent or registration of utility model

Ref document number: 6435133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250