JP2013160938A

JP2013160938A - 音声区間検出装置

Info

Publication number: JP2013160938A
Application number: JP2012023136A
Authority: JP
Inventors: Yuki Tachioka; 勇気太刀岡
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-02-06
Filing date: 2012-02-06
Publication date: 2013-08-19
Anticipated expiration: 2032-02-06
Also published as: JP5936378B2

Abstract

【課題】環境が変化した場合でも音声の検出を正しく行うことのできる音声区間検出装置を得る。
【解決手段】音声・非音声判別値算出手段１１は、音声と騒音の混在した信号から音声区間と非音声区間に対応した判別値２１を算出する。音声・非音声識別手段１２は、判別値２１と閾値２２とを比較することで音声・非音声を識別する。閾値更新手段１３は、判別値２１に基づいて閾値２２を動的に決定する。
【選択図】図１

Description

本発明は、音声と騒音とが混在した信号から音声区間を検出する音声区間検出装置に関する。

音声区間検出法としては音声のパワーがノイズのそれよりも大きなことを利用するパワーによるものがよく用いられている（例えば、非特許文献１参照）。また、音声区間、非音声区間の尤度比により音声区間検出を行う手法が提案されている（例えば、非特許文献２参照）。さらに、複数特徴量を並列に利用したもの（例えば、特許文献１参照）や、別途学習した音声モデルを用いたもの（例えば、特許文献２参照）が提案されている。いずれにおいても閾値との比較によって音声・非音声の識別を行う。

特開２００９−６３７００号公報特開２００９−２１０６４７号公報

L.R. Rabiner and M.R. Sambur, "An algorithm for determining the endpoints of isolated utterances," Bell Syst. Tech., vol.54(2), pp. 297-315, 1975. J. Sohn, N.S. Kim, and W. Sung, "Statistical Model-Based Voice Activity Detection," IEEE Signal Processing Letters, vol.6(1), pp. 1-3, 1999.

上記各文献に示されている手法の閾値は予め決めたものを用いるか、ノイズ区間における判別値を平均して安全率を掛けたものを用いるかといったものであった。この方法では音声の情報を用いていないため、例えば、騒音に対して音声のレベルが大きい場合（閾値を高めに設定できる）と、小さい場合（閾値を低く設定する）において、最適な閾値とすることができず、音声区間の検出性能が低下するといった問題があった。

この発明は上記のような課題を解決するためになされたもので、環境が変化しても音声区間の検出を正しく行うことのできる音声区間検出装置を得ることを目的とする。

この発明に係る音声区間検出装置は、音声と騒音の混在した信号から音声区間と非音声区間に対応した判別値を算出する音声・非音声判別値算出手段と、判別値と閾値とを比較することで音声・非音声を識別する音声・非音声識別手段と、閾値を判別値に基づいて動的に決定する閾値更新手段とを備えたものである。

この発明の音声区間検出装置は、閾値を判別値に基づいて動的に決定する閾値更新手段を備えたので、環境が変化した場合でも音声の検出を正しく行うことができる。

この発明の実施の形態１による音声区間検出装置を示す構成図である。音声区間検出装置において、判別分析で閾値を決定する方法を示す説明図である。この発明の実施の形態１による音声区間検出装置の閾値を決定する方法を示す説明図である。この発明の実施の形態２による音声区間検出装置の構成図である。この発明の実施の形態３による音声区間検出装置の構成図である。この発明の実施の形態４による音声区間検出装置の構成図である。

実施の形態１．
図１は、この発明の実施の形態１による音声区間検出装置の構成図である。
図１に示す音声区間検出装置は、音声スペクトル１を入力し、音声区間情報２を出力するもので、音声・非音声判別値算出手段１１、音声・非音声識別手段１２、閾値更新手段１３を備えている。音声・非音声判別値算出手段１１は、音声と騒音とが混在した音声スペクトル１を入力し、音声区間と騒音区間とに対応した判別値２１を出力する手段である。音声・非音声識別手段１２は、音声・非音声判別値算出手段１１から送出された判別値２１と、予め求められた閾値２２とを比較し、音声と非音声とを識別し、音声区間情報２を出力する手段である。閾値更新手段１３は、判別値２１に基づいて、閾値２２を動的に更新する手段である。

音声・非音声判別値算出手段１１では、入力される音声スペクトル１の特徴量から何らかの判別値２１（以下、Ｒと表記する）を算出する。例えば非特許文献２に示されているように、複素スペクトルを特徴量として入力し、判別値２１として尤度比を出力する。それを音声・非音声識別手段１２で閾値２２と比較して音声区間を識別する。音声区間検出には閾値２２の設定が不可欠であり、環境によって最適な閾値２２が異なるため設定が難しい。そこで閾値２２を学習して適応する手段として閾値更新手段１３を設けている。

一般的にはノイズ区間の情報から閾値２２を推定するが、上記課題にて述べたとおり、ノイズだけの情報から閾値を求めると精度が低下するため、音声と騒音両方の情報を用いて閾値２２を決定する。音声の情報がないと閾値２２を更新することはできないので、始めは何らかの初期値に従い音声区間検出を行う。音声が検出されたら、音声と騒音それぞれラベル付けされた閾値２２を並べて、何らかの基準で新しい閾値２２を決定する。

例えば、図２のように音声と騒音の別にそれぞれの平均μと標準偏差σを算出する。式（１）のように判別分析の結果によりθを求め、αθ以上であれば音声、αθ以下であれば騒音とする方法が考えられる。αは定数であり、音声の検出率を向上させるか（１以下）、誤検出率を低減させるか（１以上）によって値を変化させる。

この方法は、音声とノイズのラベル付けが正しければ性能がよいが、ラベル付けが間違っていた場合には性能が低下する。次にラベル付け不要の方法に関して述べる。構成は図１と同じである。音声、騒音のラベリングをせずに過去のＲを累積する。ここでは、このＲは騒音の時に小さな値を取り、音声の時に大きな値をとることにする。例えば、パワーなどが考えられる。ここでは非特許文献２の尤度比を想定するが、これ以外を用いることもできる。この際に騒音のダイナミックレンジに比べて音声のダイナミックレンジは大きいため、式（２）のような非線形な変換を用いてレンジをある一定の範囲内に収める。

ここでβ，γはある定数である。適当な初期値のもとで音声区間が検出されたら、過去のＲをクラスタリングする。例えばＫ−ｍｅａｎｓアルゴリズムを用いて複数のクラスタに分ける。分けられたクラスタの平均値と分散を計算する。一般に騒音のダイナミックレンジは音声のそれよりも小さいことを考え合わせると、音声に割り当てられるクラスタ数が多くなるはずである。平均値の大きい上からｎ番目とｎ＋１番目のクラスタで図３のように式（１）の内分点を閾値として用いることで閾値を決定できる。すなわち、過去の履歴の音声区間における判別値と騒音区間における判別値の分離性が最も高くなる閾値に決定する。この方法ではクラスタ数を増やすことによりクラスタ内の分散を小さくすることができ、音声と騒音の分離性が高くなるため、上記判別分析による方法よりも頑健に最適な閾値の推定が行える。このように閾値更新手段１３においてクラスタリングにより適切な閾値を推定することで、頑健に最適な閾値の推定が行えるため、環境変化に対応できるという効果が得られる。

以上説明したように、実施の形態１の音声区間検出装置によれば、音声と騒音の混在した信号から音声区間と非音声区間に対応した判別値を算出する音声・非音声判別値算出手段と、判別値と閾値とを比較することで音声・非音声を識別する音声・非音声識別手段と、閾値を判別値に基づいて動的に決定する閾値更新手段とを備えたので、環境が変化しても音声区間の検出を正しく行うことができる。

また、実施の形態１の音声区間検出装置によれば、閾値更新手段は、過去の履歴の音声区間における判別値と騒音区間における判別値の分離性が最も高くなる値に閾値に更新するようにしたので、頑健に最適な閾値の推定を行うことができる。

また、実施の形態１の音声区間検出装置によれば、閾値更新手段は、音声区間と騒音区間のクラスタリング分析を行い、その結果から更新する閾値の値を決定するようにしたので、頑健に最適な閾値の推定を行うことができる。

実施の形態２．
実施の形態１の構成では、徐々に変化する騒音には対応できるものの、段階的に急激に変化する騒音には対応することが困難である。例えば、ホワイトノイズのような騒音が徐々にＳＮ比を変えながら重畳している場合には実施の形態１の構成で対応可能であるが、バブルノイズのような騒音の場合には対応が困難である。そこで、実施の形態２では、いくつかの騒音を想定し、閾値を複数用意することでこのような騒音にも対応できるようにしたものである。

図４は、実施の形態２の音声区間検出装置の構成図であり、図１に示した実施の形態１の構成に加えて閾値選択手段１４が追加されている。閾値選択手段１４は、複数の閾値２２−１〜２２−ｎのうち、いずれかの閾値を選択する手段である。また、閾値更新手段１３ａは、閾値選択手段１４が選択した閾値を更新するよう構成されている。その他の構成は実施の形態１と同様であるため、対応する部分に同一符号を付してその説明を省略する。

複数の閾値２２−１〜２２−ｎとして、最も単純にはＳＮ比による方法が考えられる。例えばノイズのレベルを５ｄＢずつ分割し、それぞれに対応する閾値を複数用意し、これを閾値２２−１〜２２−ｎとする。閾値更新手段１３ａでは、閾値選択手段１４で選択された閾値を更新する。そして、音声・非音声識別手段１２では、実際の環境に合わせた閾値２２−１〜２２−ｎを用い、音声・非音声の識別を行う。このように閾値選択手段１４を備えたことにより、閾値２２−１〜２２−ｎを非連続的に環境にあったものを選ぶことができるため、急激に変化する環境にも対応できるという効果が得られる。

以上説明したように、実施の形態２の音声区間検出装置によれば、騒音のレベルに対応した複数の閾値を有すると共に、複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、閾値選択手段が選択した閾値の更新を行うようにしたので、急激に変化する環境にも対応することができる。

実施の形態３．
実施の形態２では騒音レベルに応じて閾値を選択したが、騒音の種類により選択するものも考えられる。単純には変動性の小さな騒音に関しては閾値を下げ、変動性の大きな騒音には閾値を引き上げることが考えられる。このような例を実施の形態３として図５に示す。

図５に示すように、実施の形態３の音声区間検出装置では、実施の形態２の構成に対して騒音モデル２３−１〜２３−ｎが追加されている。騒音モデル２３−１〜２３−ｎは、騒音の種類別のモデルであり、それぞれのモデルが閾値２２−１〜２２−ｎに紐付けられている。閾値選択手段１４ａは、騒音モデル２３−１〜２３−ｎのうちの選択された騒音モデルに紐付けられている閾値を選択するよう構成されている。その他の構成は図４に示した実施の形態２と同様である。

例えば、騒音モデル２３−１〜２３−ｎとしては、下式のＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）が考えられる。

ここで、Ｎは平均μ_k，共分散Σ_k，混合率π_kの正規分布である。

このモデルを想定される複数の種類の騒音に対して事前にＥＭアルゴリズムなどで学習しておく。閾値選択手段１４ａは、音声スペクトル１から騒音ＧＭＭの尤度ｐ（ｘ）を計算し、最も尤度の高いものを選択し、閾値更新手段１３ａによって閾値の更新・参照を行う。このように、騒音の種類に応じた適切な閾値を選択することができるため、騒音の特性に応じて音声の検出力を変化させることができる。

以上説明したように、実施の形態３の音声区間検出装置によれば、騒音の種類に対応した複数の閾値を有すると共に、騒音の種類に応じて複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、閾値選択手段が選択した閾値の更新を行うようにしたので、騒音の特性に応じて音声区間の検出を正しく行うことができる。

実施の形態４．
実施の形態２では騒音レベルに応じて閾値を選択したが、音声の種類により選択するものも考えられる。例えばカーナビのように比較的使用者が固定的である装置において、使用者が女性であると見当がつけば、女性の閾値を下げ、男性の閾値を上げておくというようなものが考えられ、このような例を実施の形態４として図６に示す。

実施の形態４では、図示のように、図４に示した実施の形態２の構成に対して音声モデル２４−１〜２４−ｎが追加されている。音声モデル２４−１〜２４−ｎは、それぞれ音声の種類に対応したモデルであり、各モデルがそれぞれ閾値２２−１〜２２−ｎに紐付けられている。閾値選択手段１４ｂは、音声モデル２４−１〜２４−ｎのうちの選択された音声モデルに紐付けられている閾値を選択するよう構成されている。その他の構成は図４に示した実施の形態２と同様である。

音声モデル２４−１〜２４−ｎについても、実施の形態３と同様ＧＭＭなどによってモデルを用意しておき、閾値選択手段１４ｂによって最尤のものを選択し、閾値２２−１〜２２−ｎの更新および参照すればよい。

このように、複数の音声モデル２４−１〜２４−ｎと閾値選択手段１４ｂとを備えたことにより、話者が変わらない場合には妨害音が人間の声であっても対象とする話者の音声だけを検出できるという効果が得られる。

以上説明したように、実施の形態４の音声区間検出装置によれば、音声の種類に対応した複数の閾値を有すると共に、音声の種類に応じて複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、閾値選択手段が選択した閾値の更新を行うようにしたので、音声の特性に応じて音声区間の検出を正しく行うことができる。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

１音声スペクトル、２音声区間情報、１１音声・非音声判別値算出手段、１２音声・非音声識別手段、１３，１３ａ閾値更新手段、１４，１４ａ，１４ｂ閾値選択手段、２１判別値、２２，２２−１〜２２−ｎ閾値、２３−１〜２３−ｎ騒音モデル、２４−１〜２４−ｎ音声モデル。

Claims

音声と騒音の混在した信号から音声区間と非音声区間に対応した判別値を算出する音声・非音声判別値算出手段と、
前記判別値と閾値とを比較することで音声・非音声を識別する音声・非音声識別手段と、
前記閾値を前記判別値に基づいて動的に決定する閾値更新手段を備えたことを特徴とする音声区間検出装置。
閾値更新手段は、過去の履歴の音声区間における判別値と騒音区間における判別値の分離性が最も高くなる値に閾値に更新することを特徴とする請求項１記載の音声区間検出装置。
閾値更新手段は、音声区間と騒音区間のクラスタリング分析を行い、その結果から更新する閾値の値を決定することを特徴とする請求項２記載の音声区間検出装置。
騒音のレベルに対応した複数の閾値を有すると共に、当該複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、前記閾値選択手段が選択した閾値の更新を行うことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声区間検出装置。
騒音の種類に対応した複数の閾値を有すると共に、前記騒音の種類に応じて前記複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、前記閾値選択手段が選択した閾値の更新を行うことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声区間検出装置。
音声の種類に対応した複数の閾値を有すると共に、前記音声の種類に応じて前記複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、前記閾値選択手段が選択した閾値の更新を行うことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声区間検出装置。