JP2013160938A - 音声区間検出装置 - Google Patents

音声区間検出装置 Download PDF

Info

Publication number
JP2013160938A
JP2013160938A JP2012023136A JP2012023136A JP2013160938A JP 2013160938 A JP2013160938 A JP 2013160938A JP 2012023136 A JP2012023136 A JP 2012023136A JP 2012023136 A JP2012023136 A JP 2012023136A JP 2013160938 A JP2013160938 A JP 2013160938A
Authority
JP
Japan
Prior art keywords
threshold
voice
speech
noise
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012023136A
Other languages
English (en)
Other versions
JP5936378B2 (ja
Inventor
Yuki Tachioka
勇気 太刀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2012023136A priority Critical patent/JP5936378B2/ja
Publication of JP2013160938A publication Critical patent/JP2013160938A/ja
Application granted granted Critical
Publication of JP5936378B2 publication Critical patent/JP5936378B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】環境が変化した場合でも音声の検出を正しく行うことのできる音声区間検出装置を得る。
【解決手段】音声・非音声判別値算出手段11は、音声と騒音の混在した信号から音声区間と非音声区間に対応した判別値21を算出する。音声・非音声識別手段12は、判別値21と閾値22とを比較することで音声・非音声を識別する。閾値更新手段13は、判別値21に基づいて閾値22を動的に決定する。
【選択図】図1

Description

本発明は、音声と騒音とが混在した信号から音声区間を検出する音声区間検出装置に関する。
音声区間検出法としては音声のパワーがノイズのそれよりも大きなことを利用するパワーによるものがよく用いられている(例えば、非特許文献1参照)。また、音声区間、非音声区間の尤度比により音声区間検出を行う手法が提案されている(例えば、非特許文献2参照)。さらに、複数特徴量を並列に利用したもの(例えば、特許文献1参照)や、別途学習した音声モデルを用いたもの(例えば、特許文献2参照)が提案されている。いずれにおいても閾値との比較によって音声・非音声の識別を行う。
特開2009−63700号公報 特開2009−210647号公報
L.R. Rabiner and M.R. Sambur, "An algorithm for determining the endpoints of isolated utterances," Bell Syst. Tech., vol.54(2), pp. 297-315, 1975. J. Sohn, N.S. Kim, and W. Sung, "Statistical Model-Based Voice Activity Detection," IEEE Signal Processing Letters, vol.6(1), pp. 1-3, 1999.
上記各文献に示されている手法の閾値は予め決めたものを用いるか、ノイズ区間における判別値を平均して安全率を掛けたものを用いるかといったものであった。この方法では音声の情報を用いていないため、例えば、騒音に対して音声のレベルが大きい場合(閾値を高めに設定できる)と、小さい場合(閾値を低く設定する)において、最適な閾値とすることができず、音声区間の検出性能が低下するといった問題があった。
この発明は上記のような課題を解決するためになされたもので、環境が変化しても音声区間の検出を正しく行うことのできる音声区間検出装置を得ることを目的とする。
この発明に係る音声区間検出装置は、音声と騒音の混在した信号から音声区間と非音声区間に対応した判別値を算出する音声・非音声判別値算出手段と、判別値と閾値とを比較することで音声・非音声を識別する音声・非音声識別手段と、閾値を判別値に基づいて動的に決定する閾値更新手段とを備えたものである。
この発明の音声区間検出装置は、閾値を判別値に基づいて動的に決定する閾値更新手段を備えたので、環境が変化した場合でも音声の検出を正しく行うことができる。
この発明の実施の形態1による音声区間検出装置を示す構成図である。 音声区間検出装置において、判別分析で閾値を決定する方法を示す説明図である。 この発明の実施の形態1による音声区間検出装置の閾値を決定する方法を示す説明図である。 この発明の実施の形態2による音声区間検出装置の構成図である。 この発明の実施の形態3による音声区間検出装置の構成図である。 この発明の実施の形態4による音声区間検出装置の構成図である。
実施の形態1.
図1は、この発明の実施の形態1による音声区間検出装置の構成図である。
図1に示す音声区間検出装置は、音声スペクトル1を入力し、音声区間情報2を出力するもので、音声・非音声判別値算出手段11、音声・非音声識別手段12、閾値更新手段13を備えている。音声・非音声判別値算出手段11は、音声と騒音とが混在した音声スペクトル1を入力し、音声区間と騒音区間とに対応した判別値21を出力する手段である。音声・非音声識別手段12は、音声・非音声判別値算出手段11から送出された判別値21と、予め求められた閾値22とを比較し、音声と非音声とを識別し、音声区間情報2を出力する手段である。閾値更新手段13は、判別値21に基づいて、閾値22を動的に更新する手段である。
音声・非音声判別値算出手段11では、入力される音声スペクトル1の特徴量から何らかの判別値21(以下、Rと表記する)を算出する。例えば非特許文献2に示されているように、複素スペクトルを特徴量として入力し、判別値21として尤度比を出力する。それを音声・非音声識別手段12で閾値22と比較して音声区間を識別する。音声区間検出には閾値22の設定が不可欠であり、環境によって最適な閾値22が異なるため設定が難しい。そこで閾値22を学習して適応する手段として閾値更新手段13を設けている。
一般的にはノイズ区間の情報から閾値22を推定するが、上記課題にて述べたとおり、ノイズだけの情報から閾値を求めると精度が低下するため、音声と騒音両方の情報を用いて閾値22を決定する。音声の情報がないと閾値22を更新することはできないので、始めは何らかの初期値に従い音声区間検出を行う。音声が検出されたら、音声と騒音それぞれラベル付けされた閾値22を並べて、何らかの基準で新しい閾値22を決定する。
例えば、図2のように音声と騒音の別にそれぞれの平均μと標準偏差σを算出する。式(1)のように判別分析の結果によりθを求め、αθ以上であれば音声、αθ以下であれば騒音とする方法が考えられる。αは定数であり、音声の検出率を向上させるか(1以下)、誤検出率を低減させるか(1以上)によって値を変化させる。
Figure 2013160938
この方法は、音声とノイズのラベル付けが正しければ性能がよいが、ラベル付けが間違っていた場合には性能が低下する。次にラベル付け不要の方法に関して述べる。構成は図1と同じである。音声、騒音のラベリングをせずに過去のRを累積する。ここでは、このRは騒音の時に小さな値を取り、音声の時に大きな値をとることにする。例えば、パワーなどが考えられる。ここでは非特許文献2の尤度比を想定するが、これ以外を用いることもできる。この際に騒音のダイナミックレンジに比べて音声のダイナミックレンジは大きいため、式(2)のような非線形な変換を用いてレンジをある一定の範囲内に収める。
Figure 2013160938
ここでβ,γはある定数である。適当な初期値のもとで音声区間が検出されたら、過去のRをクラスタリングする。例えばK−meansアルゴリズムを用いて複数のクラスタに分ける。分けられたクラスタの平均値と分散を計算する。一般に騒音のダイナミックレンジは音声のそれよりも小さいことを考え合わせると、音声に割り当てられるクラスタ数が多くなるはずである。平均値の大きい上からn番目とn+1番目のクラスタで図3のように式(1)の内分点を閾値として用いることで閾値を決定できる。すなわち、過去の履歴の音声区間における判別値と騒音区間における判別値の分離性が最も高くなる閾値に決定する。この方法ではクラスタ数を増やすことによりクラスタ内の分散を小さくすることができ、音声と騒音の分離性が高くなるため、上記判別分析による方法よりも頑健に最適な閾値の推定が行える。このように閾値更新手段13においてクラスタリングにより適切な閾値を推定することで、頑健に最適な閾値の推定が行えるため、環境変化に対応できるという効果が得られる。
以上説明したように、実施の形態1の音声区間検出装置によれば、音声と騒音の混在した信号から音声区間と非音声区間に対応した判別値を算出する音声・非音声判別値算出手段と、判別値と閾値とを比較することで音声・非音声を識別する音声・非音声識別手段と、閾値を判別値に基づいて動的に決定する閾値更新手段とを備えたので、環境が変化しても音声区間の検出を正しく行うことができる。
また、実施の形態1の音声区間検出装置によれば、閾値更新手段は、過去の履歴の音声区間における判別値と騒音区間における判別値の分離性が最も高くなる値に閾値に更新するようにしたので、頑健に最適な閾値の推定を行うことができる。
また、実施の形態1の音声区間検出装置によれば、閾値更新手段は、音声区間と騒音区間のクラスタリング分析を行い、その結果から更新する閾値の値を決定するようにしたので、頑健に最適な閾値の推定を行うことができる。
実施の形態2.
実施の形態1の構成では、徐々に変化する騒音には対応できるものの、段階的に急激に変化する騒音には対応することが困難である。例えば、ホワイトノイズのような騒音が徐々にSN比を変えながら重畳している場合には実施の形態1の構成で対応可能であるが、バブルノイズのような騒音の場合には対応が困難である。そこで、実施の形態2では、いくつかの騒音を想定し、閾値を複数用意することでこのような騒音にも対応できるようにしたものである。
図4は、実施の形態2の音声区間検出装置の構成図であり、図1に示した実施の形態1の構成に加えて閾値選択手段14が追加されている。閾値選択手段14は、複数の閾値22−1〜22−nのうち、いずれかの閾値を選択する手段である。また、閾値更新手段13aは、閾値選択手段14が選択した閾値を更新するよう構成されている。その他の構成は実施の形態1と同様であるため、対応する部分に同一符号を付してその説明を省略する。
複数の閾値22−1〜22−nとして、最も単純にはSN比による方法が考えられる。例えばノイズのレベルを5dBずつ分割し、それぞれに対応する閾値を複数用意し、これを閾値22−1〜22−nとする。閾値更新手段13aでは、閾値選択手段14で選択された閾値を更新する。そして、音声・非音声識別手段12では、実際の環境に合わせた閾値22−1〜22−nを用い、音声・非音声の識別を行う。このように閾値選択手段14を備えたことにより、閾値22−1〜22−nを非連続的に環境にあったものを選ぶことができるため、急激に変化する環境にも対応できるという効果が得られる。
以上説明したように、実施の形態2の音声区間検出装置によれば、騒音のレベルに対応した複数の閾値を有すると共に、複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、閾値選択手段が選択した閾値の更新を行うようにしたので、急激に変化する環境にも対応することができる。
実施の形態3.
実施の形態2では騒音レベルに応じて閾値を選択したが、騒音の種類により選択するものも考えられる。単純には変動性の小さな騒音に関しては閾値を下げ、変動性の大きな騒音には閾値を引き上げることが考えられる。このような例を実施の形態3として図5に示す。
図5に示すように、実施の形態3の音声区間検出装置では、実施の形態2の構成に対して騒音モデル23−1〜23−nが追加されている。騒音モデル23−1〜23−nは、騒音の種類別のモデルであり、それぞれのモデルが閾値22−1〜22−nに紐付けられている。閾値選択手段14aは、騒音モデル23−1〜23−nのうちの選択された騒音モデルに紐付けられている閾値を選択するよう構成されている。その他の構成は図4に示した実施の形態2と同様である。
例えば、騒音モデル23−1〜23−nとしては、下式のGMM(Gaussian Mixture Model)が考えられる。
Figure 2013160938
ここで、Nは平均μk,共分散Σk,混合率πkの正規分布である。
このモデルを想定される複数の種類の騒音に対して事前にEMアルゴリズムなどで学習しておく。閾値選択手段14aは、音声スペクトル1から騒音GMMの尤度p(x)を計算し、最も尤度の高いものを選択し、閾値更新手段13aによって閾値の更新・参照を行う。このように、騒音の種類に応じた適切な閾値を選択することができるため、騒音の特性に応じて音声の検出力を変化させることができる。
以上説明したように、実施の形態3の音声区間検出装置によれば、騒音の種類に対応した複数の閾値を有すると共に、騒音の種類に応じて複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、閾値選択手段が選択した閾値の更新を行うようにしたので、騒音の特性に応じて音声区間の検出を正しく行うことができる。
実施の形態4.
実施の形態2では騒音レベルに応じて閾値を選択したが、音声の種類により選択するものも考えられる。例えばカーナビのように比較的使用者が固定的である装置において、使用者が女性であると見当がつけば、女性の閾値を下げ、男性の閾値を上げておくというようなものが考えられ、このような例を実施の形態4として図6に示す。
実施の形態4では、図示のように、図4に示した実施の形態2の構成に対して音声モデル24−1〜24−nが追加されている。音声モデル24−1〜24−nは、それぞれ音声の種類に対応したモデルであり、各モデルがそれぞれ閾値22−1〜22−nに紐付けられている。閾値選択手段14bは、音声モデル24−1〜24−nのうちの選択された音声モデルに紐付けられている閾値を選択するよう構成されている。その他の構成は図4に示した実施の形態2と同様である。
音声モデル24−1〜24−nについても、実施の形態3と同様GMMなどによってモデルを用意しておき、閾値選択手段14bによって最尤のものを選択し、閾値22−1〜22−nの更新および参照すればよい。
このように、複数の音声モデル24−1〜24−nと閾値選択手段14bとを備えたことにより、話者が変わらない場合には妨害音が人間の声であっても対象とする話者の音声だけを検出できるという効果が得られる。
以上説明したように、実施の形態4の音声区間検出装置によれば、音声の種類に対応した複数の閾値を有すると共に、音声の種類に応じて複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、閾値選択手段が選択した閾値の更新を行うようにしたので、音声の特性に応じて音声区間の検出を正しく行うことができる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
1 音声スペクトル、2 音声区間情報、11 音声・非音声判別値算出手段、12 音声・非音声識別手段、13,13a 閾値更新手段、14,14a,14b 閾値選択手段、21 判別値、22,22−1〜22−n 閾値、23−1〜23−n 騒音モデル、24−1〜24−n 音声モデル。

Claims (6)

  1. 音声と騒音の混在した信号から音声区間と非音声区間に対応した判別値を算出する音声・非音声判別値算出手段と、
    前記判別値と閾値とを比較することで音声・非音声を識別する音声・非音声識別手段と、
    前記閾値を前記判別値に基づいて動的に決定する閾値更新手段を備えたことを特徴とする音声区間検出装置。
  2. 閾値更新手段は、過去の履歴の音声区間における判別値と騒音区間における判別値の分離性が最も高くなる値に閾値に更新することを特徴とする請求項1記載の音声区間検出装置。
  3. 閾値更新手段は、音声区間と騒音区間のクラスタリング分析を行い、その結果から更新する閾値の値を決定することを特徴とする請求項2記載の音声区間検出装置。
  4. 騒音のレベルに対応した複数の閾値を有すると共に、当該複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、前記閾値選択手段が選択した閾値の更新を行うことを特徴とする請求項1から請求項3のうちのいずれか1項記載の音声区間検出装置。
  5. 騒音の種類に対応した複数の閾値を有すると共に、前記騒音の種類に応じて前記複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、前記閾値選択手段が選択した閾値の更新を行うことを特徴とする請求項1から請求項3のうちのいずれか1項記載の音声区間検出装置。
  6. 音声の種類に対応した複数の閾値を有すると共に、前記音声の種類に応じて前記複数の閾値を選択する閾値選択手段を備え、閾値更新手段は、前記閾値選択手段が選択した閾値の更新を行うことを特徴とする請求項1から請求項3のうちのいずれか1項記載の音声区間検出装置。
JP2012023136A 2012-02-06 2012-02-06 音声区間検出装置 Expired - Fee Related JP5936378B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012023136A JP5936378B2 (ja) 2012-02-06 2012-02-06 音声区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012023136A JP5936378B2 (ja) 2012-02-06 2012-02-06 音声区間検出装置

Publications (2)

Publication Number Publication Date
JP2013160938A true JP2013160938A (ja) 2013-08-19
JP5936378B2 JP5936378B2 (ja) 2016-06-22

Family

ID=49173218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012023136A Expired - Fee Related JP5936378B2 (ja) 2012-02-06 2012-02-06 音声区間検出装置

Country Status (1)

Country Link
JP (1) JP5936378B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161745A (ja) * 2014-02-26 2015-09-07 株式会社リコー パターン認識システムおよびプログラム
WO2020153158A1 (ja) * 2019-01-23 2020-07-30 日本電信電話株式会社 判定装置、その方法、およびプログラム
JP2021162685A (ja) * 2020-03-31 2021-10-11 グローリー株式会社 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02272837A (ja) * 1989-04-14 1990-11-07 Oki Electric Ind Co Ltd 音声区間検出方式
JPH10301593A (ja) * 1997-04-30 1998-11-13 Nippon Hoso Kyokai <Nhk> 音声区間検出方法およびその装置
JP2001175299A (ja) * 1999-12-16 2001-06-29 Matsushita Electric Ind Co Ltd 雑音除去装置
JP2010529494A (ja) * 2007-06-07 2010-08-26 華為技術有限公司 音声活動を検出するための装置および方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02272837A (ja) * 1989-04-14 1990-11-07 Oki Electric Ind Co Ltd 音声区間検出方式
JPH10301593A (ja) * 1997-04-30 1998-11-13 Nippon Hoso Kyokai <Nhk> 音声区間検出方法およびその装置
JP2001175299A (ja) * 1999-12-16 2001-06-29 Matsushita Electric Ind Co Ltd 雑音除去装置
JP2010529494A (ja) * 2007-06-07 2010-08-26 華為技術有限公司 音声活動を検出するための装置および方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161745A (ja) * 2014-02-26 2015-09-07 株式会社リコー パターン認識システムおよびプログラム
WO2020153158A1 (ja) * 2019-01-23 2020-07-30 日本電信電話株式会社 判定装置、その方法、およびプログラム
JP2021162685A (ja) * 2020-03-31 2021-10-11 グローリー株式会社 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP7511374B2 (ja) 2020-03-31 2024-07-05 グローリー株式会社 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム

Also Published As

Publication number Publication date
JP5936378B2 (ja) 2016-06-22

Similar Documents

Publication Publication Date Title
US9536547B2 (en) Speaker change detection device and speaker change detection method
CN109598112B (zh) 发言人验证系统、方法和计算机可读介质
US9286889B2 (en) Improving voice communication over a network
US9251789B2 (en) Speech-recognition system, storage medium, and method of speech recognition
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
EP4235647A3 (en) Determining dialog states for language models
US20140350923A1 (en) Method and device for detecting noise bursts in speech signals
JP5088050B2 (ja) 音声処理装置およびプログラム
CN105556592A (zh) 检测自我生成的唤醒声调
EP2881948A1 (en) Spectral comb voice activity detection
US20160365088A1 (en) Voice command response accuracy
US9460714B2 (en) Speech processing apparatus and method
KR20150087671A (ko) 음성 감정 인식 시스템 및 방법
KR20180025634A (ko) 음성 인식 장치 및 방법
JP2019144467A (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP5936378B2 (ja) 音声区間検出装置
May et al. Computational speech segregation based on an auditory-inspired modulation analysis
US20110246185A1 (en) Voice activity detector, voice activity detection program, and parameter adjusting method
JP2017161825A (ja) 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム
May et al. Environment-aware ideal binary mask estimation using monaural cues
JPWO2020013296A1 (ja) 精神・神経系疾患を推定する装置
JP5105097B2 (ja) 音声分類装置、音声分類方法及びプログラム
JP2018005122A (ja) 検出装置、検出方法及び検出プログラム
US11107476B2 (en) Speaker estimation method and speaker estimation device
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160510

R150 Certificate of patent or registration of utility model

Ref document number: 5936378

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees