JP5047900B2 - 発話区間検出装置 - Google Patents

発話区間検出装置 Download PDF

Info

Publication number
JP5047900B2
JP5047900B2 JP2008199713A JP2008199713A JP5047900B2 JP 5047900 B2 JP5047900 B2 JP 5047900B2 JP 2008199713 A JP2008199713 A JP 2008199713A JP 2008199713 A JP2008199713 A JP 2008199713A JP 5047900 B2 JP5047900 B2 JP 5047900B2
Authority
JP
Japan
Prior art keywords
frame
calculated
variance
calculating
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008199713A
Other languages
English (en)
Other versions
JP2010039059A (ja
Inventor
貴志 赤坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Motor Co Ltd
Original Assignee
Yamaha Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Motor Co Ltd filed Critical Yamaha Motor Co Ltd
Priority to JP2008199713A priority Critical patent/JP5047900B2/ja
Publication of JP2010039059A publication Critical patent/JP2010039059A/ja
Application granted granted Critical
Publication of JP5047900B2 publication Critical patent/JP5047900B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、発話区間検出装置に関し、さらに詳しくは、音響データの中から音声を含む発話区間を検出する発話区間検出装置に関する。
自動二輪車、自動車、船舶、飛行機、ヘリコプタなどの輸送機器においては、ナビゲーションシステム、携帯電話機、オーディオ機器などの電子情報機器が搭載されており、最近では、この機器を音声で操作できるように音声認識装置も搭載されている。しかしながら、輸送機器では風切り音などの雑音が多いため、音声を含む発話区間を検出することが重要な課題である。
特許第3925734号公報(特許文献1)には、ユーザに装着された第1及び第2マイクからの音声信号を処理する音声信号処理装置が記載されている(段落0026〜0046参照)。この音声信号処理装置は、第1及び第2フレーム化部、第1及び第2周波数分析部、クロススペクトル計算部、位相抽出部、位相unwrap処理部、周波数帯域分割部、第1〜第N傾き計算部、ヒストグラム等計算部、及び音声/非音声判定部を備える。第1及び第2フレーム化部は、それぞれ、第1及び第2マイクからの音声信号をフレーム化する。第1及び第2周波数分析部は、それぞれ、フレーム化された音声信号をフーリエ変換して周波数関数を算出する。クロススペクトル計算部は、算出された周波数関数に基づいてクロススペクトルを算出する。位相抽出部は、算出されたクロススペクトルから位相を抽出する。位相unwrap処理部は、抽出された位相に基づいてクロススペクトルをunwrap処理する。周波数帯域分割部は、帯域分割(セグメント分割)した位相を第1〜第N傾き計算部にそれぞれ出力する。第1〜第N傾き計算部は、最小2乗法を適用することでセグメントごとに傾きを算出する。ヒストグラム等計算部は、算出された傾きのヒストグラムを作成し、各頻度を音声/非音声判定部に出力する。音声/非音声判定部は、頻度の平均値周辺の所定範囲内に含まれる傾きの頻度が所定のしきい値以上の場合、音声区間と判定し、頻度が所定のしきい値未満の場合、非音声区間と判定する。
しかしながら、この音声信号処理装置はマイクを複数用いるため、数周波数分析部等も複数必要で、処理負荷が大きいという問題がある。また、マイクの設置が煩わしいという問題もある。また、マイクではなく、既に録音されている音声を用いる場合、その音声は複数チャネルで録音されていなければならない。すなわち、音声が単チャネルで録音されている場合、この音声信号処理装置は使用できないという問題がある。
また、特開2000−194385号公報(特許文献2)には、音声区間検出部を備えた音声認識装置が記載されている。この音声区間検出部は、フレームごとの音響分析で求められた特徴パラメータに基づいて、話者が実際に音声を発している音声区間を検出する。しかしながら、この検出方法は本発明と原理的に全く異なる。
特許第3925734号公報 特開2000−194385号公報
本発明の目的は、複数のマイクが不要で、単チャネルの音声に対しても適用可能な発話区間検出装置を提供することである。
課題を解決するための手段及び発明の効果
本発明による発話区間検出装置は、時間領域の関数である音響データを所定時間ごとにフレームに分割するフレーム分割手段と、フレーム分割手段により分割された音響データをフレームごとに周波数領域の関数に変換する周波数変換手段と、周波数変換手段により変換された音響データをフレームごとに周波数で微分して複数の微分係数を算出する微分手段と、微分手段により算出された微分係数の度数分布に基づいて音声を含む音声フレームを判定する音声フレーム判定手段とを備える。ここでいう周波数変換は、時間領域の関数を周波数領域の関数に変換するもので、典型的にはフーリエ変換である。
本発明によれば、フレームごとに周波数変換された音響データを微分して微分係数を算出し、微分係数の度数分布に基づいて音声フレームを判定しているため、複数のマイクが不要で、単チャネルの音声に対しても適用可能である。
好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、絶対値算出手段により算出された絶対値の分散を算出する分散算出手段と、分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む。
好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、絶対値算出手段により算出された絶対値の平均を算出する平均算出手段と、平均算出手段により算出された平均を所定のしきい値と比較し、該平均が所定のしきい値よりも大きいフレームを音声フレームと判定する平均比較手段とを含む。
好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、絶対値算出手段により算出された絶対値のヒストグラムを作成するヒストグラム作成手段と、ヒストグラム作成手段により作成されたヒストグラムに基づいて所定の階級における度数を算出する度数算出手段と、度数算出手段により算出された度数を所定のしきい値と比較し、該度数が所定のしきい値よりも多いフレームを音声フレームと判定する度数比較手段とを含む。
好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数を微分して2階微分係数を算出する2階微分手段と、2階微分手段により算出された2階微分係数の分散を算出する分散算出手段と、分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む。
好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数を微分して2階微分係数を算出する2階微分手段と、2階微分手段により算出された2階微分係数のヒストグラムを作成するヒストグラム作成手段と、ヒストグラム作成手段により作成されたヒストグラムに基づいて所定の階級における度数を算出する度数算出手段と、度数算出手段により算出された度数を所定のしきい値と比較し、該度数が所定のしきい値よりも多いフレームを音声フレームと判定する度数比較手段とを含む。
好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数を2混合正規分布にフィッティングするフィッティング手段と、フィッティング手段により得られた2混合正規分布の分散を算出する分散算出手段と、分散算出手段により算出された2つの分散の各々を所定のしきい値と比較し、少なくとも1つの分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む。
好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数を2混合正規分布にフィッティングするフィッティング手段と、フィッティング手段により得られた2混合正規分布の平均を算出する平均算出手段と、平均算出手段により算出された2つの平均の各々を所定のしきい値と比較し、少なくとも1つの平均が所定のしきい値よりも大きいフレームを音声フレームと判定する分散比較手段とを含む。
好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数のうち正又は負の微分係数を抽出する微分係数抽出手段と、微分係数抽出手段により抽出された正又は負の微分係数の分散を算出する分散算出手段と、分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む。
好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数のうち正又は負の微分係数を抽出する微分係数抽出手段と、微分係数抽出手段により抽出された正又は負の微分係数の平均を算出する平均算出手段と、平均算出手段により算出された平均を所定のしきい値と比較し、該平均が所定のしきい値よりも大きいフレームを音声フレームと判定する分散比較手段とを含む。
好ましくは、発話区間検出装置はさらに、周波数変換手段により変換された音響データのうち微分手段による微分の対象となる周波数帯域を所定範囲に制限する帯域制限手段を備える。
この場合、音声を含まない周波数帯域は微分の対象外となるので、音声フレームの判定精度が高くなる。
以下、図面を参照し、本発明の実施の形態を詳しく説明する。図中同一又は相当部分には同一符号を付してその説明は繰り返さない。
図1は、自動二輪車の走行中に聞こえる風切り音(雑音)の周波数スペクトルである。一方、図2は、図1の風切り音に音声が含まれる場合の周波数スペクトルである。図1と図2を比較すると明らかなように、図2に示した周波数スペクトルには、0〜2KHzの範囲に荒い波形が現れる。本発明の実施の形態による発話区間検出装置は、この相違点に着目し、与えられた音響データの中から発話区間を検出する。
[第1の実施の形態]
図3を参照して、本発明の実施の形態による発話区間検出装置22は、フレーム分割部23と、高速フーリエ変換部(FFT;Fast Fourier Transform)14と、微分部25と、音声フレーム判定部26とを備える。フレーム分割部23は、音響データを所定時間(たとえば10ms)ごとにフレームに分割する。高速フーリエ変換部24は、フレーム分割部23により分割された音響データをフレームごとに高速フーリエ変換する。微分部25は、高速フーリエ変換部24によりフーリエ変換された音響データを微分して微分係数を算出する。音声フレーム判定部26は、微分部25により算出された微分係数の度数分布に基づいて音声を含む音声フレームを判定する。
次に、図4に示したフロー図を参照し、発話区間検出装置22の動作を説明する。
まず、フレーム分割部23は、与えられた音響データを所定時間ごとにフレームに分割する(S10)。音響データは、マイクで検知した信号でも、録音された信号でもよい。また、所定時間が重ならないように音響データをフレームに分割してもよいし、所定時間の一部が重なるように音響データをフレームに分割してもよい。
続いて、高速フーリエ変換部24は、フレーム分割部23により分割された音響データx(t)をフレームごとに高速フーリエ変換する(S11)。
続いて、微分部25は、高速フーリエ変換部24によりフーリエ変換された音響データ(以下、「パワースペクトル」という。)X(f)を微分して微分係数(傾きdX/df)を算出する(S12〜S14)。
より具体的には、周波数変換された音響データのうち微分部25による微分の対象となる周波数帯域を所定範囲に制限する(S12)。所定範囲としては音声信号が含まれる0〜2KHzが好ましい。ただし、これに限定されるものではない。また、帯域制限自体をしなくてもよい。
続いて、周波数fを微小区間Δf(たとえば100Hz)に分割する(S13)。パワースペクトルX(f)をΔfの幅で離散化された関数X=X(i・Δf)とみなし、微分係数をパワースペクトルXの差分Dとして次の式(1)により算出する(S14)。
=(Xi+1−X)/(i+1−i)=Xi+1−X …(1)
なお、厳密には、微分係数dX/dfは次の式(2)で表される。
dX/df=(X(f+Δf)−X(f))/Δf …(2)
微分係数の算出後、音声フレーム判定部26は、微分部25により算出された微分係数の度数分布に基づいて音声を含む音声フレームを判定する(S15〜S19)。
図5は、微分係数の度数分布を示す。音声を含まない雑音のみのフレームの場合、微分係数0付近で度数が最大になり、音声を含むフレームの場合、正及び負のある微分係数で度数が最大になる。図6は、この微分係数の絶対値の度数分布を示す。音声を含まない雑音のみのフレームの場合、分散は比較的大きくなり、音声を含むフレームの場合、分散は比較的小さくなる。
したがって、まず微分係数Dの絶対値|D|を算出し(S15)、算出した絶対値|D|の分散σを次の式(3)により算出する(S16)。
ここで、Nは微分係数Dの全数である。また、μは絶対値|D|の平均であり、次の式(4)で表される。
そして、算出した分散σを所定のしきい値σtと比較する(S17)。比較の結果、分散σが所定のしきい値σtよりも小さい場合(S17でYES)、当該フレームを音声フレームと判定する(S18)。一方、分散σが所定のしきい値σtよりも大きい場合(S17でNO)、当該フレームを非音声フレーム(雑音フレーム)と判定する(S19)。なお、σ=σtの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。
以上のように第1の実施の形態によれば、フレームごとにフーリエ変換された音響データを微分して微分係数を算出し、微分係数の度数分布に基づいて音声フレームを判定しているため、複数のマイクが不要で、単チャネルの音声に対しても適用可能である。
[第2の実施の形態]
上記第1の実施の形態は分散σを用いている。ただし、分散σの代わりに、上記式(4)で算出される平均μを用いてもよい。具体的には図7に示すように、微分係数の絶対値|D|の平均μを算出し(S20)、算出した平均μを所定のしきい値μt(図6参照)と比較する(S21)。比較の結果、平均μが所定のしきい値μtよりも大きい場合(S21でYES)、当該フレームを音声フレームと判定する(S18)。一方、平均μが所定のしきい値μtよりも小さい場合(S21でNO)、当該フレームを非音声フレームと判定する(S19)。なお、μ=μtの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。
[第3の実施の形態]
また、図8に示すように、微分係数の絶対値|D|のヒストグラムを作成し、所定の階級における度数Nを分散σや平均μの代わりに用いてもよい。図8の(a)は音声フレームのヒストグラムを示し、図8の(b)は非音声フレームのヒストグラムを示す。ここでは、所定の微分係数fmを中心に±θ内に入る階級の総度数を用いる。所定の微分係数fmとしては、微分係数の絶対値の平均μ、最高度数の微分係数などを用いてもよい。
具体的には図9に示すように、微分係数の絶対値|D|のヒストグラムを作成し(S30)、作成したヒストグラムに基づいて所定の階級における度数Nを算出し(S31)、算出した度数Nを所定のしきい値Ntと比較する(S32)。比較の結果、度数Nが所定のしきい値Ntよりも多い場合(S32でYES)、当該フレームを音声フレームと判定する(S18)。一方、度数Nが所定のしきい値Ntよりも少ない場合(S32でNO)、当該フレームを非音声フレームと判定する(S19)。なお、N=Ntの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。
[第4の実施の形態]
上記第1の実施の形態は各フレームを1階微分し、1階微分係数の絶対値の分散を算出している。ただし、各フレームを2階微分し、2階微分係数の分散を算出してもよい。具体的には図10に示すように、上記ステップS13及びS14を繰り返すことにより、微分係数Dをさらに微分して2階微分係数を算出する(S40,S41)。図11は、算出された2階微分係数を示す。非音声フレームの場合、分散は比較的大きくなり、音声フレームの場合、分散は比較的小さくなる。
続いて、算出した2階微分係数の分散σ'を算出し(S42)、算出した分散σ'を所定のしきい値σ'tと比較する(S43)。比較の結果、分散σ'が所定のしきい値σ'tよりも小さい場合(S43でYES)、当該フレームを音声フレームと判定する(S18)。一方、分散σ'が所定のしきい値σ'tよりも大きい場合(S43でNO)、当該フレームを非音声フレームと判定する(S19)。なお、σ'=σ'tの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。
[第5の実施の形態]
また、上記第3及び第4の実施の形態を組み合わせてもよい。すなわち図12に示すように、微分係数Dをさらに微分して2階微分係数を算出した後(S40,S41)、微分係数の絶対値|D|のヒストグラムを作成し(S30)、作成したヒストグラムに基づいて所定の階級における度数Nを算出し(S31)、算出した度数Nを所定のしきい値Ntと比較する(S32)。
[第6の実施の形態]
図5に示したように、音声フレームに関する微分係数の度数分布は、2つの正規分布(ガウス分布)を合成した2混合正規分布に類似している。そこで、図13に示すように、微分係数Dを2混合正規分布にフィッティングし(S50)、特定された2混合分布の分散σ1,σ2を算出し(S51)、算出した分散σ1,σ2の各々を所定のしきい値σtと比較する(S52)。比較の結果、少なくとも1つの分散σ1又はσ2が所定のしきい値σtよりも小さい場合(S43でYES)、当該フレームを音声フレームと判定する(S18)。一方、少なくとも1つの分散σ1又はσ2が所定のしきい値σtよりも大きい場合(S43でNO)、当該フレームを非音声フレームと判定する(S19)。なお、σ1=σt又はσ2=σtの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。
[第7の実施の形態]
上記第6の実施の形態は2混合正規分布の分散σ1,σ2を用いている。ただし、分散σ1,σ2の代わりに、2混合正規分布の平均μ1,μ2を用いてもよい。具体的には図14に示すように、微分係数Dを2混合正規分布にフィッティングした後(S50)、特定された2混合分布の平均μ1,μ2(図5参照)を算出し(S60)、算出した平均μ1,μ2を所定のしきい値μt1,μt2(図5参照)とそれぞれ比較する(S61)。比較の結果、平均μが所定のしきい値μtよりも大きい場合(S21でYES)、当該フレームを音声フレームと判定する(S18)。一方、平均μが所定のしきい値μtよりも小さい場合(S21でNO)、当該フレームを非音声フレームと判定する(S19)。なお、μ=μtの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。
[第8の実施の形態]
上記第1の実施の形態は微分係数の絶対値|D|を算出している。ただし、図15に示すように、算出した微分係数Dのうち正又は負の微分係数のみを抽出してもよい(S70)。
[第9の実施の形態]
上記第8の実施の形態は分散σを算出している。ただし、図16に示すように、抽出した正又は負の微分係数Dの平均μ(図5中のμ1又はμ2に相当)を算出してもよい(S20)。
[第10の実施の形態]
上記第1〜第9の実施の形態は、周波数fを微小区間Δfに分割し、その差分Dを算出することにより、微分係数(傾き)を算出している。ただし、(i,X)の前後数点を考慮し、最小二乗法により微分係数を算出してもよい。たとえば、iを含むK個の点の傾きDは最小二乗法によると一般に次の式(5)で与えられる。
ここで、kの範囲はiを含み、全部でK個ある。また、Imは次の式(6)で表されるiの平均であり、Xmは次の式(7)で表されるXiの平均である。
さらにこのとき、[i−n,i+n]の(2n+1)個の点で上記式(5)を適用すると、Im=iなどを考慮して、次の式(8)で与えることができる
[その他の実施の形態]
図1及び図2に示した周波数スペクトルは、横軸の周波数はリニアスケールで、縦軸のパワー(音圧)は対数スケールで表されている。ただし、これらはリニアスケールでも対数スケールでもどちらでもよい。計算を容易にするためには、周波数はリニアスケールであるのが好ましい。高速フーリエ変換に由来する微小区間Δfをそのまま使用できるからである。たとえば、サンプリング周波数16KHzの音声信号を1024ポイントで高速フーリエ変換した場合、Δfは次の式(9)で表される。
Δf=1/((1/1600)×1024)=15.625Hz …(9)
また、上記実施の形態はフレーム単位で音声を含むか否かを判定しているため、誤判定(音声フレームを非音声フレームと判定、又は非音声フレームを音声フレームと判定)が断続的に発生する場合がある。したがって、音声フレームと判定されたフレームをそのまま発話区間として抽出するのではなく、その前後のフレームの判定結果を考慮した上で発話区間を抽出するのが好ましい。
たとえば図17に示すように、f(i)が音声フレームと判定されたとき、さらに後続するNフレームについても音声フレームか否かを判定する。その結果、nフレーム(0<n≦N)が音声フレームと判定されたとき、f(i)からkフレーム(k≧0)遡ったフレームf(i−k)を発話区間の開始フレームとする。発話区間の開始後、j番目のフレームf(j)(j>i)から7フレームf(j)を含むMフレーム(M>1)が連続して非音声フレームと判定されたとき、フレームf(j+M−1)を発話区間の最終フレームとする。N,n,k,Mの値は、アプリケーションの特徴、リアルタイム性などを考慮して適宜定められる(特開2000−194385号公報の段落0049参照)。
[用途]
上記実施の形態は典型的には音声認識装置で用いられる。たとえば図18に示すように、音声認識装置30は、発話区間検出部32と、音声分析部34と、音響ライブラリ35と、照合部37とを備える。発話区間検出部32は、上記実施の形態による発話区間検出装置で構成され、マイクから入力される音声信号の中から発話区間を検出して抽出する。音声分析部34は、発話区間内の音声信号を分析してその音響的特徴を表す特徴パラメータ系列を抽出する。音響ライブラリ35は、音響モデル38と、単語辞書39とを備える。音響モデル38は、単語ごとに標準音声パターンの音響的特徴をモデル化したものであり、入力音声パターンとの音響的な類似性の評価を行うための参照情報である。また、単語辞書39は、音響モデルの接続に関する制約を与えるための情報、たとえばある音素に引き続いて別の音素が出現する確率である。照合部37は、音声分析部34により抽出された特徴パラメータ系列と音響ライブラリ35の認識候補とを照合して、HMM(隠れマルコフモデル)アルゴリズムにより認識候補の尤もらしさを表す尤度を生成する。詳細は、特開2007−206239号公報の記載をここに援用する。
また、音声認識装置30は典型的には自動二輪車に搭載される。ただし、音声認識装置30は、自動車、船舶、飛行機、ヘリコプタ、その他の輸送機器に搭載されてもよい。以下、自動二輪車の例を説明する。たとえば図19に示すように、自動二輪車1には、車載通信機20と、車載情報機器50と、運転者が着用するヘルメット15Aに装備されるヘルメット側無線通信機30Aと、同乗者が着用するヘルメット15Bに装備されるヘルメット側無線通信機30Bとが搭載される。上記音声認識装置30は車載情報機器50に内蔵される。
自動二輪車1は、車体フレーム2と、この車体フレーム2に対して上下に揺動可能に取り付けられた動力ユニット3と、この動力ユニット3からの駆動力を得て回転する後輪4と、車体フレーム2の前部にフロントフォーク5を介して取り付けられた操向車輪としての前輪6と、フロントフォーク5と一体的に回動するハンドル7とを備えている。ハンドル7には、メイン電源スイッチ28が備えられている。
動力ユニット3は、車体フレーム2の中央付近の下部に揺動自在に連結されているとともに、車体フレーム2の後部に対しては、リアサスペンションユニット8を介して弾性的に結合されている。車体フレーム2の中央付近の上部には、運転者用のシート9が配置され、さらにその後方には同乗者用のシート10が配置されている。車体フレーム2において、シート9とハンドル7との間の位置には、運転者が足を置く運転者用ステップ11が設けられている。また、運転者用のシート9の下方には、車体フレーム2の両側に、同乗者が足を置くためのステップ12が設けられている。運転者及び同乗者の乗車状態を検出するために、シート9,10には、それぞれ、運転席着座センサ13及び同乗者席着座センサ14が設けられている。
車載通信機20は、同乗者用のシート10の下方位置において、車体フレーム2に固定されている。この車載通信機20は、同乗者用のシート10の後方において車体フレーム2に固定されたアンテナ21と接続されており、ヘルメット側無線通信機30A,30Bとの間で無線通信を行う。車載情報機器50は、ハンドル7に固定されており、さらに、車載通信機20と配線接続されている。車載情報機器50の例としては、走行経路の音声案内を行うナビゲーションシステム、音楽プレイヤ、ラジオ、携帯電話機の通話音声を中継する電話音声中継装置などを挙げることができる。車載通信機20及び車載情報機器50は、車載バッテリ29からの給電を受けて動作するようになっている。
ヘルメット15A,15Bの内面において、乗員の左右の耳元に対向する位置には、一対のスピーカ31が固定されており、乗員の口元に対向する位置にはマイクロフォン33が固定されている。一方、帽体の背面には、ヘルメット側無線通信機30A,30Bが固定されている。このヘルメット側無線通信機30A,30Bは、アンテナ36を備え、スピーカ31及びマイクロフォン33と接続される。
以上、本発明の実施の形態を説明したが、上述した実施の形態は本発明を実施するための例示に過ぎない。よって、本発明は上述した実施の形態に限定されることなく、その趣旨を逸脱しない範囲内で上述した実施の形態を適宜変形して実施することが可能である。
自動二輪車の走行中に聞こえる風切り音の周波数スペクトルである。 図1の風切り音に音声が含まれる場合の周波数スペクトルである。 本発明の実施の形態による発話区間検出装置の構成を示す機能ブロック図である。 図1に示した発話区間検出装置の動作を示すフロー図である。 音声フレーム及び非音声フレームをフーリエ変換しかつ微分して得られた微分係数の度数分布を示すグラフである。 図5に示した微分係数の絶対値の度数分布を示すグラフである。 本発明の第2の実施の形態による発話区間検出装置の動作を示すフロー図である。 本発明の第3の実施の形態で作成されるヒストグラムであり、(a)は音声フレームのヒストグラムであり、(b)は非音声フレームのヒストグラムである。 図8に示した第3の実施の形態による発話区間検出装置の動作を示すフロー図である。 本発明の第4の実施の形態による発話区間検出装置の動作を示すフロー図である。 図10に示した第4の実施の形態で算出される2階微分係数の度数分布を示すグラフである。 本発明の第5の実施の形態による発話区間検出装置の動作を示すフロー図である。 本発明の第6の実施の形態による発話区間検出装置の動作を示すフロー図である。 本発明の第7の実施の形態による発話区間検出装置の動作を示すフロー図である。 本発明の第8の実施の形態による発話区間検出装置の動作を示すフロー図である。 本発明の第9の実施の形態による発話区間検出装置の動作を示すフロー図である。 本発明の実施の形態による判定結果に基づいて発話区間を抽出する方法を説明するための図である。 本発明の実施の形態による発話区間検出装置を備えた音声認識装置の構成を示す機能ブロック図である。 図18に示した音声認識装置を搭載した自動二輪車の外観構成を示す側面図である。
符号の説明
22 発話区間検出装置
23 フレーム分割部
24 高速フーリエ変換部
25 微分部
26 音声フレーム判定部
30 音声認識装置
32 発話区間検出部

Claims (13)

  1. 時間領域の関数である音響データを所定時間ごとにフレームに分割するフレーム分割手段と、
    前記フレーム分割手段により分割された音響データをフレームごとに周波数領域の関数に変換する周波数変換手段と、
    前記周波数変換手段により変換された音響データをフレームごとに周波数で微分して複数の微分係数を算出する微分手段と、
    前記微分手段により算出された微分係数の度数分布に基づいて音声を含む音声フレームを判定する音声フレーム判定手段とを備える発話区間検出装置。
  2. 請求項1に記載の発話区間検出装置であって、
    前記音声フレーム判定手段は、
    前記微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、
    前記絶対値算出手段により算出された絶対値の分散を算出する分散算出手段と、
    前記分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
  3. 請求項1に記載の発話区間検出装置であって、
    前記音声フレーム判定手段は、
    前記微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、
    前記絶対値算出手段により算出された絶対値の平均を算出する平均算出手段と、
    前記平均算出手段により算出された平均を所定のしきい値と比較し、該平均が所定のしきい値よりも大きいフレームを音声フレームと判定する平均比較手段とを含む、発話区間検出装置。
  4. 請求項1に記載の発話区間検出装置であって、
    前記音声フレーム判定手段は、
    前記微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、
    前記絶対値算出手段により算出された絶対値のヒストグラムを作成するヒストグラム作成手段と、
    前記ヒストグラム作成手段により作成されたヒストグラムに基づいて所定の階級における度数を算出する度数算出手段と、
    前記度数算出手段により算出された度数を所定のしきい値と比較し、該度数が所定のしきい値よりも多いフレームを音声フレームと判定する度数比較手段とを含む、発話区間検出装置。
  5. 請求項1に記載の発話区間検出装置であって、
    前記音声フレーム判定手段は、
    前記微分手段により算出された微分係数を微分して2階微分係数を算出する2階微分手段と、
    前記2階微分手段により算出された2階微分係数の分散を算出する分散算出手段と、
    前記分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
  6. 請求項1に記載の発話区間検出装置であって、
    前記音声フレーム判定手段は、
    前記微分手段により算出された微分係数を微分して2階微分係数を算出する2階微分手段と、
    前記2階微分手段により算出された2階微分係数のヒストグラムを作成するヒストグラム作成手段と、
    前記ヒストグラム作成手段により作成されたヒストグラムに基づいて所定の階級における度数を算出する度数算出手段と、
    前記度数算出手段により算出された度数を所定のしきい値と比較し、該度数が所定のしきい値よりも多いフレームを音声フレームと判定する度数比較手段とを含む、発話区間検出装置。
  7. 請求項1に記載の発話区間検出装置であって、
    前記音声フレーム判定手段は、
    前記微分手段により算出された微分係数を2混合正規分布にフィッティングするフィッティング手段と、
    前記フィッティング手段により得られた2混合正規分布の分散を算出する分散算出手段と、
    前記分散算出手段により算出された2つの分散の各々を所定のしきい値と比較し、少なくとも1つの分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
  8. 請求項1に記載の発話区間検出装置であって、
    前記音声フレーム判定手段は、
    前記微分手段により算出された微分係数を2混合正規分布にフィッティングするフィッティング手段と、
    前記フィッティング手段により得られた2混合正規分布の平均を算出する平均算出手段と、
    前記平均算出手段により算出された2つの平均の各々を所定のしきい値と比較し、少なくとも1つの平均が所定のしきい値よりも大きいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
  9. 請求項1に記載の発話区間検出装置であって、
    前記音声フレーム判定手段は、
    前記微分手段により算出された微分係数のうち正又は負の微分係数を抽出する微分係数抽出手段と、
    前記微分係数抽出手段により抽出された正又は負の微分係数の分散を算出する分散算出手段と、
    前記分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
  10. 請求項1に記載の発話区間検出装置であって、
    前記音声フレーム判定手段は、
    前記微分手段により算出された微分係数のうち正又は負の微分係数を抽出する微分係数抽出手段と、
    前記微分係数抽出手段により抽出された正又は負の微分係数の平均を算出する平均算出手段と、
    前記平均算出手段により算出された平均を所定のしきい値と比較し、該平均が所定のしきい値よりも大きいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
  11. 請求項1〜10のいずれか1項に記載の発話区間検出装置であってさらに、
    前記周波数変換手段により変換された音響データのうち前記微分手段による微分の対象となる周波数帯域を所定範囲に制限する帯域制限手段を備える発話区間検出装置。
  12. 請求項1〜11のいずれか1項に記載の発話区間検出装置を備えた音声認識装置。
  13. 請求項12に記載の音声認識装置を備えた輸送機器。
JP2008199713A 2008-08-01 2008-08-01 発話区間検出装置 Active JP5047900B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008199713A JP5047900B2 (ja) 2008-08-01 2008-08-01 発話区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008199713A JP5047900B2 (ja) 2008-08-01 2008-08-01 発話区間検出装置

Publications (2)

Publication Number Publication Date
JP2010039059A JP2010039059A (ja) 2010-02-18
JP5047900B2 true JP5047900B2 (ja) 2012-10-10

Family

ID=42011713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008199713A Active JP5047900B2 (ja) 2008-08-01 2008-08-01 発話区間検出装置

Country Status (1)

Country Link
JP (1) JP5047900B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6033718B2 (ja) * 2013-03-22 2016-11-30 本田技研工業株式会社 音検査方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01170998A (ja) * 1987-12-25 1989-07-06 Sony Corp 音韻区間情報形成装置
JP3091537B2 (ja) * 1991-10-01 2000-09-25 三洋電機株式会社 音声パターン作成方法
JPH10319985A (ja) * 1997-03-14 1998-12-04 N T T Data:Kk ノイズレベル検出方法、システム及び記録媒体
JP3900691B2 (ja) * 1998-07-08 2007-04-04 株式会社デンソー 雑音抑圧装置及び当該装置を用いた音声認識システム
JP3590342B2 (ja) * 2000-10-18 2004-11-17 日本電信電話株式会社 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体
JP2002196783A (ja) * 2000-12-27 2002-07-12 Sumitomo Metal Ind Ltd 時系列信号の識別方法及び装置
JP2003152860A (ja) * 2001-11-08 2003-05-23 Nec Saitama Ltd 音声検出回路及び電話機

Also Published As

Publication number Publication date
JP2010039059A (ja) 2010-02-18

Similar Documents

Publication Publication Date Title
US10224053B2 (en) Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering
US20080069364A1 (en) Sound signal processing method, sound signal processing apparatus and computer program
EP2431972B1 (en) Method and apparatus for multi-sensory speech enhancement
EP1569422B1 (en) Method and apparatus for multi-sensory speech enhancement on a mobile device
Fukuda et al. Long-term spectro-temporal and static harmonic features for voice activity detection
KR101759143B1 (ko) 음향 추적 정보 제공 방법, 차량용 음향 추적 장치, 및 이를 포함하는 차량
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
US9733346B1 (en) Method for providing sound detection information, apparatus detecting sound around vehicle, and vehicle including the same
JP4357867B2 (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
CN107176123B (zh) 声音检测信息提供方法、车辆周围声音检测装置及车辆
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
GB2522506A (en) Audio based system method for in-vehicle context classification
KR101519255B1 (ko) 차량 주변 소리 알림 시스템 및 그 방법
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP5047900B2 (ja) 発話区間検出装置
Loh et al. Speech recognition interactive system for vehicle
JP2007079389A (ja) 音声分析方法および音声分析装置
KR101619257B1 (ko) 운전자 감성 제어 장치 및 그 방법
JP2020154013A (ja) 車両用注意喚起装置、車両用注意喚起方法及びプログラム
JP2000321080A (ja) 雑音抑圧装置,音声認識装置及び車両用ナビゲーション装置
Fukuda et al. Improved voice activity detection using static harmonic features
Sathyanarayana et al. Leveraging speech-active regions towards active safety in vehicles
JP4507996B2 (ja) 運転者負荷推定装置
US11176957B2 (en) Low complexity detection of voiced speech and pitch estimation
KR20150144636A (ko) 이상음원 위치 추적 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5047900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250