JP5047900B2

JP5047900B2 - 発話区間検出装置

Info

Publication number: JP5047900B2
Application number: JP2008199713A
Authority: JP
Inventors: 貴志赤坂
Original assignee: Yamaha Motor Co Ltd
Current assignee: Yamaha Motor Co Ltd
Priority date: 2008-08-01
Filing date: 2008-08-01
Publication date: 2012-10-10
Anticipated expiration: 2028-08-01
Also published as: JP2010039059A

Description

本発明は、発話区間検出装置に関し、さらに詳しくは、音響データの中から音声を含む発話区間を検出する発話区間検出装置に関する。

自動二輪車、自動車、船舶、飛行機、ヘリコプタなどの輸送機器においては、ナビゲーションシステム、携帯電話機、オーディオ機器などの電子情報機器が搭載されており、最近では、この機器を音声で操作できるように音声認識装置も搭載されている。しかしながら、輸送機器では風切り音などの雑音が多いため、音声を含む発話区間を検出することが重要な課題である。

特許第３９２５７３４号公報（特許文献１）には、ユーザに装着された第１及び第２マイクからの音声信号を処理する音声信号処理装置が記載されている（段落００２６〜００４６参照）。この音声信号処理装置は、第１及び第２フレーム化部、第１及び第２周波数分析部、クロススペクトル計算部、位相抽出部、位相unwrap処理部、周波数帯域分割部、第１〜第Ｎ傾き計算部、ヒストグラム等計算部、及び音声／非音声判定部を備える。第１及び第２フレーム化部は、それぞれ、第１及び第２マイクからの音声信号をフレーム化する。第１及び第２周波数分析部は、それぞれ、フレーム化された音声信号をフーリエ変換して周波数関数を算出する。クロススペクトル計算部は、算出された周波数関数に基づいてクロススペクトルを算出する。位相抽出部は、算出されたクロススペクトルから位相を抽出する。位相unwrap処理部は、抽出された位相に基づいてクロススペクトルをunwrap処理する。周波数帯域分割部は、帯域分割（セグメント分割）した位相を第１〜第Ｎ傾き計算部にそれぞれ出力する。第１〜第Ｎ傾き計算部は、最小２乗法を適用することでセグメントごとに傾きを算出する。ヒストグラム等計算部は、算出された傾きのヒストグラムを作成し、各頻度を音声／非音声判定部に出力する。音声／非音声判定部は、頻度の平均値周辺の所定範囲内に含まれる傾きの頻度が所定のしきい値以上の場合、音声区間と判定し、頻度が所定のしきい値未満の場合、非音声区間と判定する。

しかしながら、この音声信号処理装置はマイクを複数用いるため、数周波数分析部等も複数必要で、処理負荷が大きいという問題がある。また、マイクの設置が煩わしいという問題もある。また、マイクではなく、既に録音されている音声を用いる場合、その音声は複数チャネルで録音されていなければならない。すなわち、音声が単チャネルで録音されている場合、この音声信号処理装置は使用できないという問題がある。

また、特開２０００−１９４３８５号公報（特許文献２）には、音声区間検出部を備えた音声認識装置が記載されている。この音声区間検出部は、フレームごとの音響分析で求められた特徴パラメータに基づいて、話者が実際に音声を発している音声区間を検出する。しかしながら、この検出方法は本発明と原理的に全く異なる。
特許第３９２５７３４号公報特開２０００−１９４３８５号公報

本発明の目的は、複数のマイクが不要で、単チャネルの音声に対しても適用可能な発話区間検出装置を提供することである。

課題を解決するための手段及び発明の効果

本発明による発話区間検出装置は、時間領域の関数である音響データを所定時間ごとにフレームに分割するフレーム分割手段と、フレーム分割手段により分割された音響データをフレームごとに周波数領域の関数に変換する周波数変換手段と、周波数変換手段により変換された音響データをフレームごとに周波数で微分して複数の微分係数を算出する微分手段と、微分手段により算出された微分係数の度数分布に基づいて音声を含む音声フレームを判定する音声フレーム判定手段とを備える。ここでいう周波数変換は、時間領域の関数を周波数領域の関数に変換するもので、典型的にはフーリエ変換である。

本発明によれば、フレームごとに周波数変換された音響データを微分して微分係数を算出し、微分係数の度数分布に基づいて音声フレームを判定しているため、複数のマイクが不要で、単チャネルの音声に対しても適用可能である。

好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、絶対値算出手段により算出された絶対値の分散を算出する分散算出手段と、分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む。

好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、絶対値算出手段により算出された絶対値の平均を算出する平均算出手段と、平均算出手段により算出された平均を所定のしきい値と比較し、該平均が所定のしきい値よりも大きいフレームを音声フレームと判定する平均比較手段とを含む。

好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、絶対値算出手段により算出された絶対値のヒストグラムを作成するヒストグラム作成手段と、ヒストグラム作成手段により作成されたヒストグラムに基づいて所定の階級における度数を算出する度数算出手段と、度数算出手段により算出された度数を所定のしきい値と比較し、該度数が所定のしきい値よりも多いフレームを音声フレームと判定する度数比較手段とを含む。

好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数を微分して２階微分係数を算出する２階微分手段と、２階微分手段により算出された２階微分係数の分散を算出する分散算出手段と、分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む。

好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数を微分して２階微分係数を算出する２階微分手段と、２階微分手段により算出された２階微分係数のヒストグラムを作成するヒストグラム作成手段と、ヒストグラム作成手段により作成されたヒストグラムに基づいて所定の階級における度数を算出する度数算出手段と、度数算出手段により算出された度数を所定のしきい値と比較し、該度数が所定のしきい値よりも多いフレームを音声フレームと判定する度数比較手段とを含む。

好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数を２混合正規分布にフィッティングするフィッティング手段と、フィッティング手段により得られた２混合正規分布の分散を算出する分散算出手段と、分散算出手段により算出された２つの分散の各々を所定のしきい値と比較し、少なくとも１つの分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む。

好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数を２混合正規分布にフィッティングするフィッティング手段と、フィッティング手段により得られた２混合正規分布の平均を算出する平均算出手段と、平均算出手段により算出された２つの平均の各々を所定のしきい値と比較し、少なくとも１つの平均が所定のしきい値よりも大きいフレームを音声フレームと判定する分散比較手段とを含む。

好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数のうち正又は負の微分係数を抽出する微分係数抽出手段と、微分係数抽出手段により抽出された正又は負の微分係数の分散を算出する分散算出手段と、分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む。

好ましくは、音声フレーム判定手段は、微分手段により算出された微分係数のうち正又は負の微分係数を抽出する微分係数抽出手段と、微分係数抽出手段により抽出された正又は負の微分係数の平均を算出する平均算出手段と、平均算出手段により算出された平均を所定のしきい値と比較し、該平均が所定のしきい値よりも大きいフレームを音声フレームと判定する分散比較手段とを含む。

好ましくは、発話区間検出装置はさらに、周波数変換手段により変換された音響データのうち微分手段による微分の対象となる周波数帯域を所定範囲に制限する帯域制限手段を備える。

この場合、音声を含まない周波数帯域は微分の対象外となるので、音声フレームの判定精度が高くなる。

以下、図面を参照し、本発明の実施の形態を詳しく説明する。図中同一又は相当部分には同一符号を付してその説明は繰り返さない。

図１は、自動二輪車の走行中に聞こえる風切り音（雑音）の周波数スペクトルである。一方、図２は、図１の風切り音に音声が含まれる場合の周波数スペクトルである。図１と図２を比較すると明らかなように、図２に示した周波数スペクトルには、０〜２ＫＨｚの範囲に荒い波形が現れる。本発明の実施の形態による発話区間検出装置は、この相違点に着目し、与えられた音響データの中から発話区間を検出する。

［第１の実施の形態］
図３を参照して、本発明の実施の形態による発話区間検出装置２２は、フレーム分割部２３と、高速フーリエ変換部（ＦＦＴ；Fast Fourier Transform）１４と、微分部２５と、音声フレーム判定部２６とを備える。フレーム分割部２３は、音響データを所定時間（たとえば１０ｍｓ）ごとにフレームに分割する。高速フーリエ変換部２４は、フレーム分割部２３により分割された音響データをフレームごとに高速フーリエ変換する。微分部２５は、高速フーリエ変換部２４によりフーリエ変換された音響データを微分して微分係数を算出する。音声フレーム判定部２６は、微分部２５により算出された微分係数の度数分布に基づいて音声を含む音声フレームを判定する。

次に、図４に示したフロー図を参照し、発話区間検出装置２２の動作を説明する。

まず、フレーム分割部２３は、与えられた音響データを所定時間ごとにフレームに分割する（Ｓ１０）。音響データは、マイクで検知した信号でも、録音された信号でもよい。また、所定時間が重ならないように音響データをフレームに分割してもよいし、所定時間の一部が重なるように音響データをフレームに分割してもよい。

続いて、高速フーリエ変換部２４は、フレーム分割部２３により分割された音響データｘ（ｔ）をフレームごとに高速フーリエ変換する（Ｓ１１）。

続いて、微分部２５は、高速フーリエ変換部２４によりフーリエ変換された音響データ（以下、「パワースペクトル」という。）Ｘ（ｆ）を微分して微分係数（傾きｄＸ／ｄｆ）を算出する（Ｓ１２〜Ｓ１４）。

より具体的には、周波数変換された音響データのうち微分部２５による微分の対象となる周波数帯域を所定範囲に制限する（Ｓ１２）。所定範囲としては音声信号が含まれる０〜２ＫＨｚが好ましい。ただし、これに限定されるものではない。また、帯域制限自体をしなくてもよい。

続いて、周波数ｆを微小区間Δｆ（たとえば１００Ｈｚ）に分割する（Ｓ１３）。パワースペクトルＸ（ｆ）をΔｆの幅で離散化された関数Ｘ_ｉ＝Ｘ（ｉ・Δｆ）とみなし、微分係数をパワースペクトルＸ_ｉの差分Ｄ_ｉとして次の式（１）により算出する（Ｓ１４）。
Ｄ_ｉ＝（Ｘ_ｉ＋１−Ｘ_ｉ）／（ｉ＋１−ｉ）＝Ｘ_ｉ＋１−Ｘ_ｉ …（１）

なお、厳密には、微分係数ｄＸ／ｄｆは次の式（２）で表される。
ｄＸ／ｄｆ＝（Ｘ（ｆ＋Δｆ）−Ｘ（ｆ））／Δｆ …（２）

微分係数の算出後、音声フレーム判定部２６は、微分部２５により算出された微分係数の度数分布に基づいて音声を含む音声フレームを判定する（Ｓ１５〜Ｓ１９）。

図５は、微分係数の度数分布を示す。音声を含まない雑音のみのフレームの場合、微分係数０付近で度数が最大になり、音声を含むフレームの場合、正及び負のある微分係数で度数が最大になる。図６は、この微分係数の絶対値の度数分布を示す。音声を含まない雑音のみのフレームの場合、分散は比較的大きくなり、音声を含むフレームの場合、分散は比較的小さくなる。

したがって、まず微分係数Ｄ_ｉの絶対値｜Ｄ_ｉ｜を算出し（Ｓ１５）、算出した絶対値｜Ｄ_ｉ｜の分散σを次の式（３）により算出する（Ｓ１６）。

ここで、Ｎは微分係数Ｄ_ｉの全数である。また、μは絶対値｜Ｄ_ｉ｜の平均であり、次の式（４）で表される。

そして、算出した分散σを所定のしきい値σｔと比較する（Ｓ１７）。比較の結果、分散σが所定のしきい値σｔよりも小さい場合（Ｓ１７でＹＥＳ）、当該フレームを音声フレームと判定する（Ｓ１８）。一方、分散σが所定のしきい値σｔよりも大きい場合（Ｓ１７でＮＯ）、当該フレームを非音声フレーム（雑音フレーム）と判定する（Ｓ１９）。なお、σ＝σｔの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。

以上のように第１の実施の形態によれば、フレームごとにフーリエ変換された音響データを微分して微分係数を算出し、微分係数の度数分布に基づいて音声フレームを判定しているため、複数のマイクが不要で、単チャネルの音声に対しても適用可能である。

［第２の実施の形態］
上記第１の実施の形態は分散σを用いている。ただし、分散σの代わりに、上記式（４）で算出される平均μを用いてもよい。具体的には図７に示すように、微分係数の絶対値｜Ｄ_ｉ｜の平均μを算出し（Ｓ２０）、算出した平均μを所定のしきい値μｔ（図６参照）と比較する（Ｓ２１）。比較の結果、平均μが所定のしきい値μｔよりも大きい場合（Ｓ２１でＹＥＳ）、当該フレームを音声フレームと判定する（Ｓ１８）。一方、平均μが所定のしきい値μｔよりも小さい場合（Ｓ２１でＮＯ）、当該フレームを非音声フレームと判定する（Ｓ１９）。なお、μ＝μｔの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。

［第３の実施の形態］
また、図８に示すように、微分係数の絶対値｜Ｄ_ｉ｜のヒストグラムを作成し、所定の階級における度数Ｎを分散σや平均μの代わりに用いてもよい。図８の（ａ）は音声フレームのヒストグラムを示し、図８の（ｂ）は非音声フレームのヒストグラムを示す。ここでは、所定の微分係数ｆｍを中心に±θ内に入る階級の総度数を用いる。所定の微分係数ｆｍとしては、微分係数の絶対値の平均μ、最高度数の微分係数などを用いてもよい。

具体的には図９に示すように、微分係数の絶対値｜Ｄ_ｉ｜のヒストグラムを作成し（Ｓ３０）、作成したヒストグラムに基づいて所定の階級における度数Ｎを算出し（Ｓ３１）、算出した度数Ｎを所定のしきい値Ｎｔと比較する（Ｓ３２）。比較の結果、度数Ｎが所定のしきい値Ｎｔよりも多い場合（Ｓ３２でＹＥＳ）、当該フレームを音声フレームと判定する（Ｓ１８）。一方、度数Ｎが所定のしきい値Ｎｔよりも少ない場合（Ｓ３２でＮＯ）、当該フレームを非音声フレームと判定する（Ｓ１９）。なお、Ｎ＝Ｎｔの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。

［第４の実施の形態］
上記第１の実施の形態は各フレームを１階微分し、１階微分係数の絶対値の分散を算出している。ただし、各フレームを２階微分し、２階微分係数の分散を算出してもよい。具体的には図１０に示すように、上記ステップＳ１３及びＳ１４を繰り返すことにより、微分係数Ｄ_ｉをさらに微分して２階微分係数を算出する（Ｓ４０，Ｓ４１）。図１１は、算出された２階微分係数を示す。非音声フレームの場合、分散は比較的大きくなり、音声フレームの場合、分散は比較的小さくなる。

続いて、算出した２階微分係数の分散σ'を算出し（Ｓ４２）、算出した分散σ'を所定のしきい値σ'ｔと比較する（Ｓ４３）。比較の結果、分散σ'が所定のしきい値σ'ｔよりも小さい場合（Ｓ４３でＹＥＳ）、当該フレームを音声フレームと判定する（Ｓ１８）。一方、分散σ'が所定のしきい値σ'ｔよりも大きい場合（Ｓ４３でＮＯ）、当該フレームを非音声フレームと判定する（Ｓ１９）。なお、σ'＝σ'ｔの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。

［第５の実施の形態］
また、上記第３及び第４の実施の形態を組み合わせてもよい。すなわち図１２に示すように、微分係数Ｄ_ｉをさらに微分して２階微分係数を算出した後（Ｓ４０，Ｓ４１）、微分係数の絶対値｜Ｄ_ｉ｜のヒストグラムを作成し（Ｓ３０）、作成したヒストグラムに基づいて所定の階級における度数Ｎを算出し（Ｓ３１）、算出した度数Ｎを所定のしきい値Ｎｔと比較する（Ｓ３２）。

［第６の実施の形態］
図５に示したように、音声フレームに関する微分係数の度数分布は、２つの正規分布（ガウス分布）を合成した２混合正規分布に類似している。そこで、図１３に示すように、微分係数Ｄ_ｉを２混合正規分布にフィッティングし（Ｓ５０）、特定された２混合分布の分散σ１，σ２を算出し（Ｓ５１）、算出した分散σ１，σ２の各々を所定のしきい値σｔと比較する（Ｓ５２）。比較の結果、少なくとも１つの分散σ１又はσ２が所定のしきい値σｔよりも小さい場合（Ｓ４３でＹＥＳ）、当該フレームを音声フレームと判定する（Ｓ１８）。一方、少なくとも１つの分散σ１又はσ２が所定のしきい値σｔよりも大きい場合（Ｓ４３でＮＯ）、当該フレームを非音声フレームと判定する（Ｓ１９）。なお、σ１＝σｔ又はσ２＝σｔの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。

［第７の実施の形態］
上記第６の実施の形態は２混合正規分布の分散σ１，σ２を用いている。ただし、分散σ１，σ２の代わりに、２混合正規分布の平均μ１，μ２を用いてもよい。具体的には図１４に示すように、微分係数Ｄ_ｉを２混合正規分布にフィッティングした後（Ｓ５０）、特定された２混合分布の平均μ１，μ２（図５参照）を算出し（Ｓ６０）、算出した平均μ１，μ２を所定のしきい値μｔ１，μｔ２（図５参照）とそれぞれ比較する（Ｓ６１）。比較の結果、平均μが所定のしきい値μｔよりも大きい場合（Ｓ２１でＹＥＳ）、当該フレームを音声フレームと判定する（Ｓ１８）。一方、平均μが所定のしきい値μｔよりも小さい場合（Ｓ２１でＮＯ）、当該フレームを非音声フレームと判定する（Ｓ１９）。なお、μ＝μｔの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。

［第８の実施の形態］
上記第１の実施の形態は微分係数の絶対値｜Ｄ_ｉ｜を算出している。ただし、図１５に示すように、算出した微分係数Ｄ_ｉのうち正又は負の微分係数のみを抽出してもよい（Ｓ７０）。

［第９の実施の形態］
上記第８の実施の形態は分散σを算出している。ただし、図１６に示すように、抽出した正又は負の微分係数Ｄ_ｉの平均μ（図５中のμ１又はμ２に相当）を算出してもよい（Ｓ２０）。

［第１０の実施の形態］
上記第１〜第９の実施の形態は、周波数ｆを微小区間Δｆに分割し、その差分Ｄ_ｉを算出することにより、微分係数（傾き）を算出している。ただし、（ｉ，Ｘ_ｉ）の前後数点を考慮し、最小二乗法により微分係数を算出してもよい。たとえば、ｉを含むＫ個の点の傾きＤ_ｉは最小二乗法によると一般に次の式（５）で与えられる。
ここで、ｋの範囲はｉを含み、全部でＫ個ある。また、Ｉｍは次の式（６）で表されるｉの平均であり、Ｘｍは次の式（７）で表されるＸｉの平均である。

さらにこのとき、［ｉ−ｎ，ｉ＋ｎ］の（２ｎ＋１）個の点で上記式（５）を適用すると、Ｉｍ＝ｉなどを考慮して、次の式（８）で与えることができる

［その他の実施の形態］
図１及び図２に示した周波数スペクトルは、横軸の周波数はリニアスケールで、縦軸のパワー（音圧）は対数スケールで表されている。ただし、これらはリニアスケールでも対数スケールでもどちらでもよい。計算を容易にするためには、周波数はリニアスケールであるのが好ましい。高速フーリエ変換に由来する微小区間Δｆをそのまま使用できるからである。たとえば、サンプリング周波数１６ＫＨｚの音声信号を１０２４ポイントで高速フーリエ変換した場合、Δｆは次の式（９）で表される。
Δｆ＝１／（（１／１６００）×１０２４）＝１５．６２５Ｈｚ …（９）

また、上記実施の形態はフレーム単位で音声を含むか否かを判定しているため、誤判定（音声フレームを非音声フレームと判定、又は非音声フレームを音声フレームと判定）が断続的に発生する場合がある。したがって、音声フレームと判定されたフレームをそのまま発話区間として抽出するのではなく、その前後のフレームの判定結果を考慮した上で発話区間を抽出するのが好ましい。

たとえば図１７に示すように、ｆ（ｉ）が音声フレームと判定されたとき、さらに後続するＮフレームについても音声フレームか否かを判定する。その結果、ｎフレーム（０＜ｎ≦Ｎ）が音声フレームと判定されたとき、ｆ（ｉ）からｋフレーム（ｋ≧０）遡ったフレームｆ（ｉ−ｋ）を発話区間の開始フレームとする。発話区間の開始後、ｊ番目のフレームｆ（ｊ）（ｊ＞ｉ）から7フレームｆ（ｊ）を含むＭフレーム（Ｍ＞１）が連続して非音声フレームと判定されたとき、フレームｆ（ｊ＋Ｍ−１）を発話区間の最終フレームとする。Ｎ，ｎ，ｋ，Ｍの値は、アプリケーションの特徴、リアルタイム性などを考慮して適宜定められる（特開２０００−１９４３８５号公報の段落００４９参照）。

［用途］
上記実施の形態は典型的には音声認識装置で用いられる。たとえば図１８に示すように、音声認識装置３０は、発話区間検出部３２と、音声分析部３４と、音響ライブラリ３５と、照合部３７とを備える。発話区間検出部３２は、上記実施の形態による発話区間検出装置で構成され、マイクから入力される音声信号の中から発話区間を検出して抽出する。音声分析部３４は、発話区間内の音声信号を分析してその音響的特徴を表す特徴パラメータ系列を抽出する。音響ライブラリ３５は、音響モデル３８と、単語辞書３９とを備える。音響モデル３８は、単語ごとに標準音声パターンの音響的特徴をモデル化したものであり、入力音声パターンとの音響的な類似性の評価を行うための参照情報である。また、単語辞書３９は、音響モデルの接続に関する制約を与えるための情報、たとえばある音素に引き続いて別の音素が出現する確率である。照合部３７は、音声分析部３４により抽出された特徴パラメータ系列と音響ライブラリ３５の認識候補とを照合して、ＨＭＭ（隠れマルコフモデル）アルゴリズムにより認識候補の尤もらしさを表す尤度を生成する。詳細は、特開２００７−２０６２３９号公報の記載をここに援用する。

また、音声認識装置３０は典型的には自動二輪車に搭載される。ただし、音声認識装置３０は、自動車、船舶、飛行機、ヘリコプタ、その他の輸送機器に搭載されてもよい。以下、自動二輪車の例を説明する。たとえば図１９に示すように、自動二輪車１には、車載通信機２０と、車載情報機器５０と、運転者が着用するヘルメット１５Ａに装備されるヘルメット側無線通信機３０Ａと、同乗者が着用するヘルメット１５Ｂに装備されるヘルメット側無線通信機３０Ｂとが搭載される。上記音声認識装置３０は車載情報機器５０に内蔵される。

自動二輪車１は、車体フレーム２と、この車体フレーム２に対して上下に揺動可能に取り付けられた動力ユニット３と、この動力ユニット３からの駆動力を得て回転する後輪４と、車体フレーム２の前部にフロントフォーク５を介して取り付けられた操向車輪としての前輪６と、フロントフォーク５と一体的に回動するハンドル７とを備えている。ハンドル７には、メイン電源スイッチ２８が備えられている。

動力ユニット３は、車体フレーム２の中央付近の下部に揺動自在に連結されているとともに、車体フレーム２の後部に対しては、リアサスペンションユニット８を介して弾性的に結合されている。車体フレーム２の中央付近の上部には、運転者用のシート９が配置され、さらにその後方には同乗者用のシート１０が配置されている。車体フレーム２において、シート９とハンドル７との間の位置には、運転者が足を置く運転者用ステップ１１が設けられている。また、運転者用のシート９の下方には、車体フレーム２の両側に、同乗者が足を置くためのステップ１２が設けられている。運転者及び同乗者の乗車状態を検出するために、シート９，１０には、それぞれ、運転席着座センサ１３及び同乗者席着座センサ１４が設けられている。

車載通信機２０は、同乗者用のシート１０の下方位置において、車体フレーム２に固定されている。この車載通信機２０は、同乗者用のシート１０の後方において車体フレーム２に固定されたアンテナ２１と接続されており、ヘルメット側無線通信機３０Ａ，３０Ｂとの間で無線通信を行う。車載情報機器５０は、ハンドル７に固定されており、さらに、車載通信機２０と配線接続されている。車載情報機器５０の例としては、走行経路の音声案内を行うナビゲーションシステム、音楽プレイヤ、ラジオ、携帯電話機の通話音声を中継する電話音声中継装置などを挙げることができる。車載通信機２０及び車載情報機器５０は、車載バッテリ２９からの給電を受けて動作するようになっている。

ヘルメット１５Ａ，１５Ｂの内面において、乗員の左右の耳元に対向する位置には、一対のスピーカ３１が固定されており、乗員の口元に対向する位置にはマイクロフォン３３が固定されている。一方、帽体の背面には、ヘルメット側無線通信機３０Ａ，３０Ｂが固定されている。このヘルメット側無線通信機３０Ａ，３０Ｂは、アンテナ３６を備え、スピーカ３１及びマイクロフォン３３と接続される。

以上、本発明の実施の形態を説明したが、上述した実施の形態は本発明を実施するための例示に過ぎない。よって、本発明は上述した実施の形態に限定されることなく、その趣旨を逸脱しない範囲内で上述した実施の形態を適宜変形して実施することが可能である。

自動二輪車の走行中に聞こえる風切り音の周波数スペクトルである。図１の風切り音に音声が含まれる場合の周波数スペクトルである。本発明の実施の形態による発話区間検出装置の構成を示す機能ブロック図である。図１に示した発話区間検出装置の動作を示すフロー図である。音声フレーム及び非音声フレームをフーリエ変換しかつ微分して得られた微分係数の度数分布を示すグラフである。図５に示した微分係数の絶対値の度数分布を示すグラフである。本発明の第２の実施の形態による発話区間検出装置の動作を示すフロー図である。本発明の第３の実施の形態で作成されるヒストグラムであり、（ａ）は音声フレームのヒストグラムであり、（ｂ）は非音声フレームのヒストグラムである。図８に示した第３の実施の形態による発話区間検出装置の動作を示すフロー図である。本発明の第４の実施の形態による発話区間検出装置の動作を示すフロー図である。図１０に示した第４の実施の形態で算出される２階微分係数の度数分布を示すグラフである。本発明の第５の実施の形態による発話区間検出装置の動作を示すフロー図である。本発明の第６の実施の形態による発話区間検出装置の動作を示すフロー図である。本発明の第７の実施の形態による発話区間検出装置の動作を示すフロー図である。本発明の第８の実施の形態による発話区間検出装置の動作を示すフロー図である。本発明の第９の実施の形態による発話区間検出装置の動作を示すフロー図である。本発明の実施の形態による判定結果に基づいて発話区間を抽出する方法を説明するための図である。本発明の実施の形態による発話区間検出装置を備えた音声認識装置の構成を示す機能ブロック図である。図１８に示した音声認識装置を搭載した自動二輪車の外観構成を示す側面図である。

符号の説明

２２発話区間検出装置
２３フレーム分割部
２４高速フーリエ変換部
２５微分部
２６音声フレーム判定部
３０音声認識装置
３２発話区間検出部

Claims

時間領域の関数である音響データを所定時間ごとにフレームに分割するフレーム分割手段と、
前記フレーム分割手段により分割された音響データをフレームごとに周波数領域の関数に変換する周波数変換手段と、
前記周波数変換手段により変換された音響データをフレームごとに周波数で微分して複数の微分係数を算出する微分手段と、
前記微分手段により算出された微分係数の度数分布に基づいて音声を含む音声フレームを判定する音声フレーム判定手段とを備える発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、
前記絶対値算出手段により算出された絶対値の分散を算出する分散算出手段と、
前記分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、
前記絶対値算出手段により算出された絶対値の平均を算出する平均算出手段と、
前記平均算出手段により算出された平均を所定のしきい値と比較し、該平均が所定のしきい値よりも大きいフレームを音声フレームと判定する平均比較手段とを含む、発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、
前記絶対値算出手段により算出された絶対値のヒストグラムを作成するヒストグラム作成手段と、
前記ヒストグラム作成手段により作成されたヒストグラムに基づいて所定の階級における度数を算出する度数算出手段と、
前記度数算出手段により算出された度数を所定のしきい値と比較し、該度数が所定のしきい値よりも多いフレームを音声フレームと判定する度数比較手段とを含む、発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数を微分して２階微分係数を算出する２階微分手段と、
前記２階微分手段により算出された２階微分係数の分散を算出する分散算出手段と、
前記分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数を微分して２階微分係数を算出する２階微分手段と、
前記２階微分手段により算出された２階微分係数のヒストグラムを作成するヒストグラム作成手段と、
前記ヒストグラム作成手段により作成されたヒストグラムに基づいて所定の階級における度数を算出する度数算出手段と、
前記度数算出手段により算出された度数を所定のしきい値と比較し、該度数が所定のしきい値よりも多いフレームを音声フレームと判定する度数比較手段とを含む、発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数を２混合正規分布にフィッティングするフィッティング手段と、
前記フィッティング手段により得られた２混合正規分布の分散を算出する分散算出手段と、
前記分散算出手段により算出された２つの分散の各々を所定のしきい値と比較し、少なくとも１つの分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数を２混合正規分布にフィッティングするフィッティング手段と、
前記フィッティング手段により得られた２混合正規分布の平均を算出する平均算出手段と、
前記平均算出手段により算出された２つの平均の各々を所定のしきい値と比較し、少なくとも１つの平均が所定のしきい値よりも大きいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数のうち正又は負の微分係数を抽出する微分係数抽出手段と、
前記微分係数抽出手段により抽出された正又は負の微分係数の分散を算出する分散算出手段と、
前記分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数のうち正又は負の微分係数を抽出する微分係数抽出手段と、
前記微分係数抽出手段により抽出された正又は負の微分係数の平均を算出する平均算出手段と、
前記平均算出手段により算出された平均を所定のしきい値と比較し、該平均が所定のしきい値よりも大きいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。
請求項１〜１０のいずれか１項に記載の発話区間検出装置であってさらに、
前記周波数変換手段により変換された音響データのうち前記微分手段による微分の対象となる周波数帯域を所定範囲に制限する帯域制限手段を備える発話区間検出装置。
請求項１〜１１のいずれか１項に記載の発話区間検出装置を備えた音声認識装置。
請求項１２に記載の音声認識装置を備えた輸送機器。