JP5047900B2 - 発話区間検出装置 - Google Patents
発話区間検出装置 Download PDFInfo
- Publication number
- JP5047900B2 JP5047900B2 JP2008199713A JP2008199713A JP5047900B2 JP 5047900 B2 JP5047900 B2 JP 5047900B2 JP 2008199713 A JP2008199713 A JP 2008199713A JP 2008199713 A JP2008199713 A JP 2008199713A JP 5047900 B2 JP5047900 B2 JP 5047900B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- calculated
- variance
- calculating
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
図3を参照して、本発明の実施の形態による発話区間検出装置22は、フレーム分割部23と、高速フーリエ変換部(FFT;Fast Fourier Transform)14と、微分部25と、音声フレーム判定部26とを備える。フレーム分割部23は、音響データを所定時間(たとえば10ms)ごとにフレームに分割する。高速フーリエ変換部24は、フレーム分割部23により分割された音響データをフレームごとに高速フーリエ変換する。微分部25は、高速フーリエ変換部24によりフーリエ変換された音響データを微分して微分係数を算出する。音声フレーム判定部26は、微分部25により算出された微分係数の度数分布に基づいて音声を含む音声フレームを判定する。
Di=(Xi+1−Xi)/(i+1−i)=Xi+1−Xi …(1)
dX/df=(X(f+Δf)−X(f))/Δf …(2)
上記第1の実施の形態は分散σを用いている。ただし、分散σの代わりに、上記式(4)で算出される平均μを用いてもよい。具体的には図7に示すように、微分係数の絶対値|Di|の平均μを算出し(S20)、算出した平均μを所定のしきい値μt(図6参照)と比較する(S21)。比較の結果、平均μが所定のしきい値μtよりも大きい場合(S21でYES)、当該フレームを音声フレームと判定する(S18)。一方、平均μが所定のしきい値μtよりも小さい場合(S21でNO)、当該フレームを非音声フレームと判定する(S19)。なお、μ=μtの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。
また、図8に示すように、微分係数の絶対値|Di|のヒストグラムを作成し、所定の階級における度数Nを分散σや平均μの代わりに用いてもよい。図8の(a)は音声フレームのヒストグラムを示し、図8の(b)は非音声フレームのヒストグラムを示す。ここでは、所定の微分係数fmを中心に±θ内に入る階級の総度数を用いる。所定の微分係数fmとしては、微分係数の絶対値の平均μ、最高度数の微分係数などを用いてもよい。
上記第1の実施の形態は各フレームを1階微分し、1階微分係数の絶対値の分散を算出している。ただし、各フレームを2階微分し、2階微分係数の分散を算出してもよい。具体的には図10に示すように、上記ステップS13及びS14を繰り返すことにより、微分係数Diをさらに微分して2階微分係数を算出する(S40,S41)。図11は、算出された2階微分係数を示す。非音声フレームの場合、分散は比較的大きくなり、音声フレームの場合、分散は比較的小さくなる。
また、上記第3及び第4の実施の形態を組み合わせてもよい。すなわち図12に示すように、微分係数Diをさらに微分して2階微分係数を算出した後(S40,S41)、微分係数の絶対値|Di|のヒストグラムを作成し(S30)、作成したヒストグラムに基づいて所定の階級における度数Nを算出し(S31)、算出した度数Nを所定のしきい値Ntと比較する(S32)。
図5に示したように、音声フレームに関する微分係数の度数分布は、2つの正規分布(ガウス分布)を合成した2混合正規分布に類似している。そこで、図13に示すように、微分係数Diを2混合正規分布にフィッティングし(S50)、特定された2混合分布の分散σ1,σ2を算出し(S51)、算出した分散σ1,σ2の各々を所定のしきい値σtと比較する(S52)。比較の結果、少なくとも1つの分散σ1又はσ2が所定のしきい値σtよりも小さい場合(S43でYES)、当該フレームを音声フレームと判定する(S18)。一方、少なくとも1つの分散σ1又はσ2が所定のしきい値σtよりも大きい場合(S43でNO)、当該フレームを非音声フレームと判定する(S19)。なお、σ1=σt又はσ2=σtの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。
上記第6の実施の形態は2混合正規分布の分散σ1,σ2を用いている。ただし、分散σ1,σ2の代わりに、2混合正規分布の平均μ1,μ2を用いてもよい。具体的には図14に示すように、微分係数Diを2混合正規分布にフィッティングした後(S50)、特定された2混合分布の平均μ1,μ2(図5参照)を算出し(S60)、算出した平均μ1,μ2を所定のしきい値μt1,μt2(図5参照)とそれぞれ比較する(S61)。比較の結果、平均μが所定のしきい値μtよりも大きい場合(S21でYES)、当該フレームを音声フレームと判定する(S18)。一方、平均μが所定のしきい値μtよりも小さい場合(S21でNO)、当該フレームを非音声フレームと判定する(S19)。なお、μ=μtの場合、当該フレームを音声フレームと判定しても、非音声フレームと判定してもよい。
上記第1の実施の形態は微分係数の絶対値|Di|を算出している。ただし、図15に示すように、算出した微分係数Diのうち正又は負の微分係数のみを抽出してもよい(S70)。
上記第8の実施の形態は分散σを算出している。ただし、図16に示すように、抽出した正又は負の微分係数Diの平均μ(図5中のμ1又はμ2に相当)を算出してもよい(S20)。
上記第1〜第9の実施の形態は、周波数fを微小区間Δfに分割し、その差分Diを算出することにより、微分係数(傾き)を算出している。ただし、(i,Xi)の前後数点を考慮し、最小二乗法により微分係数を算出してもよい。たとえば、iを含むK個の点の傾きDiは最小二乗法によると一般に次の式(5)で与えられる。
図1及び図2に示した周波数スペクトルは、横軸の周波数はリニアスケールで、縦軸のパワー(音圧)は対数スケールで表されている。ただし、これらはリニアスケールでも対数スケールでもどちらでもよい。計算を容易にするためには、周波数はリニアスケールであるのが好ましい。高速フーリエ変換に由来する微小区間Δfをそのまま使用できるからである。たとえば、サンプリング周波数16KHzの音声信号を1024ポイントで高速フーリエ変換した場合、Δfは次の式(9)で表される。
Δf=1/((1/1600)×1024)=15.625Hz …(9)
上記実施の形態は典型的には音声認識装置で用いられる。たとえば図18に示すように、音声認識装置30は、発話区間検出部32と、音声分析部34と、音響ライブラリ35と、照合部37とを備える。発話区間検出部32は、上記実施の形態による発話区間検出装置で構成され、マイクから入力される音声信号の中から発話区間を検出して抽出する。音声分析部34は、発話区間内の音声信号を分析してその音響的特徴を表す特徴パラメータ系列を抽出する。音響ライブラリ35は、音響モデル38と、単語辞書39とを備える。音響モデル38は、単語ごとに標準音声パターンの音響的特徴をモデル化したものであり、入力音声パターンとの音響的な類似性の評価を行うための参照情報である。また、単語辞書39は、音響モデルの接続に関する制約を与えるための情報、たとえばある音素に引き続いて別の音素が出現する確率である。照合部37は、音声分析部34により抽出された特徴パラメータ系列と音響ライブラリ35の認識候補とを照合して、HMM(隠れマルコフモデル)アルゴリズムにより認識候補の尤もらしさを表す尤度を生成する。詳細は、特開2007−206239号公報の記載をここに援用する。
23 フレーム分割部
24 高速フーリエ変換部
25 微分部
26 音声フレーム判定部
30 音声認識装置
32 発話区間検出部
Claims (13)
- 時間領域の関数である音響データを所定時間ごとにフレームに分割するフレーム分割手段と、
前記フレーム分割手段により分割された音響データをフレームごとに周波数領域の関数に変換する周波数変換手段と、
前記周波数変換手段により変換された音響データをフレームごとに周波数で微分して複数の微分係数を算出する微分手段と、
前記微分手段により算出された微分係数の度数分布に基づいて音声を含む音声フレームを判定する音声フレーム判定手段とを備える発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、
前記絶対値算出手段により算出された絶対値の分散を算出する分散算出手段と、
前記分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、
前記絶対値算出手段により算出された絶対値の平均を算出する平均算出手段と、
前記平均算出手段により算出された平均を所定のしきい値と比較し、該平均が所定のしきい値よりも大きいフレームを音声フレームと判定する平均比較手段とを含む、発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数の絶対値を算出する絶対値算出手段と、
前記絶対値算出手段により算出された絶対値のヒストグラムを作成するヒストグラム作成手段と、
前記ヒストグラム作成手段により作成されたヒストグラムに基づいて所定の階級における度数を算出する度数算出手段と、
前記度数算出手段により算出された度数を所定のしきい値と比較し、該度数が所定のしきい値よりも多いフレームを音声フレームと判定する度数比較手段とを含む、発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数を微分して2階微分係数を算出する2階微分手段と、
前記2階微分手段により算出された2階微分係数の分散を算出する分散算出手段と、
前記分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数を微分して2階微分係数を算出する2階微分手段と、
前記2階微分手段により算出された2階微分係数のヒストグラムを作成するヒストグラム作成手段と、
前記ヒストグラム作成手段により作成されたヒストグラムに基づいて所定の階級における度数を算出する度数算出手段と、
前記度数算出手段により算出された度数を所定のしきい値と比較し、該度数が所定のしきい値よりも多いフレームを音声フレームと判定する度数比較手段とを含む、発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数を2混合正規分布にフィッティングするフィッティング手段と、
前記フィッティング手段により得られた2混合正規分布の分散を算出する分散算出手段と、
前記分散算出手段により算出された2つの分散の各々を所定のしきい値と比較し、少なくとも1つの分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数を2混合正規分布にフィッティングするフィッティング手段と、
前記フィッティング手段により得られた2混合正規分布の平均を算出する平均算出手段と、
前記平均算出手段により算出された2つの平均の各々を所定のしきい値と比較し、少なくとも1つの平均が所定のしきい値よりも大きいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数のうち正又は負の微分係数を抽出する微分係数抽出手段と、
前記微分係数抽出手段により抽出された正又は負の微分係数の分散を算出する分散算出手段と、
前記分散算出手段により算出された分散を所定のしきい値と比較し、該分散が所定のしきい値よりも小さいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記音声フレーム判定手段は、
前記微分手段により算出された微分係数のうち正又は負の微分係数を抽出する微分係数抽出手段と、
前記微分係数抽出手段により抽出された正又は負の微分係数の平均を算出する平均算出手段と、
前記平均算出手段により算出された平均を所定のしきい値と比較し、該平均が所定のしきい値よりも大きいフレームを音声フレームと判定する分散比較手段とを含む、発話区間検出装置。 - 請求項1〜10のいずれか1項に記載の発話区間検出装置であってさらに、
前記周波数変換手段により変換された音響データのうち前記微分手段による微分の対象となる周波数帯域を所定範囲に制限する帯域制限手段を備える発話区間検出装置。 - 請求項1〜11のいずれか1項に記載の発話区間検出装置を備えた音声認識装置。
- 請求項12に記載の音声認識装置を備えた輸送機器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008199713A JP5047900B2 (ja) | 2008-08-01 | 2008-08-01 | 発話区間検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008199713A JP5047900B2 (ja) | 2008-08-01 | 2008-08-01 | 発話区間検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010039059A JP2010039059A (ja) | 2010-02-18 |
JP5047900B2 true JP5047900B2 (ja) | 2012-10-10 |
Family
ID=42011713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008199713A Active JP5047900B2 (ja) | 2008-08-01 | 2008-08-01 | 発話区間検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5047900B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6033718B2 (ja) * | 2013-03-22 | 2016-11-30 | 本田技研工業株式会社 | 音検査方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01170998A (ja) * | 1987-12-25 | 1989-07-06 | Sony Corp | 音韻区間情報形成装置 |
JP3091537B2 (ja) * | 1991-10-01 | 2000-09-25 | 三洋電機株式会社 | 音声パターン作成方法 |
JPH10319985A (ja) * | 1997-03-14 | 1998-12-04 | N T T Data:Kk | ノイズレベル検出方法、システム及び記録媒体 |
JP3900691B2 (ja) * | 1998-07-08 | 2007-04-04 | 株式会社デンソー | 雑音抑圧装置及び当該装置を用いた音声認識システム |
JP3590342B2 (ja) * | 2000-10-18 | 2004-11-17 | 日本電信電話株式会社 | 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体 |
JP2002196783A (ja) * | 2000-12-27 | 2002-07-12 | Sumitomo Metal Ind Ltd | 時系列信号の識別方法及び装置 |
JP2003152860A (ja) * | 2001-11-08 | 2003-05-23 | Nec Saitama Ltd | 音声検出回路及び電話機 |
-
2008
- 2008-08-01 JP JP2008199713A patent/JP5047900B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010039059A (ja) | 2010-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10224053B2 (en) | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering | |
US20080069364A1 (en) | Sound signal processing method, sound signal processing apparatus and computer program | |
EP2431972B1 (en) | Method and apparatus for multi-sensory speech enhancement | |
EP1569422B1 (en) | Method and apparatus for multi-sensory speech enhancement on a mobile device | |
Fukuda et al. | Long-term spectro-temporal and static harmonic features for voice activity detection | |
KR101759143B1 (ko) | 음향 추적 정보 제공 방법, 차량용 음향 추적 장치, 및 이를 포함하는 차량 | |
JP6977004B2 (ja) | 車載装置、発声を処理する方法およびプログラム | |
US9733346B1 (en) | Method for providing sound detection information, apparatus detecting sound around vehicle, and vehicle including the same | |
JP4357867B2 (ja) | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 | |
CN107176123B (zh) | 声音检测信息提供方法、车辆周围声音检测装置及车辆 | |
CN112397065A (zh) | 语音交互方法、装置、计算机可读存储介质及电子设备 | |
GB2522506A (en) | Audio based system method for in-vehicle context classification | |
KR101519255B1 (ko) | 차량 주변 소리 알림 시스템 및 그 방법 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP5047900B2 (ja) | 発話区間検出装置 | |
Loh et al. | Speech recognition interactive system for vehicle | |
JP2007079389A (ja) | 音声分析方法および音声分析装置 | |
KR101619257B1 (ko) | 운전자 감성 제어 장치 및 그 방법 | |
JP2020154013A (ja) | 車両用注意喚起装置、車両用注意喚起方法及びプログラム | |
JP2000321080A (ja) | 雑音抑圧装置,音声認識装置及び車両用ナビゲーション装置 | |
Fukuda et al. | Improved voice activity detection using static harmonic features | |
Sathyanarayana et al. | Leveraging speech-active regions towards active safety in vehicles | |
JP4507996B2 (ja) | 運転者負荷推定装置 | |
US11176957B2 (en) | Low complexity detection of voiced speech and pitch estimation | |
KR20150144636A (ko) | 이상음원 위치 추적 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120710 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120718 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5047900 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |