JPH0990974A - 信号処理方法 - Google Patents
信号処理方法Info
- Publication number
- JPH0990974A JPH0990974A JP7246418A JP24641895A JPH0990974A JP H0990974 A JPH0990974 A JP H0990974A JP 7246418 A JP7246418 A JP 7246418A JP 24641895 A JP24641895 A JP 24641895A JP H0990974 A JPH0990974 A JP H0990974A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- section
- spectrum
- processing method
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Abstract
(57)【要約】
【課題】 パワーの大きい雑音が重畳している音声であ
っても安定して音声区間のみを検出することができ、パ
ワーパターンが音声と類似している雑音に対してこれを
非音声として判別することができる信号処理方法を提供
する。 【解決手段】 音声が雑音環境下において発せられた信
号の内から音声の区間のみを検出する信号処理方法にお
いて、入力信号のスペクトルの単位時間あたりの変化量
を計算し、スペクトルが変化する頻度が音声区間中の頻
度と類似している区間を音声として検出する信号処理方
法。
っても安定して音声区間のみを検出することができ、パ
ワーパターンが音声と類似している雑音に対してこれを
非音声として判別することができる信号処理方法を提供
する。 【解決手段】 音声が雑音環境下において発せられた信
号の内から音声の区間のみを検出する信号処理方法にお
いて、入力信号のスペクトルの単位時間あたりの変化量
を計算し、スペクトルが変化する頻度が音声区間中の頻
度と類似している区間を音声として検出する信号処理方
法。
Description
【0001】
【発明の属する技術分野】この発明は、信号処理方法に
関し、特に、音声が含まれている信号の内から音声区間
のみを検出する信号処理方法に関する。
関し、特に、音声が含まれている信号の内から音声区間
のみを検出する信号処理方法に関する。
【0002】
【従来の技術】音声区間検出技術の従来例を説明する。
先ず、音声のパワーである振幅に基づいて音声区間を検
出する技術について説明する。ここで、パワーとは単位
時間あたりの入力信号の2乗和である。入力信号中の入
力信号のパワーが或る閾値以上に達するフレームを音声
の母音のフレームであるものと仮定し、その前後数フレ
ームを含めて音声区間として検出する。しかし、この方
法によると、単語の継続時間長程度続くパワーの大きな
信号はすべて音声として誤検出するという問題が生ず
る。例えば電話のベル或はドアの閉まる音の如きパワー
の大きな音は音声として検出されることとなる。また、
この方法には、周囲雑音のパワーが大きくなる程、音声
のパワー区間を検出するのが困難になるという問題もあ
る。
先ず、音声のパワーである振幅に基づいて音声区間を検
出する技術について説明する。ここで、パワーとは単位
時間あたりの入力信号の2乗和である。入力信号中の入
力信号のパワーが或る閾値以上に達するフレームを音声
の母音のフレームであるものと仮定し、その前後数フレ
ームを含めて音声区間として検出する。しかし、この方
法によると、単語の継続時間長程度続くパワーの大きな
信号はすべて音声として誤検出するという問題が生ず
る。例えば電話のベル或はドアの閉まる音の如きパワー
の大きな音は音声として検出されることとなる。また、
この方法には、周囲雑音のパワーが大きくなる程、音声
のパワー区間を検出するのが困難になるという問題もあ
る。
【0003】次に、音声の基本周波数であるピッチ周波
数に基づいて音声区間を検出する技術について説明す
る。この方法は、母音定常部のピッチ周波数が50Hz
から500Hz程度の範囲内にあることを利用する。入
力信号のピッチ周波数を調べてこれが上述の範囲内にあ
るフレームを母音のフレームと仮定し、その前後数フレ
ームを含めて音声区間として検出する。しかし、この方
法によると、ピッチ周波数がこの周波数範囲内にある信
号は雑音であっても音声として誤検出されることにな
る。また、ピッチ周波数の検出方法は、波形がピッチ周
期で相関が強いことを利用するものが多いところから、
雑音が音声に重畳するとこれに災いされて高い相関値が
得られなくなり、正しいピッチ周波数が求められず、音
声を検出することができなくなるという問題もある。
数に基づいて音声区間を検出する技術について説明す
る。この方法は、母音定常部のピッチ周波数が50Hz
から500Hz程度の範囲内にあることを利用する。入
力信号のピッチ周波数を調べてこれが上述の範囲内にあ
るフレームを母音のフレームと仮定し、その前後数フレ
ームを含めて音声区間として検出する。しかし、この方
法によると、ピッチ周波数がこの周波数範囲内にある信
号は雑音であっても音声として誤検出されることにな
る。また、ピッチ周波数の検出方法は、波形がピッチ周
期で相関が強いことを利用するものが多いところから、
雑音が音声に重畳するとこれに災いされて高い相関値が
得られなくなり、正しいピッチ周波数が求められず、音
声を検出することができなくなるという問題もある。
【0004】
【発明が解決しようとする課題】以上の信号処理方法に
おける音声区間検出技術の従来例である音声のパワーに
よる音声区間検出方法には、周囲の雑音のパワーが大き
いとこれを音声区間のパワーと区別することができず、
雑音を誤って音声として検出する問題がある。そして、
ピッチ周波数による音声区間検出方法は、雑音が音声に
重畳した場合に安定したピッチ周波数が得られなくな
り、音声を検出することができなくなる場合がある。
おける音声区間検出技術の従来例である音声のパワーに
よる音声区間検出方法には、周囲の雑音のパワーが大き
いとこれを音声区間のパワーと区別することができず、
雑音を誤って音声として検出する問題がある。そして、
ピッチ周波数による音声区間検出方法は、雑音が音声に
重畳した場合に安定したピッチ周波数が得られなくな
り、音声を検出することができなくなる場合がある。
【0005】この発明は、音声に特徴的な情報を利用し
て雑音環境下においても安定に入力信号から音声区間を
検出することができる信号処理方法を提供するものであ
る。
て雑音環境下においても安定に入力信号から音声区間を
検出することができる信号処理方法を提供するものであ
る。
【0006】
【課題を解決するための手段】音声が雑音環境下におい
て発せられた信号の内から音声の区間のみを検出する信
号処理方法において、入力信号のスペクトルの単位時間
あたりの変化量を計算し、スペクトルが変化する頻度が
音声区間中の頻度と類似している区間を音声として検出
する信号処理方法を構成した。
て発せられた信号の内から音声の区間のみを検出する信
号処理方法において、入力信号のスペクトルの単位時間
あたりの変化量を計算し、スペクトルが変化する頻度が
音声区間中の頻度と類似している区間を音声として検出
する信号処理方法を構成した。
【0007】そして、先の信号処理方法において、スペ
クトルの変化量を計算する過程において初めに各時点の
スペクトルを表現する特徴量ベクトルの時系列を求め、
次に複数の時点の特徴量ベクトルを使用して動的特徴量
を計算し、動的特徴量のノルムからスペクトル変化量を
計算する信号処理方法を構成した。また、先の信号処理
方法において、動的特徴量は複数の時点の特徴量ベクト
ルの多項式展開係数である信号処理方法を構成した。
クトルの変化量を計算する過程において初めに各時点の
スペクトルを表現する特徴量ベクトルの時系列を求め、
次に複数の時点の特徴量ベクトルを使用して動的特徴量
を計算し、動的特徴量のノルムからスペクトル変化量を
計算する信号処理方法を構成した。また、先の信号処理
方法において、動的特徴量は複数の時点の特徴量ベクト
ルの多項式展開係数である信号処理方法を構成した。
【0008】更に、先の信号処理方法において、スペク
トルの単位時間あたりの変化量を計算し、スペクトルが
変化する頻度を、入力信号と予め音声から得られた頻度
を比較する過程において、音声に対して上記単位時間よ
り長い時間窓でスペクトルの変化量の和を計算してお
き、入力信号に対して同様にスペクトルの変化量の和を
計算し、その和の値が音声で得られた値の範囲内にある
場合にその区間を音声として検出する信号処理方法を構
成した。
トルの単位時間あたりの変化量を計算し、スペクトルが
変化する頻度を、入力信号と予め音声から得られた頻度
を比較する過程において、音声に対して上記単位時間よ
り長い時間窓でスペクトルの変化量の和を計算してお
き、入力信号に対して同様にスペクトルの変化量の和を
計算し、その和の値が音声で得られた値の範囲内にある
場合にその区間を音声として検出する信号処理方法を構
成した。
【0009】そして、先の信号処理方法において、スペ
クトルを表現する特徴量はLPCケプストラム或はFF
Tケプストラムである信号処理方法を構成した。また、
先の信号処理方法において、検出された区間のスペクト
ル特徴量が音声のスペクトル特徴量の存在し得る領域に
ある場合にその区間を音声区間として検出する信号処理
方法を構成した。
クトルを表現する特徴量はLPCケプストラム或はFF
Tケプストラムである信号処理方法を構成した。また、
先の信号処理方法において、検出された区間のスペクト
ル特徴量が音声のスペクトル特徴量の存在し得る領域に
ある場合にその区間を音声区間として検出する信号処理
方法を構成した。
【0010】更に、先の信号処理方法において、検出さ
れた区間の信号の振幅値、零交差数、基本周波数の内の
何れか一つ或は複数の特徴量が音声の区間で得られる値
の範囲にある場合にその区間を音声区間として検出する
信号処理方法を構成した。
れた区間の信号の振幅値、零交差数、基本周波数の内の
何れか一つ或は複数の特徴量が音声の区間で得られる値
の範囲にある場合にその区間を音声区間として検出する
信号処理方法を構成した。
【0011】
【発明の実施の形態】この発明は、入力信号のスペクト
ル変化量をスペクトルの特徴量時系列から求め、スペク
トルが変化する頻度が音声区間で求められる頻度と類似
している区間を音声区間として検出することを要旨とす
るものである。スペクトルの変化を捉えるには、先ず、
入力信号の各時点におけるスペクトルの特徴量ベクトル
を求め、次に、複数の時点の特徴量ベクトルからスペク
トルの動的特徴量を求め、動的特徴量ベクトルのノルム
からスペクトルの変化量を求める。音声区間におけるス
ペクトルの変化の頻度或は時間的なパターンを予め求め
ておき、入力信号においてこれと類似したスペクトルの
変化を示す区間を音声区間として出力する。スペクトル
の特徴量は、FFTスペクトル或はそのケプストラム係
数、フィルタバンクの出力値、その他のスペクトル概形
を表現する特徴量であれば何れであっても差し支えない
(「デジタル音声信号処理」、古井 著、東海大学出版
会 発行、参照)。また、動的特徴量は、特徴量時系列
の差分或は多項式展開係数、その他、スペクトル変化を
捉える特徴量であれば何れであっても差し支えない。ス
ペクトルの変化の頻度は、或る窓時間幅においてスペク
トル変化量のピークを数えたり、変化量の積分値を計算
したりしてスペクトル変化の度合いを捉えることができ
る方法を採用する。
ル変化量をスペクトルの特徴量時系列から求め、スペク
トルが変化する頻度が音声区間で求められる頻度と類似
している区間を音声区間として検出することを要旨とす
るものである。スペクトルの変化を捉えるには、先ず、
入力信号の各時点におけるスペクトルの特徴量ベクトル
を求め、次に、複数の時点の特徴量ベクトルからスペク
トルの動的特徴量を求め、動的特徴量ベクトルのノルム
からスペクトルの変化量を求める。音声区間におけるス
ペクトルの変化の頻度或は時間的なパターンを予め求め
ておき、入力信号においてこれと類似したスペクトルの
変化を示す区間を音声区間として出力する。スペクトル
の特徴量は、FFTスペクトル或はそのケプストラム係
数、フィルタバンクの出力値、その他のスペクトル概形
を表現する特徴量であれば何れであっても差し支えない
(「デジタル音声信号処理」、古井 著、東海大学出版
会 発行、参照)。また、動的特徴量は、特徴量時系列
の差分或は多項式展開係数、その他、スペクトル変化を
捉える特徴量であれば何れであっても差し支えない。ス
ペクトルの変化の頻度は、或る窓時間幅においてスペク
トル変化量のピークを数えたり、変化量の積分値を計算
したりしてスペクトル変化の度合いを捉えることができ
る方法を採用する。
【0012】スペクトル変化により検出した音声区間
は、更に、スペクトルの包絡を表現する特徴量、ピッチ
周波数、振幅値、零交差数その他の音声の特徴量情報を
も使用して、これら一つ或は複数の数値が音声区間で得
られる値の範囲内にあるか否かを検証することにより、
音声区間検出精度を高めることができる。音声の内の特
に言語音声は、音素の連接であり、それぞれの音素に
は、特徴的なスペクトル包絡が存在する。したがって、
音素と音素の境界では、スペクトル変化量が大きくな
る。そこで、スペクトル変化に着目すると、音声信号は
音素長程度を単位とするスペクトル変化を伴う信号であ
ると特徴づけることができる。よって、予め、音声区間
にみられるスペクトル変化の頻度のとり得る範囲を求め
ておけば、入力信号のスペクトル変化の頻度が、その範
囲内に入った場合にその区間を音声区間として検出する
ことができる。
は、更に、スペクトルの包絡を表現する特徴量、ピッチ
周波数、振幅値、零交差数その他の音声の特徴量情報を
も使用して、これら一つ或は複数の数値が音声区間で得
られる値の範囲内にあるか否かを検証することにより、
音声区間検出精度を高めることができる。音声の内の特
に言語音声は、音素の連接であり、それぞれの音素に
は、特徴的なスペクトル包絡が存在する。したがって、
音素と音素の境界では、スペクトル変化量が大きくな
る。そこで、スペクトル変化に着目すると、音声信号は
音素長程度を単位とするスペクトル変化を伴う信号であ
ると特徴づけることができる。よって、予め、音声区間
にみられるスペクトル変化の頻度のとり得る範囲を求め
ておけば、入力信号のスペクトル変化の頻度が、その範
囲内に入った場合にその区間を音声区間として検出する
ことができる。
【0013】この発明は、言語音声に特徴的なスペクト
ル変化の頻度に着目するので、パワーが大きな雑音で
も、音声と同じ頻度でスペクトル変化をしなければ、こ
れを音声と区別することができる。従って、定常的な雑
音、緩やかに流れる音楽その他のパワーの大きい未知入
力信号に対しても、これらを音声であるか否かを判別す
ることができる。また、音声信号に雑音が重畳している
場合であっても、入力信号のスペクトル変化量は正確、
且つ安定に捉えることができるので、高い精度の音声検
出をすることができる。更に、ゆるやかな歌声その他の
スペクトル変化頻度の相対的に低い信号を除去すること
ができる。
ル変化の頻度に着目するので、パワーが大きな雑音で
も、音声と同じ頻度でスペクトル変化をしなければ、こ
れを音声と区別することができる。従って、定常的な雑
音、緩やかに流れる音楽その他のパワーの大きい未知入
力信号に対しても、これらを音声であるか否かを判別す
ることができる。また、音声信号に雑音が重畳している
場合であっても、入力信号のスペクトル変化量は正確、
且つ安定に捉えることができるので、高い精度の音声検
出をすることができる。更に、ゆるやかな歌声その他の
スペクトル変化頻度の相対的に低い信号を除去すること
ができる。
【0014】以上はスペクトル変化の頻度に着目するも
のであるが、これに更に、入力信号の各時点のスペクト
ル包絡を表現する特徴量、ピッチ周波数、振幅値、零交
差数情報の一つ或は複数をも併用して音声であるか否か
を総合的に判定することにより、検出精度をより高める
ことができる。
のであるが、これに更に、入力信号の各時点のスペクト
ル包絡を表現する特徴量、ピッチ周波数、振幅値、零交
差数情報の一つ或は複数をも併用して音声であるか否か
を総合的に判定することにより、検出精度をより高める
ことができる。
【0015】
【実施例】この発明の実施例を図を参照して説明する。
図1において、信号入力端子11から入力される信号は
A/D変換部12においてディジタル信号に変換され
る。音響特徴量抽出部13は、この変換されたディジタ
ル信号について音響特徴量、例えばLPCケプストラム
或はFFTケプストラムを計算する。動的尺度計算部1
4は、この音響特徴量に基づいてスペクトルの変化量を
計算する。時刻tにおける動的尺度D(t)は、式
(1)のように計算される(「音声の動的尺度に含まれ
る個人性情報」、著者 嵯峨山および板倉、日本音響学
会昭和54年度春季研究発表会講演論文集、3−2−
7,pp.589−590(1979)参照)。
図1において、信号入力端子11から入力される信号は
A/D変換部12においてディジタル信号に変換され
る。音響特徴量抽出部13は、この変換されたディジタ
ル信号について音響特徴量、例えばLPCケプストラム
或はFFTケプストラムを計算する。動的尺度計算部1
4は、この音響特徴量に基づいてスペクトルの変化量を
計算する。時刻tにおける動的尺度D(t)は、式
(1)のように計算される(「音声の動的尺度に含まれ
る個人性情報」、著者 嵯峨山および板倉、日本音響学
会昭和54年度春季研究発表会講演論文集、3−2−
7,pp.589−590(1979)参照)。
【0016】 ここで、Δctiは時刻tにおける第i次のΔケプストラ
ム(ケプストラムの時系列の一次微係数)を示す(参照
文献「デジタル音声信号処理」、著者 古井、東海大学
出版会 発行、参照)。即ち、ケプストラムによりスペ
クトル包絡の特徴を表現し、Δケプストラムにより動的
特徴量を表現する。よって、動的尺度はスペクトルの変
化の大きさを表現することができる。
ム(ケプストラムの時系列の一次微係数)を示す(参照
文献「デジタル音声信号処理」、著者 古井、東海大学
出版会 発行、参照)。即ち、ケプストラムによりスペ
クトル包絡の特徴を表現し、Δケプストラムにより動的
特徴量を表現する。よって、動的尺度はスペクトルの変
化の大きさを表現することができる。
【0017】音声区間検出部15は、スペクトルの変化
の頻度、即ち動的尺度の変化の頻度に基づいて音声区間
を検出する。スペクトルの変化の頻度は、例えば音素を
複数個含むと考えられる400msec程度のフレーム
区間内において、動的尺度のピークの数を数えたり、或
は動的尺度の総和を計算したりして調べる。音声区間に
おけるスペクトルの変化の頻度を予め計算しておき、閾
値を設けておく。この閾値の範囲内に入った入力信号の
フレームを音声のフレームとして検出する。最後に、音
声区間検出結果は音声検出区間出力部16から出力す
る。
の頻度、即ち動的尺度の変化の頻度に基づいて音声区間
を検出する。スペクトルの変化の頻度は、例えば音素を
複数個含むと考えられる400msec程度のフレーム
区間内において、動的尺度のピークの数を数えたり、或
は動的尺度の総和を計算したりして調べる。音声区間に
おけるスペクトルの変化の頻度を予め計算しておき、閾
値を設けておく。この閾値の範囲内に入った入力信号の
フレームを音声のフレームとして検出する。最後に、音
声区間検出結果は音声検出区間出力部16から出力す
る。
【0018】図2は音声信号波形、およびこれに対する
動的尺度の変化のパターンの例を示す図である。音声デ
ータは、単語“けいかい(/keikai/)”と“さ
すが(/sasuga/)”を男性が発声したものであ
る。入力信号の動的尺度を求めるためのLPCケプスト
ラムの分析条件は、窓幅20ms、シフト幅10msで
ある。そして、100msの窓幅でΔケプストラムを計
算した。無音の部分或は音声の定常部においては動的尺
度は余り変化せず、音声の始終端或は音素の境界におい
てピークが現れているのが判る。
動的尺度の変化のパターンの例を示す図である。音声デ
ータは、単語“けいかい(/keikai/)”と“さ
すが(/sasuga/)”を男性が発声したものであ
る。入力信号の動的尺度を求めるためのLPCケプスト
ラムの分析条件は、窓幅20ms、シフト幅10msで
ある。そして、100msの窓幅でΔケプストラムを計
算した。無音の部分或は音声の定常部においては動的尺
度は余り変化せず、音声の始終端或は音素の境界におい
てピークが現れているのが判る。
【0019】図3は雑音が重畳した音声の検出結果の例
を説明する図である。入力信号波形は、2名の話者が発
生した単語“あいかわらず”を、5秒間の無音区間を間
にいれて連結した信号に、自動車走行音をS/N比0d
Bで重畳させたものである。図3の上から2段目は、音
声が存在する区間を示す正解音声区間を示している。図
3の最下段は、入力信号に対する動的尺度の変化を示
す。上から3段目は、この動的尺度の変化に基づいて自
動的に決定した音声区間検出結果を示す。動的尺度は図
2で求めた条件と同じである。よって、動的尺度は10
ms毎に得られ、これをフレーム長400ms、シフト
幅200msとしてその区間の動的尺度の総和を求め
た。ここにおいては、この和の値が4.0を超えるフレ
ームを音声区間であるとして検出した。なお、第2段、
第3段共に、網がけの区間が音声区間を示す。S/N比
が低いために、入力信号波形上においては音声区間が明
確に見えないが、この発明の方法によれば、全ての音声
区間が検出されていることがわかる。この発明が音声の
スペクトル変化の頻度を捉えるために、雑音中の音声を
検出できることを示している。
を説明する図である。入力信号波形は、2名の話者が発
生した単語“あいかわらず”を、5秒間の無音区間を間
にいれて連結した信号に、自動車走行音をS/N比0d
Bで重畳させたものである。図3の上から2段目は、音
声が存在する区間を示す正解音声区間を示している。図
3の最下段は、入力信号に対する動的尺度の変化を示
す。上から3段目は、この動的尺度の変化に基づいて自
動的に決定した音声区間検出結果を示す。動的尺度は図
2で求めた条件と同じである。よって、動的尺度は10
ms毎に得られ、これをフレーム長400ms、シフト
幅200msとしてその区間の動的尺度の総和を求め
た。ここにおいては、この和の値が4.0を超えるフレ
ームを音声区間であるとして検出した。なお、第2段、
第3段共に、網がけの区間が音声区間を示す。S/N比
が低いために、入力信号波形上においては音声区間が明
確に見えないが、この発明の方法によれば、全ての音声
区間が検出されていることがわかる。この発明が音声の
スペクトル変化の頻度を捉えるために、雑音中の音声を
検出できることを示している。
【0020】図4はこの発明の他の実施例を説明する図
である。この実施例は、動的尺度とスペクトル包絡の情
報の双方を使用して音声区間を検出する。先の実施例と
同様に、信号入力端子11から入力される信号は、A/
D変換部12においてディジタル信号に変換される。音
響特徴量抽出部13は、この変換されたディジタル信号
について音響特徴量、例えばLPCケプストラム或はF
FTケプストラムを計算する。動的尺度計算部14はこ
の音響特徴量に基づいて動的尺度を計算する。また、ベ
クトル量子化器17は、ベクトル量子化符号帳メモリを
参照して、これから予め計算しておいた音声の特徴量の
代表ベクトルを読み出し、入力信号の特徴量ベクトルと
の間の量子化歪みを計算する。音声区間検出部15は、
動的尺度の変化の頻度が音声区間にみられる範囲内に入
っており、且つ、音声の代表特徴量ベクトルとの量子化
歪みが小さいことを調べ、総合的に判定する。この実施
例はスペクトル包絡の特徴を調べるためにベクトル量子
化歪みを使用したが、ベクトル量子化符号の時系列から
それが音声に特徴的な系列であるか否かを調べることに
依ることもできる。また、スペクトル特徴量空間におい
て音声の判別空間を求める方法を採用することもある。
である。この実施例は、動的尺度とスペクトル包絡の情
報の双方を使用して音声区間を検出する。先の実施例と
同様に、信号入力端子11から入力される信号は、A/
D変換部12においてディジタル信号に変換される。音
響特徴量抽出部13は、この変換されたディジタル信号
について音響特徴量、例えばLPCケプストラム或はF
FTケプストラムを計算する。動的尺度計算部14はこ
の音響特徴量に基づいて動的尺度を計算する。また、ベ
クトル量子化器17は、ベクトル量子化符号帳メモリを
参照して、これから予め計算しておいた音声の特徴量の
代表ベクトルを読み出し、入力信号の特徴量ベクトルと
の間の量子化歪みを計算する。音声区間検出部15は、
動的尺度の変化の頻度が音声区間にみられる範囲内に入
っており、且つ、音声の代表特徴量ベクトルとの量子化
歪みが小さいことを調べ、総合的に判定する。この実施
例はスペクトル包絡の特徴を調べるためにベクトル量子
化歪みを使用したが、ベクトル量子化符号の時系列から
それが音声に特徴的な系列であるか否かを調べることに
依ることもできる。また、スペクトル特徴量空間におい
て音声の判別空間を求める方法を採用することもある。
【0021】ここで、動的尺度と音声の特徴量ベクトル
の双方の情報を組み合わせて音声を検出する実験例につ
いて述べる。この例は、音声と鳥の鳴き声が交互に発せ
られている入力信号に対する音声検出実験の例である。
実験は、大量の音声データから予めベクトル量子化符号
帳を求めた。音声データとしては、ATR音声データベ
ースから50単語、25文章をそれぞれ20名分使用し
た。量子化点数は512点である。特徴量ベクトルは、
16次のLPCケプストラム係数であり、窓幅は30m
s、シフト幅は10msである。10msec毎に得ら
れる特徴量の量子化歪みの和をフレーム長400mse
c、シフト幅200msecで求めた。動的尺度につい
ても、同様に、フレーム長400msec、シフト幅2
00msecで和を求めた。動的尺度と量子化歪みに対
して、学習用音声から音声区間で取り得る値の範囲を予
め設定しておき、入力音声がこの範囲に入る場合に音声
区間として検出する。
の双方の情報を組み合わせて音声を検出する実験例につ
いて述べる。この例は、音声と鳥の鳴き声が交互に発せ
られている入力信号に対する音声検出実験の例である。
実験は、大量の音声データから予めベクトル量子化符号
帳を求めた。音声データとしては、ATR音声データベ
ースから50単語、25文章をそれぞれ20名分使用し
た。量子化点数は512点である。特徴量ベクトルは、
16次のLPCケプストラム係数であり、窓幅は30m
s、シフト幅は10msである。10msec毎に得ら
れる特徴量の量子化歪みの和をフレーム長400mse
c、シフト幅200msecで求めた。動的尺度につい
ても、同様に、フレーム長400msec、シフト幅2
00msecで和を求めた。動的尺度と量子化歪みに対
して、学習用音声から音声区間で取り得る値の範囲を予
め設定しておき、入力音声がこの範囲に入る場合に音声
区間として検出する。
【0022】評価用の入力信号には、日本音響学会の連
続音声データベースから選んだ約5秒間の音声8文と約
5秒間程度の鳥の鳴き声8種類を交互に連結したものを
使用した。ここで、この実施例の性能を評価するために
次の様な尺度を設ける。 フレーム検出率=(正しく判別した音声のフレーム数)
/(評価データ中の音声のフレーム数) フレーム正答率=(正しく判別した音声のフレーム数)
/(システムが音声として出力したフレーム数) 正答率は、システムが音声のフレームであると示した結
果がどの程度正しいかを示す。検出率は、入力信号中に
存在する全ての音声のフレームをシステムがどの程度検
出することができたかを示す。評価データに対する音声
検出結果を、この尺度を使用して図5に示す。鳥の鳴き
声のスペクトル変化速度は音声のスペクトル変化速度に
非常に類似しているので、動的尺度のみに依っては、鳥
の鳴き声も音声として誤検出するところから、正答率は
低い。ベクトル量子化歪みを組み合わせて使用すると、
鳥の鳴き声のスペクトル包絡と音声のスペクトル包絡を
区別することができるので、正答率は向上する。
続音声データベースから選んだ約5秒間の音声8文と約
5秒間程度の鳥の鳴き声8種類を交互に連結したものを
使用した。ここで、この実施例の性能を評価するために
次の様な尺度を設ける。 フレーム検出率=(正しく判別した音声のフレーム数)
/(評価データ中の音声のフレーム数) フレーム正答率=(正しく判別した音声のフレーム数)
/(システムが音声として出力したフレーム数) 正答率は、システムが音声のフレームであると示した結
果がどの程度正しいかを示す。検出率は、入力信号中に
存在する全ての音声のフレームをシステムがどの程度検
出することができたかを示す。評価データに対する音声
検出結果を、この尺度を使用して図5に示す。鳥の鳴き
声のスペクトル変化速度は音声のスペクトル変化速度に
非常に類似しているので、動的尺度のみに依っては、鳥
の鳴き声も音声として誤検出するところから、正答率は
低い。ベクトル量子化歪みを組み合わせて使用すると、
鳥の鳴き声のスペクトル包絡と音声のスペクトル包絡を
区別することができるので、正答率は向上する。
【0023】この発明の音声区間の検出方法は、音声に
よって機器をON/OFFするボイススイッチ或は音声
認識のための音声区間検出に利用することができる。ま
た、ビデオ情報或はCDの音響情報データ中から音声が
発せられている部分だけを検索する様な音声検索にも利
用することができる。
よって機器をON/OFFするボイススイッチ或は音声
認識のための音声区間検出に利用することができる。ま
た、ビデオ情報或はCDの音響情報データ中から音声が
発せられている部分だけを検索する様な音声検索にも利
用することができる。
【0024】
【発明の効果】以上の通りであって、この発明は、音声
に特徴的なスペクトル変化の頻度を捉えて音声区間検出
を行なうため、パワーの大きい雑音が重畳している音声
であっても、安定して音声区間のみを検出することがで
きる。そして、パワーパタンが音声と類似している雑音
に対しても、スペクトル変化の速度が音声の音素の切り
替わる速度と異なる場合、非音声として判別することが
できる。よって、背景雑音の大きい環境下で音声認識装
置を使用する際に、前処理として認識すべき音声区間を
検出したり、音楽或は様々な音が入ったTV、映画の如
きメディアの音響データから、人が話しをしている場面
を検索して、映像の編集や内容の要約をする技術に利用
することができる。また、この発明は音声の他の特徴で
あるパワー値、零交差数、或は基本周波数と組み合わせ
て音声区間を検出することにより、より高い精度の音声
区間の検出をすることができる。
に特徴的なスペクトル変化の頻度を捉えて音声区間検出
を行なうため、パワーの大きい雑音が重畳している音声
であっても、安定して音声区間のみを検出することがで
きる。そして、パワーパタンが音声と類似している雑音
に対しても、スペクトル変化の速度が音声の音素の切り
替わる速度と異なる場合、非音声として判別することが
できる。よって、背景雑音の大きい環境下で音声認識装
置を使用する際に、前処理として認識すべき音声区間を
検出したり、音楽或は様々な音が入ったTV、映画の如
きメディアの音響データから、人が話しをしている場面
を検索して、映像の編集や内容の要約をする技術に利用
することができる。また、この発明は音声の他の特徴で
あるパワー値、零交差数、或は基本周波数と組み合わせ
て音声区間を検出することにより、より高い精度の音声
区間の検出をすることができる。
【図1】実施例を説明する図。
【図2】実施例の途中結果として得られる動的尺度の変
化を示す図。
化を示す図。
【図3】実施例による音声検出結果を示す図。
【図4】他の実施例を説明する図。
【図5】効果を示す図。
11 信号入力端子 12 A/D変換部 13 音響特徴量抽出部 14 動的尺度計算部 15 音声区間検出部 16 音声検出区間出力部 17 ベクトル量子化器 18 ベクトル量子化符号帳メモリ
Claims (7)
- 【請求項1】 音声が雑音環境下において発せられた信
号の内から音声の区間のみを検出する信号処理方法にお
いて、 入力信号のスペクトルの単位時間あたりの変化量を計算
し、スペクトルが変化する頻度が音声区間中の頻度と類
似している区間を音声として検出することを特徴とする
信号処理方法。 - 【請求項2】 請求項1に記載される信号処理方法にお
いて、 スペクトルの変化量を計算する過程において、初めに各
時点のスペクトルを表現する特徴量ベクトルの時系列を
求め、次に複数の時点の特徴量ベクトルを使用して動的
特徴量を計算し、動的特徴量のノルムからスペクトル変
化量を計算することを特徴とする信号処理方法。 - 【請求項3】 請求項1および請求項2の内の何れかに
記載される信号処理方法において、動的特徴量は複数の
時点の特徴量ベクトルの多項式展開係数であることを特
徴とする信号処理方法。 - 【請求項4】 請求項1ないし請求項3の内の何れかに
記載される信号処理方法において、 スペクトルの単位時間あたりの変化量を計算し、スペク
トルが変化する頻度を、入力信号と予め音声から得られ
た頻度を比較する過程において、音声に対して上記単位
時間より長い時間窓でスペクトルの変化量の和を計算し
ておき、入力信号に対して同様にスペクトルの変化量の
和を計算し、その和の値が音声で得られた値の範囲内に
ある場合にその区間を音声として検出することを特徴と
する信号処理方法。 - 【請求項5】 請求項1ないし請求項4の内の何れかに
記載される信号処理方法において、 スペクトルを表現する特徴量はLPCケプストラム或は
FFTケプストラムであることを特徴とする信号処理方
法。 - 【請求項6】 請求項1ないし請求項5の内の何れかに
記載される信号処理方法において、 検出された区間のスペクトル特徴量が音声のスペクトル
特徴量の存在し得る領域にある場合にその区間を音声区
間として検出することを特徴とする信号処理方法。 - 【請求項7】 請求項1ないし請求項6の内の何れかに
記載される信号処理方法において、 検出された区間の信号の振幅値、零交差数、基本周波数
の内の何れか一つ或は複数の特徴量が音声の区間で得ら
れる値の範囲にある場合にその区間を音声区間として検
出することを特徴とする信号処理方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7246418A JPH0990974A (ja) | 1995-09-25 | 1995-09-25 | 信号処理方法 |
EP96115241A EP0764937B1 (en) | 1995-09-25 | 1996-09-23 | Method for speech detection in a high-noise environment |
DE69613646T DE69613646T2 (de) | 1995-09-25 | 1996-09-23 | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen |
US08/719,015 US5732392A (en) | 1995-09-25 | 1996-09-24 | Method for speech detection in a high-noise environment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7246418A JPH0990974A (ja) | 1995-09-25 | 1995-09-25 | 信号処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0990974A true JPH0990974A (ja) | 1997-04-04 |
Family
ID=17148192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7246418A Pending JPH0990974A (ja) | 1995-09-25 | 1995-09-25 | 信号処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5732392A (ja) |
EP (1) | EP0764937B1 (ja) |
JP (1) | JPH0990974A (ja) |
DE (1) | DE69613646T2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091470A (ja) * | 2000-09-20 | 2002-03-27 | Fujitsu Ten Ltd | 音声区間検出装置 |
JP2003255984A (ja) * | 2002-03-06 | 2003-09-10 | Asahi Kasei Corp | 野鳥の鳴き声認識装置及びその認識方法 |
KR100429180B1 (ko) * | 1998-08-08 | 2004-06-16 | 엘지전자 주식회사 | 음성 패킷의 파라미터 특성을 이용한 오류 검사 방법 |
JP2008216618A (ja) * | 2007-03-05 | 2008-09-18 | Fujitsu Ten Ltd | 音声判別装置 |
WO2009017038A1 (ja) * | 2007-07-27 | 2009-02-05 | Sony Corporation | 検索装置および検索方法 |
JP2010230814A (ja) * | 2009-03-26 | 2010-10-14 | Fujitsu Ltd | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 |
WO2010140355A1 (ja) * | 2009-06-04 | 2010-12-09 | パナソニック株式会社 | 音響信号処理装置および方法 |
WO2010146711A1 (ja) | 2009-06-19 | 2010-12-23 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
US7957966B2 (en) | 2009-06-30 | 2011-06-07 | Kabushiki Kaisha Toshiba | Apparatus, method, and program for sound quality correction based on identification of a speech signal and a music signal from an input audio signal |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE179827T1 (de) * | 1994-11-25 | 1999-05-15 | Fleming K Fink | Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation |
JP4121578B2 (ja) * | 1996-10-18 | 2008-07-23 | ソニー株式会社 | 音声分析方法、音声符号化方法および装置 |
JP3753384B2 (ja) * | 1997-03-19 | 2006-03-08 | 株式会社日立製作所 | 映像中の有音区間の終始点の検出装置 |
US5930748A (en) * | 1997-07-11 | 1999-07-27 | Motorola, Inc. | Speaker identification system and method |
US6104994A (en) * | 1998-01-13 | 2000-08-15 | Conexant Systems, Inc. | Method for speech coding under background noise conditions |
US6327564B1 (en) | 1999-03-05 | 2001-12-04 | Matsushita Electric Corporation Of America | Speech detection using stochastic confidence measures on the frequency spectrum |
US6980950B1 (en) * | 1999-10-22 | 2005-12-27 | Texas Instruments Incorporated | Automatic utterance detector with high noise immunity |
US7167828B2 (en) * | 2000-01-11 | 2007-01-23 | Matsushita Electric Industrial Co., Ltd. | Multimode speech coding apparatus and decoding apparatus |
US6873953B1 (en) * | 2000-05-22 | 2005-03-29 | Nuance Communications | Prosody based endpoint detection |
AU2002218520A1 (en) * | 2000-11-30 | 2002-06-11 | Matsushita Electric Industrial Co., Ltd. | Audio decoder and audio decoding method |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
US20020147585A1 (en) * | 2001-04-06 | 2002-10-10 | Poulsen Steven P. | Voice activity detection |
FR2833103B1 (fr) * | 2001-12-05 | 2004-07-09 | France Telecom | Systeme de detection de parole dans le bruit |
US7054817B2 (en) * | 2002-01-25 | 2006-05-30 | Canon Europa N.V. | User interface for speech model generation and testing |
US7299173B2 (en) * | 2002-01-30 | 2007-11-20 | Motorola Inc. | Method and apparatus for speech detection using time-frequency variance |
JP3673507B2 (ja) * | 2002-05-16 | 2005-07-20 | 独立行政法人科学技術振興機構 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
US8352248B2 (en) * | 2003-01-03 | 2013-01-08 | Marvell International Ltd. | Speech compression method and apparatus |
US20040166481A1 (en) * | 2003-02-26 | 2004-08-26 | Sayling Wen | Linear listening and followed-reading language learning system & method |
US20050015244A1 (en) * | 2003-07-14 | 2005-01-20 | Hideki Kitao | Speech section detection apparatus |
DE102004001863A1 (de) * | 2004-01-13 | 2005-08-11 | Siemens Ag | Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
KR20060066483A (ko) * | 2004-12-13 | 2006-06-16 | 엘지전자 주식회사 | 음성 인식을 위한 특징 벡터 추출 방법 |
US7377233B2 (en) * | 2005-01-11 | 2008-05-27 | Pariff Llc | Method and apparatus for the automatic identification of birds by their vocalizations |
US8170875B2 (en) * | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
EP2165327A4 (en) * | 2007-06-15 | 2013-01-16 | Cochlear Ltd | INPUT SELECTION FOR HEARING DEVICES |
JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
CN102044244B (zh) | 2009-10-15 | 2011-11-16 | 华为技术有限公司 | 信号分类方法和装置 |
US10614827B1 (en) * | 2017-02-21 | 2020-04-07 | Oben, Inc. | System and method for speech enhancement using dynamic noise profile estimation |
US11790931B2 (en) * | 2020-10-27 | 2023-10-17 | Ambiq Micro, Inc. | Voice activity detection using zero crossing detection |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3712959A (en) * | 1969-07-14 | 1973-01-23 | Communications Satellite Corp | Method and apparatus for detecting speech signals in the presence of noise |
JPS5525150A (en) * | 1978-08-10 | 1980-02-22 | Nec Corp | Pattern recognition unit |
US5220629A (en) * | 1989-11-06 | 1993-06-15 | Canon Kabushiki Kaisha | Speech synthesis apparatus and method |
US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
JPH04130499A (ja) * | 1990-09-21 | 1992-05-01 | Oki Electric Ind Co Ltd | 音声のセグメンテーション方法 |
JPH0743598B2 (ja) * | 1992-06-25 | 1995-05-15 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識方法 |
US5579431A (en) * | 1992-10-05 | 1996-11-26 | Panasonic Technologies, Inc. | Speech detection in presence of noise by determining variance over time of frequency band limited energy |
US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
US5596680A (en) * | 1992-12-31 | 1997-01-21 | Apple Computer, Inc. | Method and apparatus for detecting speech activity using cepstrum vectors |
US5598504A (en) * | 1993-03-15 | 1997-01-28 | Nec Corporation | Speech coding system to reduce distortion through signal overlap |
SE501981C2 (sv) * | 1993-11-02 | 1995-07-03 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
-
1995
- 1995-09-25 JP JP7246418A patent/JPH0990974A/ja active Pending
-
1996
- 1996-09-23 DE DE69613646T patent/DE69613646T2/de not_active Expired - Fee Related
- 1996-09-23 EP EP96115241A patent/EP0764937B1/en not_active Expired - Lifetime
- 1996-09-24 US US08/719,015 patent/US5732392A/en not_active Expired - Fee Related
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100429180B1 (ko) * | 1998-08-08 | 2004-06-16 | 엘지전자 주식회사 | 음성 패킷의 파라미터 특성을 이용한 오류 검사 방법 |
JP2002091470A (ja) * | 2000-09-20 | 2002-03-27 | Fujitsu Ten Ltd | 音声区間検出装置 |
JP2003255984A (ja) * | 2002-03-06 | 2003-09-10 | Asahi Kasei Corp | 野鳥の鳴き声認識装置及びその認識方法 |
JP2008216618A (ja) * | 2007-03-05 | 2008-09-18 | Fujitsu Ten Ltd | 音声判別装置 |
WO2009017038A1 (ja) * | 2007-07-27 | 2009-02-05 | Sony Corporation | 検索装置および検索方法 |
US8532986B2 (en) | 2009-03-26 | 2013-09-10 | Fujitsu Limited | Speech signal evaluation apparatus, storage medium storing speech signal evaluation program, and speech signal evaluation method |
JP2010230814A (ja) * | 2009-03-26 | 2010-10-14 | Fujitsu Ltd | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 |
WO2010140355A1 (ja) * | 2009-06-04 | 2010-12-09 | パナソニック株式会社 | 音響信号処理装置および方法 |
JP5460709B2 (ja) * | 2009-06-04 | 2014-04-02 | パナソニック株式会社 | 音響信号処理装置および方法 |
US8886528B2 (en) | 2009-06-04 | 2014-11-11 | Panasonic Corporation | Audio signal processing device and method |
WO2010146711A1 (ja) | 2009-06-19 | 2010-12-23 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
US8676571B2 (en) | 2009-06-19 | 2014-03-18 | Fujitsu Limited | Audio signal processing system and audio signal processing method |
US7957966B2 (en) | 2009-06-30 | 2011-06-07 | Kabushiki Kaisha Toshiba | Apparatus, method, and program for sound quality correction based on identification of a speech signal and a music signal from an input audio signal |
Also Published As
Publication number | Publication date |
---|---|
EP0764937B1 (en) | 2001-07-04 |
EP0764937A2 (en) | 1997-03-26 |
US5732392A (en) | 1998-03-24 |
EP0764937A3 (en) | 1998-06-17 |
DE69613646T2 (de) | 2002-05-16 |
DE69613646D1 (de) | 2001-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0990974A (ja) | 信号処理方法 | |
Zhou et al. | Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion | |
US5596680A (en) | Method and apparatus for detecting speech activity using cepstrum vectors | |
Hu et al. | Pitch‐based gender identification with two‐stage classification | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
JPH06332492A (ja) | 音声検出方法および検出装置 | |
Wyse et al. | Toward contentbased audio indexing and retrieval and a new speaker discrimination technique | |
JPH075892A (ja) | 音声認識方法 | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
JP3130524B2 (ja) | 音声信号認識方法およびその方法を実施する装置 | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
Maganti et al. | Unsupervised speech/non-speech detection for automatic speech recognition in meeting rooms | |
JP4696418B2 (ja) | 情報検出装置及び方法 | |
US6470311B1 (en) | Method and apparatus for determining pitch synchronous frames | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
Zhang et al. | Advancements in whisper-island detection using the linear predictive residual | |
Hasija et al. | Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier | |
AU612737B2 (en) | A phoneme recognition system | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
Hussain et al. | Endpoint detection of speech signal using neural network | |
KR100526110B1 (ko) | 화자인식시스템의 화자 특징벡터 생성방법 및 시스템 | |
JPH05173592A (ja) | 音声/非音声判別方法および判別装置 | |
JPH1097269A (ja) | 音声検出装置及び方法 | |
Zhang | Whisper speech processing: Analysis, modeling, and detection with applications to keyword spotting |