JPH09127971A - 音声区間検出装置及び音声認識装置 - Google Patents
音声区間検出装置及び音声認識装置Info
- Publication number
- JPH09127971A JPH09127971A JP7282234A JP28223495A JPH09127971A JP H09127971 A JPH09127971 A JP H09127971A JP 7282234 A JP7282234 A JP 7282234A JP 28223495 A JP28223495 A JP 28223495A JP H09127971 A JPH09127971 A JP H09127971A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- section
- input
- characteristic parameter
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 雑音環境下において安定かつ正確に音声区
間、特に語頭を検出するのは困難であった。 【解決手段】 入力部7は音響分析部5が分析して抽出
した入力音声の特徴パラメータの特定区間を入力する。
判別部8は上記特徴パラメータの特定区間が上記音声の
始端か又は無音かを写像処理により判別する。出力部9
は上記判別結果に対応した値を出力する。ここで、入力
部7、判別部8、出力部9は、音声区間検出処理部6を
構成する。
間、特に語頭を検出するのは困難であった。 【解決手段】 入力部7は音響分析部5が分析して抽出
した入力音声の特徴パラメータの特定区間を入力する。
判別部8は上記特徴パラメータの特定区間が上記音声の
始端か又は無音かを写像処理により判別する。出力部9
は上記判別結果に対応した値を出力する。ここで、入力
部7、判別部8、出力部9は、音声区間検出処理部6を
構成する。
Description
【0001】
【発明の属する技術分野】本発明は、雑音環境下で入力
音声の音声区間を検出することができる音声区間検出装
置及び該音声区間を認識処理する音声認識装置に関す
る。
音声の音声区間を検出することができる音声区間検出装
置及び該音声区間を認識処理する音声認識装置に関す
る。
【0002】
【従来の技術】音声認識では、マイクから入力される入
力音声の信号の中から発声の前後の無音区間及び雑音区
間を取り除いて音声区間だけを取り出す音声区間検出が
必要である。
力音声の信号の中から発声の前後の無音区間及び雑音区
間を取り除いて音声区間だけを取り出す音声区間検出が
必要である。
【0003】上述の音声区間の検出は、信号対雑音比
(S/N比)が良好であるときにはそれ程難しくない。例え
ば、S/N比が高い場合は入力音声の信号のうちでパワー
の時系列の値が特定のしきい値を越える区間を認識対象
の音声区間として抽出すればよい。
(S/N比)が良好であるときにはそれ程難しくない。例え
ば、S/N比が高い場合は入力音声の信号のうちでパワー
の時系列の値が特定のしきい値を越える区間を認識対象
の音声区間として抽出すればよい。
【0004】上述したような従来の音声区間検出方法を
大別すると、上記例のようなしきい値を設ける方法、複
数の音声区間の候補から特定の音声区間を決定する方
法、ニューラルネットを利用する方法の3つがある。さ
らに、これら3つの方法は、以下のような方法に分かれ
る。
大別すると、上記例のようなしきい値を設ける方法、複
数の音声区間の候補から特定の音声区間を決定する方
法、ニューラルネットを利用する方法の3つがある。さ
らに、これら3つの方法は、以下のような方法に分かれ
る。
【0005】先ず、しきい値を設ける方法には、音声信
号のパワー時系列と比較するしきい値を雑音パワーの観
測により動的に制御する方法、パワー時系列が定常雑音
区間で一定でありその時間差分を利用する方法などがあ
る。ここで、検出精度を改善するためには、複数のしき
い値を設けて複数の端点から所定のアルゴリズムにより
最適なものを選び出す方法などがあり、特徴パラメータ
としては、 対数パワー、1次自己相関係数、1次線形
予測係数、零交差数などのパラメータを組み合わせて使
う、またスペクトル情報を使う方法などがある。
号のパワー時系列と比較するしきい値を雑音パワーの観
測により動的に制御する方法、パワー時系列が定常雑音
区間で一定でありその時間差分を利用する方法などがあ
る。ここで、検出精度を改善するためには、複数のしき
い値を設けて複数の端点から所定のアルゴリズムにより
最適なものを選び出す方法などがあり、特徴パラメータ
としては、 対数パワー、1次自己相関係数、1次線形
予測係数、零交差数などのパラメータを組み合わせて使
う、またスペクトル情報を使う方法などがある。
【0006】次に、複数の音声区間の候補から特定の音
声区間を決定する方法には、複数の音声区間の候補の各
々について実際に音声認識を行い、照合得点の最も高い
区間を選択する方法や更に発展させて、データ上のすべ
ての時刻を始端及び終端の候補として全区間について音
声認識を行って照合得点の高い区間を見つける(ワード
・スポッティング法)がある。
声区間を決定する方法には、複数の音声区間の候補の各
々について実際に音声認識を行い、照合得点の最も高い
区間を選択する方法や更に発展させて、データ上のすべ
ての時刻を始端及び終端の候補として全区間について音
声認識を行って照合得点の高い区間を見つける(ワード
・スポッティング法)がある。
【0007】次に、ニューラルネットを利用する方法に
は特徴パラメータを入力して有声区間がある場合に発火
する出力ユニットをもつパーセプトロン型ニューラルネ
ットをバックプロパゲーション学習法により構成する方
法がある。
は特徴パラメータを入力して有声区間がある場合に発火
する出力ユニットをもつパーセプトロン型ニューラルネ
ットをバックプロパゲーション学習法により構成する方
法がある。
【0008】
【発明が解決しようとする課題】ところで、上記しきい
値を設ける方法では、しきい値を雑音に応じて調整する
のが困難であり、また各種パラメータの動きが複雑であ
り、これに十分に対応するアルゴリズムの構築が出来て
いない。また複数のしきい値を設定する場合も現実の雑
音に合わせた設定が難しい。
値を設ける方法では、しきい値を雑音に応じて調整する
のが困難であり、また各種パラメータの動きが複雑であ
り、これに十分に対応するアルゴリズムの構築が出来て
いない。また複数のしきい値を設定する場合も現実の雑
音に合わせた設定が難しい。
【0009】また、上記複数の音声区間の候補から特定
の音声区間を決定する方法では、照合処理を複数回また
は常時行う必要がありそのために計算量が多くなる。ま
た認識部の耐雑音性が難しい現状においては、音声区間
と雑音とを区別する性能が認識対象語彙以外の入力に対
するリジェクト能力により左右されてしまう。
の音声区間を決定する方法では、照合処理を複数回また
は常時行う必要がありそのために計算量が多くなる。ま
た認識部の耐雑音性が難しい現状においては、音声区間
と雑音とを区別する性能が認識対象語彙以外の入力に対
するリジェクト能力により左右されてしまう。
【0010】また、ニューラルネットを利用する方法で
は、ニューラルネットワークの入力データとして特徴パ
ラメータ及び対数パワーを用いており、発火の対象が全
有声区間であるために入力データの変動が大きいのでニ
ューラルネットワークの学習データに対しては良い結果
が得られるが学習外データに対してはあまり良い結果が
得られない。
は、ニューラルネットワークの入力データとして特徴パ
ラメータ及び対数パワーを用いており、発火の対象が全
有声区間であるために入力データの変動が大きいのでニ
ューラルネットワークの学習データに対しては良い結果
が得られるが学習外データに対してはあまり良い結果が
得られない。
【0011】従って、上述の従来の音声区間検出方法で
は現実の環境での種々の雑音のためS/N比が劣化し、弱
い摩擦音、音声の始端(語頭)及び終端(語尾)にある振幅
の小さい有声音などの検出が困難であると共に、非定常
雑音を音声区間として誤検出してしまうので雑音環境下
において安定かつ正確に音声区間を検出することが出来
なかった。
は現実の環境での種々の雑音のためS/N比が劣化し、弱
い摩擦音、音声の始端(語頭)及び終端(語尾)にある振幅
の小さい有声音などの検出が困難であると共に、非定常
雑音を音声区間として誤検出してしまうので雑音環境下
において安定かつ正確に音声区間を検出することが出来
なかった。
【0012】そこで、本発明は、雑音環境下において安
定かつ正確に音声区間、特に語頭を検出することが出来
る音声区間検出装置及び音声認識装置の提供を目的とす
る。
定かつ正確に音声区間、特に語頭を検出することが出来
る音声区間検出装置及び音声認識装置の提供を目的とす
る。
【0013】
【課題を解決するための手段】本発明に係る音声区間検
出装置は、上記課題を解決するために、音響分析により
抽出された特徴パラメータの特定区間を入力し、この特
定区間の特徴パラメータが音声の始端か又は無音かを判
別し、この判別結果に対応した値を出力する。
出装置は、上記課題を解決するために、音響分析により
抽出された特徴パラメータの特定区間を入力し、この特
定区間の特徴パラメータが音声の始端か又は無音かを判
別し、この判別結果に対応した値を出力する。
【0014】また、本発明に係る音声認識装置は、上記
課題を解決するために、音響分析により抽出された特徴
パラメータの特定区間を入力し、この特定区間の特徴パ
ラメータが音声の始端か又は無音かを判別し、この判別
結果の出力値に応じた音声区間を認識処理する。
課題を解決するために、音響分析により抽出された特徴
パラメータの特定区間を入力し、この特定区間の特徴パ
ラメータが音声の始端か又は無音かを判別し、この判別
結果の出力値に応じた音声区間を認識処理する。
【0015】
【発明の実施の形態】以下、本発明に係る音声区間検出
装置の実施の形態について図面を参照しながら説明す
る。この実施の形態は、図1に示すように、マイクロホ
ン2が集音して電気信号に変換した入力音声信号の中か
ら発声の前後の無音区間及び雑音区間を取り除いて音声
区間だけを取り出す音声区間検出装置1である。特に、
この音声区間検出装置1は、音響分析部5が分析して抽
出した入力音声の特徴パラメータの特定区間を入力する
入力部7と、上記特徴パラメータの特定区間が上記音声
の始端か又は無音かを写像処理により判別する判別部8
と、上記判別結果に対応した値を出力する出力部9とを
備えて成る。ここで、入力部7、判別部8、出力部9を
まとめて音声区間検出処理部6とする。
装置の実施の形態について図面を参照しながら説明す
る。この実施の形態は、図1に示すように、マイクロホ
ン2が集音して電気信号に変換した入力音声信号の中か
ら発声の前後の無音区間及び雑音区間を取り除いて音声
区間だけを取り出す音声区間検出装置1である。特に、
この音声区間検出装置1は、音響分析部5が分析して抽
出した入力音声の特徴パラメータの特定区間を入力する
入力部7と、上記特徴パラメータの特定区間が上記音声
の始端か又は無音かを写像処理により判別する判別部8
と、上記判別結果に対応した値を出力する出力部9とを
備えて成る。ここで、入力部7、判別部8、出力部9を
まとめて音声区間検出処理部6とする。
【0016】図1において、マイクロホン2が出力する
入力音声信号は、アンプ3で増幅され、A/D変換器4
でディジタルデータとされる。このディジタルデータ
は、音響分析部5に供給される。
入力音声信号は、アンプ3で増幅され、A/D変換器4
でディジタルデータとされる。このディジタルデータ
は、音響分析部5に供給される。
【0017】音響分析部5は、フレーム毎に上記ディジ
タルデータを分析して特徴パラメータを抽出する。具体
的には、図2に示すように、16個のバンドパスフィルタ
(BPFという。)51、52・・・516を備え、16チャ
ンネルの出力からなる16次元のベクトルとフレーム毎の
パワーに相当するパタメータとを合わせた17次元のベク
トルを時刻t-1,t,t+1フレーム分求め、一緒にして51次
元のベクトルとして抽出している。
タルデータを分析して特徴パラメータを抽出する。具体
的には、図2に示すように、16個のバンドパスフィルタ
(BPFという。)51、52・・・516を備え、16チャ
ンネルの出力からなる16次元のベクトルとフレーム毎の
パワーに相当するパタメータとを合わせた17次元のベク
トルを時刻t-1,t,t+1フレーム分求め、一緒にして51次
元のベクトルとして抽出している。
【0018】この音響分析部5が51次元のベクトルとし
て抽出した上記特徴パラメータは、音声区間検出処理部
6の入力部7に供給される。
て抽出した上記特徴パラメータは、音声区間検出処理部
6の入力部7に供給される。
【0019】この音声区間検出処理部6で行う音声区間
検出処理は、図3に示すような写像として示すことがで
きる。以下、この写像を6’として説明する。すなわ
ち、図3に示す写像6’は入力手段としての始集合(入
力部)7と、判別手段としての基底関数値保存部(判別
部)8と、出力手段としての終集合(出力部)9とを備
えている。ここで始集合である入力部7は、上記特徴パ
ラメータの次元数に対応した次元を定めているので、51
次元始集合となる。すなわち、この入力部7には、音響
分析部5からの51次元の特徴データが供給される。
検出処理は、図3に示すような写像として示すことがで
きる。以下、この写像を6’として説明する。すなわ
ち、図3に示す写像6’は入力手段としての始集合(入
力部)7と、判別手段としての基底関数値保存部(判別
部)8と、出力手段としての終集合(出力部)9とを備
えている。ここで始集合である入力部7は、上記特徴パ
ラメータの次元数に対応した次元を定めているので、51
次元始集合となる。すなわち、この入力部7には、音響
分析部5からの51次元の特徴データが供給される。
【0020】この写像6’は、基底関数値保存部(判別
部)8に基底関数{gi(x)}(1≦i≦1378)として1,x_i(1≦
i≦51),x_i*x_j(i≦j,1≦i,j≦51)を採用した代数多項
式となる、 f(x):=a1*g1(x)+...+a1378*g1378(x) を保存している。また、出力部9の終集合の次元は1で
ある。
部)8に基底関数{gi(x)}(1≦i≦1378)として1,x_i(1≦
i≦51),x_i*x_j(i≦j,1≦i,j≦51)を採用した代数多項
式となる、 f(x):=a1*g1(x)+...+a1378*g1378(x) を保存している。また、出力部9の終集合の次元は1で
ある。
【0021】この音声区間検出処理部6に用いられる写
像6’の係数の求め方は通常の係数決定法(代数方程式
を解く)を使う。これにより、誤差最小が保証された写
像が決定される。
像6’の係数の求め方は通常の係数決定法(代数方程式
を解く)を使う。これにより、誤差最小が保証された写
像が決定される。
【0022】まず、入力データとしては、無音区間と語
頭を含む区間の2種類を多数用意する。つまり、実際の
雑音環境を想定して,代表的なノイズレベル及びノイズ
の種類を数種作成し、それらを音声データに付加したも
のを用いる。
頭を含む区間の2種類を多数用意する。つまり、実際の
雑音環境を想定して,代表的なノイズレベル及びノイズ
の種類を数種作成し、それらを音声データに付加したも
のを用いる。
【0023】次に、無音声区間のデータが入力された時
には、-1を教師信号として与え、また語頭を含む区間の
データが入力された時は、教師信号を+1と与える。そし
て、語頭を含む区間のデータについては、入力音声の語
頭をスペクトログラムより、予め位置を決定しておく。
また、決められた語頭の位置するに相当する特徴パラメ
ータのフレームが始集合7において17次元目になるよう
に語頭を含む区間の入力データを作成する。
には、-1を教師信号として与え、また語頭を含む区間の
データが入力された時は、教師信号を+1と与える。そし
て、語頭を含む区間のデータについては、入力音声の語
頭をスペクトログラムより、予め位置を決定しておく。
また、決められた語頭の位置するに相当する特徴パラメ
ータのフレームが始集合7において17次元目になるよう
に語頭を含む区間の入力データを作成する。
【0024】しかし、これだけでは写像は位置ずれに敏
感になりすぎてうまく語頭を検知できないことがあるの
で語頭を含む区間のデータとして語頭フレームが入力ベ
クトルの15次元、16次元、35次元、36次元が位置するデ
ータを作成して学習に用いる。
感になりすぎてうまく語頭を検知できないことがあるの
で語頭を含む区間のデータとして語頭フレームが入力ベ
クトルの15次元、16次元、35次元、36次元が位置するデ
ータを作成して学習に用いる。
【0025】次に語頭を含む区間のデータにおける発声
内容については、用途に応じて以下のように定める。
内容については、用途に応じて以下のように定める。
【0026】先ず、認識語彙が固定されている場合、認
識語彙のみを選択して,その選択された認識語彙を語頭
を含む区間のデータとする。このようにすることより、
写像は主として認識語彙の語頭に対してはより所望の作
用を行うようになり、ワードスポッテイング的に用いる
事が出来、精度よく語頭を検出できる。
識語彙のみを選択して,その選択された認識語彙を語頭
を含む区間のデータとする。このようにすることより、
写像は主として認識語彙の語頭に対してはより所望の作
用を行うようになり、ワードスポッテイング的に用いる
事が出来、精度よく語頭を検出できる。
【0027】また、使用者が自由に語彙を選択したい場
合には,様々な語頭の音韻を持つ発声データを学習の対
象とすることが可能である。なお学習サンプルの増加に
伴い写像の規模を大きくし(次元をあげていく)汎用的な
語頭検出器が可能になる。
合には,様々な語頭の音韻を持つ発声データを学習の対
象とすることが可能である。なお学習サンプルの増加に
伴い写像の規模を大きくし(次元をあげていく)汎用的な
語頭検出器が可能になる。
【0028】基底関数値保存部(判別部)27は、入力
部7によって入力された上記特徴パラメータを用いて、 f(x):=a1*g1(x)+...+a1378*g1378(x) を求め、上記入力音声の上記特定区間が始端か又は無音
かを写像処理により判別する。
部7によって入力された上記特徴パラメータを用いて、 f(x):=a1*g1(x)+...+a1378*g1378(x) を求め、上記入力音声の上記特定区間が始端か又は無音
かを写像処理により判別する。
【0029】判別部8の判別結果は出力部9に供給され
る。そして、出力部9は上記判別結果に対応した語頭検
出用の写像の出力値を出力端子10から出力する。
る。そして、出力部9は上記判別結果に対応した語頭検
出用の写像の出力値を出力端子10から出力する。
【0030】この語頭検出用の写像の出力値は、例えば
図4に示す認識処理部11に供給される。この認識処理
部11は図4に示すような音声認識装置14を図1に示
した音声区間検出装置1と共に構成する。認識処理部1
1は、上記出力値、すなわち語頭と判定された特徴パラ
メータに対して音声認識処理を施す。この音声認識処理
の結果は結果出力部12を介して出力端子13から導出
される。
図4に示す認識処理部11に供給される。この認識処理
部11は図4に示すような音声認識装置14を図1に示
した音声区間検出装置1と共に構成する。認識処理部1
1は、上記出力値、すなわち語頭と判定された特徴パラ
メータに対して音声認識処理を施す。この音声認識処理
の結果は結果出力部12を介して出力端子13から導出
される。
【0031】上記語頭検出用の写像の出力値は、判別部
8にて図5のフローチャートのステップS1に示すよう
に計算される。ここで、写像の出力値をVar(t)とする。
8にて図5のフローチャートのステップS1に示すよう
に計算される。ここで、写像の出力値をVar(t)とする。
【0032】さらに判別部8では、ステップS2に示す
ように写像値Var(t)がしきい値d(例えば、0.5)よりも
大きいか否かを判別する。ここで、写像値Var(t)がしき
い値dよりも大きいと判別すると、ステップS3に進
み、しきい値dよりも小さいと判別すると処理を終了す
る。
ように写像値Var(t)がしきい値d(例えば、0.5)よりも
大きいか否かを判別する。ここで、写像値Var(t)がしき
い値dよりも大きいと判別すると、ステップS3に進
み、しきい値dよりも小さいと判別すると処理を終了す
る。
【0033】ステップS3では、判別部8で得られた時
刻tの写像値Var(t)に相当する特徴パラメータを出力部
9を介して例えば上記音声認識装置14の認識処理部1
1に供給する。
刻tの写像値Var(t)に相当する特徴パラメータを出力部
9を介して例えば上記音声認識装置14の認識処理部1
1に供給する。
【0034】ここで、ステップS2では写像値Var(t)と
しきい値のみの比較を考慮しているが、写像値Var(t
1),...,Var(tn)としきい値dとを比較してもよい。例え
ば、Var(t)>d & Var(t+1)>dならば、ステップS3と
して時刻tの写像値Var(t)に相当する特徴パラメータを
出力部9を介して例えば上記音声認識装置14の認識処
理部11に供給する。
しきい値のみの比較を考慮しているが、写像値Var(t
1),...,Var(tn)としきい値dとを比較してもよい。例え
ば、Var(t)>d & Var(t+1)>dならば、ステップS3と
して時刻tの写像値Var(t)に相当する特徴パラメータを
出力部9を介して例えば上記音声認識装置14の認識処
理部11に供給する。
【0035】さらに、ステップS2では写像値Var(t)と
しきい値を比較すると共に、従来技法を用いた判定を行
ってもよい。例えば、Var(t)>d、及び従来技法による
条件(例えばパワーP(t)を用いた場合P(t)>e,t<t<t+c,
ここでeはしきい値)が満足されれば、ステップS3と
して時刻tの写像値Var(t)に相当する特徴パラメータを
語頭とする。
しきい値を比較すると共に、従来技法を用いた判定を行
ってもよい。例えば、Var(t)>d、及び従来技法による
条件(例えばパワーP(t)を用いた場合P(t)>e,t<t<t+c,
ここでeはしきい値)が満足されれば、ステップS3と
して時刻tの写像値Var(t)に相当する特徴パラメータを
語頭とする。
【0036】ステップS2での前記二つのアルゴリズム
は、語頭以外のもの、例えば突発雑音等に写像が反応し
やすい場合に有効である。通常は、始めに説明した写像
値Var(t)がしきい値dよりも大きいか否かだけの判別の
アルゴリズムでも十分である。この場合、しきい値dを
0.5よりやや高い値としてもよい。
は、語頭以外のもの、例えば突発雑音等に写像が反応し
やすい場合に有効である。通常は、始めに説明した写像
値Var(t)がしきい値dよりも大きいか否かだけの判別の
アルゴリズムでも十分である。この場合、しきい値dを
0.5よりやや高い値としてもよい。
【0037】このようにして検出された語頭フレームに
基づいて特徴パラメータが次の認識処理部11に送られ
る。尚、特徴パラメータの送付に際しては検出された語
頭直後から送られるのでなく、検出された語頭より少し
前に遡った時点から送られる。このため、音声区間検出
処理部6には特徴パラメータ系列を一時的に一定フレー
ム分だけ貯えるバッファを用意しておく必要がある。
基づいて特徴パラメータが次の認識処理部11に送られ
る。尚、特徴パラメータの送付に際しては検出された語
頭直後から送られるのでなく、検出された語頭より少し
前に遡った時点から送られる。このため、音声区間検出
処理部6には特徴パラメータ系列を一時的に一定フレー
ム分だけ貯えるバッファを用意しておく必要がある。
【0038】ここで、音声認識装置14の全体的な構
成、動作について図4を参照しながら説明しておく。
成、動作について図4を参照しながら説明しておく。
【0039】マイクロホン2から入力された音声は、ア
ンプ3によって増幅され、A/D変換器4でアナログ信
号からディジタル信号に変換された後、音響分析部5に
入力される。音響分析部5では、図2に示したようなB
PF群を用いて分析しフレーム毎に各BPFの出力パワ
ー値を出力する。尚、この音響分析処理は、線形予測分
析、ケプストラム分析などを用いても構わない。このよ
うにして求めた特徴パラメータ系列は、上述した音声区
間検出処理部6に送られる。音声区間検出処理部6では
その特徴パラメ-タ数のフレーム分を入力して上記特定
区間の入力音声が語頭か無音かを検出する。その後,語
頭と判定された特徴パラメータは認識処理部11に送ら
れその結果が結果出力部12を介して出力端子13から
導出される。
ンプ3によって増幅され、A/D変換器4でアナログ信
号からディジタル信号に変換された後、音響分析部5に
入力される。音響分析部5では、図2に示したようなB
PF群を用いて分析しフレーム毎に各BPFの出力パワ
ー値を出力する。尚、この音響分析処理は、線形予測分
析、ケプストラム分析などを用いても構わない。このよ
うにして求めた特徴パラメータ系列は、上述した音声区
間検出処理部6に送られる。音声区間検出処理部6では
その特徴パラメ-タ数のフレーム分を入力して上記特定
区間の入力音声が語頭か無音かを検出する。その後,語
頭と判定された特徴パラメータは認識処理部11に送ら
れその結果が結果出力部12を介して出力端子13から
導出される。
【0040】以上より、この第1の実施の形態となる音
声区間検出装置1は、入力された音声の特徴パラメータ
系列の特定の区間を入力する入力部7と、該特定の区間
が該入力音声の始端か又は無音かを写像処理により判別
する判別部8と、該判別結果に対応した値を出力する出
力部9を備えており、該出力結果に基づいて所定のアル
ゴリズムにより該入力音声の始端を検出するので、写像
の持つ識別能力により雑音環境下でも高い精度の語頭の
検出ができる。つまり、雑音環境時においても写像学習
時(多項式回帰分析実行時)にいくつかのレベル、いくつ
かの種類の雑音を付加した音声データを用いる事でほと
んどの雑音に対しても安定した出力が得られ、実際の雑
音環境化で精度よく語頭検出できる。
声区間検出装置1は、入力された音声の特徴パラメータ
系列の特定の区間を入力する入力部7と、該特定の区間
が該入力音声の始端か又は無音かを写像処理により判別
する判別部8と、該判別結果に対応した値を出力する出
力部9を備えており、該出力結果に基づいて所定のアル
ゴリズムにより該入力音声の始端を検出するので、写像
の持つ識別能力により雑音環境下でも高い精度の語頭の
検出ができる。つまり、雑音環境時においても写像学習
時(多項式回帰分析実行時)にいくつかのレベル、いくつ
かの種類の雑音を付加した音声データを用いる事でほと
んどの雑音に対しても安定した出力が得られ、実際の雑
音環境化で精度よく語頭検出できる。
【0041】また、この音声区間検出装置1を用いた音
声認識装置14によれば、認識処理を向上させることが
できる。
声認識装置14によれば、認識処理を向上させることが
できる。
【0042】次に本発明に係る音声区間検出装置の他の
実施の形態について図6を参照しながら説明する。この
他の実施の形態も、マイクロホン21が集音して電気信
号に変換した入力音声信号の中から発声の前後の無音区
間及び雑音区間を取り除いて音声区間だけを取り出す音
声区間検出装置20である。
実施の形態について図6を参照しながら説明する。この
他の実施の形態も、マイクロホン21が集音して電気信
号に変換した入力音声信号の中から発声の前後の無音区
間及び雑音区間を取り除いて音声区間だけを取り出す音
声区間検出装置20である。
【0043】この他の実施の形態となる音声区間検出装
置20は、音響分析部24及び入力部26を上記実施の
形態である音声区間検出装置1の音響分析部5及び入力
部7と異ならせている。
置20は、音響分析部24及び入力部26を上記実施の
形態である音声区間検出装置1の音響分析部5及び入力
部7と異ならせている。
【0044】音響分析部24は、特徴パラメータを抽出
する特徴パラメータ抽出部24aと、特徴パラメータか
ら特定の方法により動的特徴パラメータを抽出する動的
特徴パラメータ抽出部24bとに分けられる。この音響
分析部24が抽出した上記特徴パラメータ及び動的特徴
パラメータは、音声区間検出処理部25の入力部26に
供給される。
する特徴パラメータ抽出部24aと、特徴パラメータか
ら特定の方法により動的特徴パラメータを抽出する動的
特徴パラメータ抽出部24bとに分けられる。この音響
分析部24が抽出した上記特徴パラメータ及び動的特徴
パラメータは、音声区間検出処理部25の入力部26に
供給される。
【0045】入力部26は、上記特徴パラメータを入力
する特徴パラメータ入力部26aと、上記動的特徴パラ
メータを入力する動的特徴パラメータ入力部26bとに
分けられる。
する特徴パラメータ入力部26aと、上記動的特徴パラ
メータを入力する動的特徴パラメータ入力部26bとに
分けられる。
【0046】この入力部26と判別部27と出力部28
によって構成される音声区間検出処理部25が行う音声
区間検出処理も、図7に示すような写像として示すこと
ができる。以下、この写像を25’として説明する。す
なわち、図7に示すような写像25’は入力手段として
の始集合(入力部)26と、判別手段としての基底関数
値保存部(判別部)27と、出力手段としての終集合
(出力部)28とを備えている。
によって構成される音声区間検出処理部25が行う音声
区間検出処理も、図7に示すような写像として示すこと
ができる。以下、この写像を25’として説明する。す
なわち、図7に示すような写像25’は入力手段として
の始集合(入力部)26と、判別手段としての基底関数
値保存部(判別部)27と、出力手段としての終集合
(出力部)28とを備えている。
【0047】この写像25’は、基底関数値保存部(判
別部)27に基底関数{hi(y)}(1≦i≦171)として1,y_i
(1 ≦1≦17),y_i*y_j(i≦j,1≦i,j≦17)を採用した代数
多項式 b1*h1(y)+...+b170*h171(y) を保存している。これより最終的な特徴パラメータ、動
的特徴パラメータを入力とする写像25’は、 f(x) = a1*g1(x)+...a1378*g1378(x)+b1*h1(y)+...+b
171*h171(y) で与えられる。
別部)27に基底関数{hi(y)}(1≦i≦171)として1,y_i
(1 ≦1≦17),y_i*y_j(i≦j,1≦i,j≦17)を採用した代数
多項式 b1*h1(y)+...+b170*h171(y) を保存している。これより最終的な特徴パラメータ、動
的特徴パラメータを入力とする写像25’は、 f(x) = a1*g1(x)+...a1378*g1378(x)+b1*h1(y)+...+b
171*h171(y) で与えられる。
【0048】ここで、入力部26は、特徴パラメータ入
力部26aの他、上述したように動的特徴パラメータ入
力部26bを備えている。特徴パラメータ入力部26a
は上記図3の始集合である入力部7と同様に上記特徴パ
ラメータの次元数に対応した次元を定めているので51次
元始集合であり、特徴パラメータ抽出部24aで抽出さ
れた51次元の特徴パラメータを入力する。動的特徴パラ
メータ入力部26bは動的特徴パラメータ抽出部24b
で抽出された17次元の動的特徴パラメータを入力する。
このため入力部26は68次元始集合となる。
力部26aの他、上述したように動的特徴パラメータ入
力部26bを備えている。特徴パラメータ入力部26a
は上記図3の始集合である入力部7と同様に上記特徴パ
ラメータの次元数に対応した次元を定めているので51次
元始集合であり、特徴パラメータ抽出部24aで抽出さ
れた51次元の特徴パラメータを入力する。動的特徴パラ
メータ入力部26bは動的特徴パラメータ抽出部24b
で抽出された17次元の動的特徴パラメータを入力する。
このため入力部26は68次元始集合となる。
【0049】すなわち、時刻tにおける特徴パラメータ
を x1(t),x2(t),...,x17(t) と表すと特徴パラメータ入力部26aには x1(t-1),...x17(t-1),x1(t),...,x17(t),x1(t+1),...,x
17(t+1) が入力される。
を x1(t),x2(t),...,x17(t) と表すと特徴パラメータ入力部26aには x1(t-1),...x17(t-1),x1(t),...,x17(t),x1(t+1),...,x
17(t+1) が入力される。
【0050】一方、動的特徴パラメータ入力部26bに
は、回帰係数 yi(t) = (xi(t-1)*(t-1) + xi(t)*t + xi(t+1)*(t+1))/
((t-1)2 + t2 + (t+1)2) や差分 yi(t) = xi(t+1) - xi(t-1) などを用いた動的特徴パラメータ y1(t),...,y17(t) が入力される。
は、回帰係数 yi(t) = (xi(t-1)*(t-1) + xi(t)*t + xi(t+1)*(t+1))/
((t-1)2 + t2 + (t+1)2) や差分 yi(t) = xi(t+1) - xi(t-1) などを用いた動的特徴パラメータ y1(t),...,y17(t) が入力される。
【0051】なお、この音声区間検出装置20の音声区
間検出処理部25に用いられる学習法、すなわち特徴パ
ラメータと動的特徴パラメータを両方用いる場合の学習
法は、上述した第1の実施の形態の学習法と同様に通常
のGGM(写像)の係数決定法により写像を求める方法で
ある。
間検出処理部25に用いられる学習法、すなわち特徴パ
ラメータと動的特徴パラメータを両方用いる場合の学習
法は、上述した第1の実施の形態の学習法と同様に通常
のGGM(写像)の係数決定法により写像を求める方法で
ある。
【0052】基底関数値保存部(判別部)27は、入力
部26によって入力された上記特徴パラメータ及び上記
動的特徴パラメータを用いて、 f(x) = a1*g1(x)+...a1378*g1378(x)+b1*h1(y)+...+b
171*h171(y) を求め、上記入力音声の特定区間が始端か又は無音かを
写像処理により判別する。
部26によって入力された上記特徴パラメータ及び上記
動的特徴パラメータを用いて、 f(x) = a1*g1(x)+...a1378*g1378(x)+b1*h1(y)+...+b
171*h171(y) を求め、上記入力音声の特定区間が始端か又は無音かを
写像処理により判別する。
【0053】判別部27の判別結果は出力部28に供給
される。そして、出力部28は上記判別結果に対応した
語頭検出用の写像の出力値を出力する。
される。そして、出力部28は上記判別結果に対応した
語頭検出用の写像の出力値を出力する。
【0054】この語頭検出用の写像の出力値も出力端子
29から図4に示す認識処理部11に供給される。この
場合、図4に示した音声区間検出処理部6は、音声区間
検出処理部25となる。また、この認識処理部11は図
14に示すような音声認識装置14を図6に示した音声
区間検出装置20と共に構成する。
29から図4に示す認識処理部11に供給される。この
場合、図4に示した音声区間検出処理部6は、音声区間
検出処理部25となる。また、この認識処理部11は図
14に示すような音声認識装置14を図6に示した音声
区間検出装置20と共に構成する。
【0055】上記語頭検出用の写像の出力値は、判別部
27にて図5のフローチャートのステップS1に示すよ
うに計算される。なお、ここで、写像の出力値をVar(t)
のtは、上記入力部26に供給されたパラメータのう
ち、18次元目から35次元目までに入力されている動
的特徴パラメータのフレームの時刻を表す。すなわち、
ここでは動的特徴パラメータを用いた写像処理により写
像の出力値をVar(t)を計算している。これは、動的特徴
パラメータが、語頭のような無音区間から音声が立ち上
がってくるという変化のあるところでは、敏感に反応
し、雑音区間では反応しないという特性を利用するため
である。このため、通常の特徴パラメータの他に、その
パラメータ系列より導かれる動的特徴パラメータをも写
像の入力とすることで一層雑音環境化での語頭検出精度
を向上できる。
27にて図5のフローチャートのステップS1に示すよ
うに計算される。なお、ここで、写像の出力値をVar(t)
のtは、上記入力部26に供給されたパラメータのう
ち、18次元目から35次元目までに入力されている動
的特徴パラメータのフレームの時刻を表す。すなわち、
ここでは動的特徴パラメータを用いた写像処理により写
像の出力値をVar(t)を計算している。これは、動的特徴
パラメータが、語頭のような無音区間から音声が立ち上
がってくるという変化のあるところでは、敏感に反応
し、雑音区間では反応しないという特性を利用するため
である。このため、通常の特徴パラメータの他に、その
パラメータ系列より導かれる動的特徴パラメータをも写
像の入力とすることで一層雑音環境化での語頭検出精度
を向上できる。
【0056】さらに判別部27では、ステップS2に示
すように写像値Var(t)がしきい値d(例えば、0.5)より
も大きいか否かを判別する。ここで、写像値Var(t)がし
きい値dよりも大きいと判別すると、ステップS3に進
み、しきい値dよりも小さいと判別すると処理を終了す
る。
すように写像値Var(t)がしきい値d(例えば、0.5)より
も大きいか否かを判別する。ここで、写像値Var(t)がし
きい値dよりも大きいと判別すると、ステップS3に進
み、しきい値dよりも小さいと判別すると処理を終了す
る。
【0057】ステップS3では、判別部27で得られた
時刻tの写像値Var(t)に相当する特徴パラメータを出力
部28を介して例えば上記音声認識装置14の認識処理
部11に供給する。
時刻tの写像値Var(t)に相当する特徴パラメータを出力
部28を介して例えば上記音声認識装置14の認識処理
部11に供給する。
【0058】ここで、ステップS2では、上述したよう
に、写像値Var(t1),...,Var(tn)としきい値dとを比較し
てもよい。また、写像値Var(t)としきい値を比較すると
共に、従来技法を用いた判定を行ってもよい。
に、写像値Var(t1),...,Var(tn)としきい値dとを比較し
てもよい。また、写像値Var(t)としきい値を比較すると
共に、従来技法を用いた判定を行ってもよい。
【0059】ステップS2での前記二つのアルゴリズム
は、語頭以外のもの、例えば突発雑音等に写像が反応し
やすい場合に有効である。通常は、始めに説明した写像
値Var(t)がしきい値dよりも大きいか否かだけの判別の
アルゴリズムでも十分である。この場合、しきい値dを
0.5よりやや高い値としてもよい。
は、語頭以外のもの、例えば突発雑音等に写像が反応し
やすい場合に有効である。通常は、始めに説明した写像
値Var(t)がしきい値dよりも大きいか否かだけの判別の
アルゴリズムでも十分である。この場合、しきい値dを
0.5よりやや高い値としてもよい。
【0060】このようにして検出された語頭フレームに
基づいて特徴パラメータが次の認識処理部11に送られ
る。尚、特徴パラメータの送付に際しては検出された語
頭直後から送られるのでなく、検出された語頭より少し
前に遡った時点から送られる。このため、音声区間検出
処理部25には特徴パラメータ系列を一時的に一定フレ
ーム分だけ貯えるバッファを用意しておく必要がある。
基づいて特徴パラメータが次の認識処理部11に送られ
る。尚、特徴パラメータの送付に際しては検出された語
頭直後から送られるのでなく、検出された語頭より少し
前に遡った時点から送られる。このため、音声区間検出
処理部25には特徴パラメータ系列を一時的に一定フレ
ーム分だけ貯えるバッファを用意しておく必要がある。
【0061】この場合の音声認識装置14の全体的な構
成、動作は、図4を参照しながら上述した説明と同様で
ある。
成、動作は、図4を参照しながら上述した説明と同様で
ある。
【0062】すなわち、マイクロホ21から入力された
音声は、アンプ22によって増幅され、A/D変換器2
3でアナログ信号からディジタル信号に変換された後、
音響分析部24に入力される。音響分析部24では、特
徴パラメータ及び動的特徴パラメータをフレーム毎に出
力する。尚、この音響分析処理は、線形予測分析、ケプ
ストラム分析などを用いても構わない。このようにして
求めた特徴パラメータ系列は、上述した音声区間検出処
理部25に送られる。音声区間検出処理部25ではその
特徴パラメ-タ数のフレーム分を入力して上記特定区間
の入力音声が語頭か無音かを検出する。その後,語頭と
判定された特徴パラメータは認識処理部11に送られそ
の結果が結果出力部12を介して出力端子13から導出
される。
音声は、アンプ22によって増幅され、A/D変換器2
3でアナログ信号からディジタル信号に変換された後、
音響分析部24に入力される。音響分析部24では、特
徴パラメータ及び動的特徴パラメータをフレーム毎に出
力する。尚、この音響分析処理は、線形予測分析、ケプ
ストラム分析などを用いても構わない。このようにして
求めた特徴パラメータ系列は、上述した音声区間検出処
理部25に送られる。音声区間検出処理部25ではその
特徴パラメ-タ数のフレーム分を入力して上記特定区間
の入力音声が語頭か無音かを検出する。その後,語頭と
判定された特徴パラメータは認識処理部11に送られそ
の結果が結果出力部12を介して出力端子13から導出
される。
【0063】以上より、この第2の実施の形態となる音
声区間検出装置20は、入力された音声の特徴パラメー
タ及び動的特徴パラメータの特定の区間を入力する入力
部26と、該特定の区間が該入力音声の始端か又は無音
かを写像処理により判別する判別部27と、該判別結果
に対応した値を出力する出力部28を備えており、該出
力結果に基づいて所定のアルゴリズムにより該入力音声
の始端を検出するので、写像の持つ識別能力により雑音
環境下でも高い精度の語頭の検出ができる。特に、この
第2の実施の形態では、特徴パラメータ系列として特徴
パラメータと動的特徴パラメータを用いているので、よ
り一層雑音環境化での語頭検出精度を向上させる事がで
きる。なぜならば、非定常騒音下においても動的特徴パ
ラメータを導出する区間において雑音のスペクトル量が
ほぼ同一の形状をしているときにはその区間に語頭が含
まれているならば変化が抽出されるがその区間が雑音の
みならば変化は抽出されない。つまり語頭のような無音
区間から音声が立ち上がってくるという変化のあるとこ
ろでは動的特徴パラメータは敏感に反応し雑音区間では
反応しないという特性をもっているからである。
声区間検出装置20は、入力された音声の特徴パラメー
タ及び動的特徴パラメータの特定の区間を入力する入力
部26と、該特定の区間が該入力音声の始端か又は無音
かを写像処理により判別する判別部27と、該判別結果
に対応した値を出力する出力部28を備えており、該出
力結果に基づいて所定のアルゴリズムにより該入力音声
の始端を検出するので、写像の持つ識別能力により雑音
環境下でも高い精度の語頭の検出ができる。特に、この
第2の実施の形態では、特徴パラメータ系列として特徴
パラメータと動的特徴パラメータを用いているので、よ
り一層雑音環境化での語頭検出精度を向上させる事がで
きる。なぜならば、非定常騒音下においても動的特徴パ
ラメータを導出する区間において雑音のスペクトル量が
ほぼ同一の形状をしているときにはその区間に語頭が含
まれているならば変化が抽出されるがその区間が雑音の
みならば変化は抽出されない。つまり語頭のような無音
区間から音声が立ち上がってくるという変化のあるとこ
ろでは動的特徴パラメータは敏感に反応し雑音区間では
反応しないという特性をもっているからである。
【0064】なお、上記第1及び第2の実施の形態で
は、多項式写像として2次の多項式を採用しているが更
に高次の多項式を利用することより、高度なパターン識
別が可能となる。
は、多項式写像として2次の多項式を採用しているが更
に高次の多項式を利用することより、高度なパターン識
別が可能となる。
【0065】
【発明の効果】本発明に係る音声区間検出装置は、入力
された音声の特徴パラメータ系列の特定の区間を入力す
る入力手段と、該特定の区間が該入力音声の始端か又は
無音かを写像処理により判別する判別手段と、該判別結
果に対応した値を出力する出力手段を備えており、該出
力結果に基づいて所定のアルゴリズムにより該入力音声
の始端を検出するので、写像の持つ識別能力により雑音
環境下でも高い精度の語頭の検出ができる。
された音声の特徴パラメータ系列の特定の区間を入力す
る入力手段と、該特定の区間が該入力音声の始端か又は
無音かを写像処理により判別する判別手段と、該判別結
果に対応した値を出力する出力手段を備えており、該出
力結果に基づいて所定のアルゴリズムにより該入力音声
の始端を検出するので、写像の持つ識別能力により雑音
環境下でも高い精度の語頭の検出ができる。
【0066】このとき、入力手段は、入力された音声の
特徴パラメータ系列及び当該特徴パラメータ系列から特
定の方法により抽出された動的特徴パラメータを入力し
てもよく、より一層雑音環境化での語頭検出精度を向上
させる事ができる。
特徴パラメータ系列及び当該特徴パラメータ系列から特
定の方法により抽出された動的特徴パラメータを入力し
てもよく、より一層雑音環境化での語頭検出精度を向上
させる事ができる。
【0067】また、本発明に係る音声認識装置は、上記
音声区間検出装置を用いるので、認識処理を向上させる
ことができる。
音声区間検出装置を用いるので、認識処理を向上させる
ことができる。
【図1】本発明に係る音声区間検出装置の第1の実施の
形態の概略構成を示すブロック図である。
形態の概略構成を示すブロック図である。
【図2】上記第1の実施の形態の音声区間検出装置に用
いられる音響分析部の具体的な構成を示すブロック図で
ある。
いられる音響分析部の具体的な構成を示すブロック図で
ある。
【図3】上記第1の実施の形態の音声区間検出装置に用
いられる音声区間検出処理部の機能を説明するための図
である。
いられる音声区間検出処理部の機能を説明するための図
である。
【図4】上記第1の実施の形態を用いた音声認識装置の
概略構成を示すブロック図である。
概略構成を示すブロック図である。
【図5】上記音声認識装置の音声区間検出処理部の動作
を説明するためのフローチャートである。
を説明するためのフローチャートである。
【図6】本発明に係る音声区間検出装置の第2の実施の
形態の概略構成を示すブロック図である。
形態の概略構成を示すブロック図である。
【図7】上記第2の実施の形態の音声区間検出装置に用
いられる音声区間検出処理部の機能を説明するための図
である。
いられる音声区間検出処理部の機能を説明するための図
である。
1 音声区間検出装置 5 音響分析部 6 音声区間検出処理部 7 入力部 8 判別部 9 出力部 11 認識処理部 12 結果出力部 14 音声認識装置 20 音声区間検出装置 24 音響分析部 24a 特徴パラメータ抽出部 24b 動的特徴パラメータ抽出部 25 音声区間検出処理部 26 入力部 26a 特徴パラメータ 26b 動的特徴パラメータ 27 判別部 28 出力部
Claims (4)
- 【請求項1】 音声を音響分析手段により分析して抽出
した特徴パラメータに応じて音声の語頭を検出する音声
区間検出装置であって、 上記音声の特徴パラメータの特定区間を入力する入力手
段と、 上記特徴パラメータの特定区間が上記音声の始端か又は
無音かを写像処理により判別する判別手段と、 上記判別の結果に対応した値を出力する出力手段とを備
えることを特徴とする音声区間検出装置。 - 【請求項2】 上記音響分析手段は時間変化をあらわす
動的特徴パラメータも抽出して上記入力手段に供給する
ことを特徴とする請求項1記載の音声区間検出装置。 - 【請求項3】 音声を音響分析して特徴パラメータを抽
出する音響分析手段と、 上記音声の特徴パラメータの特定の区間を入力する入力
手段と、 上記特徴パラメータの特定区間が上記音声の始端か又は
無音かを写像処理により判別する判別手段と、 上記判別の結果に対応した値を出力する出力手段と、 上記出力値に応じた音声区間を認識処理する認識処理手
段とを備えることを特徴とする音声認識装置。 - 【請求項4】 上記音響分析手段は時間変化をあらわす
動的特徴パラメータも抽出して上記入力手段に供給する
ことを特徴とする請求項3記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7282234A JPH09127971A (ja) | 1995-10-30 | 1995-10-30 | 音声区間検出装置及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7282234A JPH09127971A (ja) | 1995-10-30 | 1995-10-30 | 音声区間検出装置及び音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09127971A true JPH09127971A (ja) | 1997-05-16 |
Family
ID=17649809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7282234A Pending JPH09127971A (ja) | 1995-10-30 | 1995-10-30 | 音声区間検出装置及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH09127971A (ja) |
-
1995
- 1995-10-30 JP JP7282234A patent/JPH09127971A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8428945B2 (en) | Acoustic signal classification system | |
KR950013551B1 (ko) | 잡음신호예측장치 | |
EP0077194B1 (en) | Speech recognition system | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JPH0990974A (ja) | 信号処理方法 | |
JPH0968994A (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
JPS62231997A (ja) | 音声認識システム及びその方法 | |
US6823304B2 (en) | Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant | |
JP2002366192A (ja) | 音声認識方法及び音声認識装置 | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
KR100391123B1 (ko) | 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 | |
JPH0229232B2 (ja) | ||
JP3493849B2 (ja) | 音声認識装置 | |
JP2003044078A (ja) | 発声速度正規化分析を用いた音声認識装置 | |
EP1524650A1 (en) | Confidence measure in a speech recognition system | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach | |
KR100526110B1 (ko) | 화자인식시스템의 화자 특징벡터 생성방법 및 시스템 | |
JPH09127971A (ja) | 音声区間検出装置及び音声認識装置 | |
JP3615088B2 (ja) | 音声認識方法及び装置 | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
JP2006010739A (ja) | 音声認識装置 | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
JPH05173592A (ja) | 音声/非音声判別方法および判別装置 | |
JP3251480B2 (ja) | 音声認識方法 | |
JP2001083978A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20030819 |