JP2969862B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2969862B2
JP2969862B2 JP2212831A JP21283190A JP2969862B2 JP 2969862 B2 JP2969862 B2 JP 2969862B2 JP 2212831 A JP2212831 A JP 2212831A JP 21283190 A JP21283190 A JP 21283190A JP 2969862 B2 JP2969862 B2 JP 2969862B2
Authority
JP
Japan
Prior art keywords
parameter
unit
formant frequency
recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2212831A
Other languages
English (en)
Other versions
JPH03206499A (ja
Inventor
由実 滝沢
正宏 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to DE1990633000 priority Critical patent/DE69033000T2/de
Priority to EP19900118858 priority patent/EP0421341B1/en
Publication of JPH03206499A publication Critical patent/JPH03206499A/ja
Priority to US07/983,246 priority patent/US5361324A/en
Application granted granted Critical
Publication of JP2969862B2 publication Critical patent/JP2969862B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声認識装置に関するものである。
従来の技術 近年、音声認識技術の発達と共に、音声認識装置が様
々の分野で実用化されようとしており、実用化するため
には、認識装置を実用する上での様々の問題点を解決す
る必要がある。
実用下では、装置の使用状況が様々に変化し、この変
化によって発声が変動する(例えば、周囲騒音が大きく
なると大声で発声するために発声が変動する。長時間装
置を使用していると発声者が疲労してくるために発声が
変動する。発声者が代わると発声が変動する。など)。
そのために、装置が標準音声を学習した時と使用する時
との状況が異なると、標準音声が上記変動を吸収でき
ず、誤認識してしまうという点が大きな問題点の1つで
ある。
上記問題点を解決するために、あらかじめ予測できる
全ての変動パターンを装置に学習させておく方法がとら
れているが、全ての発声変動を学習させるためには、学
習時間、装置の容量、使用者の手間が膨大となり実用的
ではない。
そこで、発声変動を使用する度に計算し、音声の特徴
パラメータを分析する際に、変動に対応して分析条件を
変化させる方法が近年提案されている。この方法によ
り、学習時間、装置の容量、使用者の手間が少なく、し
かも発声の変動を吸収することができるようになる。
以下,図面を参照しながら、上述したような従来の音
声認識装置について説明を行う。ここでは、標準音声を
登録することで上記学習を行う登録型音声認識装置にお
いて、発声が標準音声登録時と認識時で変化する1つの
例として、環境騒音の変化により発声状態が変動する場
合を説明する。
第5図は、従来の単語音声認識装置のブロック図であ
る。1は信号入力端子、20はパワー測定部、21は分析
(2)部、22は母音判定部、23は分析(3)部、8は照
合部、9は認識結果出力端子、10は標準音声保管用バッ
ファ、24、25、26はスイッチである。以上のように構成
された音声認識装置について以下その動作について説明
する。
まず標準音声登録時には、音声入力直前の環境騒音が
信号入力端子1より入力され、入力パワー測定部20で環
境騒音のパワーが算出され、パワーが一定閾値P1以上の
場合は、周囲状況が登録時にふさわしくないとみなし、
登録を中断する。
環境騒音のパワーが一定閾値P1以下の場合には、信号
声入力端子1より入力された標準音声用信号は分析
(2)部21に入力され、特徴パラメータが算出される。
この際に分析(2)部では、まず入力信号を F1(z)=1−0.9375×Z−1 …式(2) で表されるフィルタF1に通し、周波数の高域成分を強調
した後分析を行う。分析方法としてたとえばLPCケプス
トラム法を用いれば所定の個数のLPCケプストラム係数
が特徴パラメータとして算出される。そしてパワーが所
定の音声区間検出閾値以上の場合、相当する特徴パラメ
ータを標準音声とみなしバッファ10に保管する。
標準音声用信号が入力されてからの上記の処理を認識
すべき全単語について行い、登録を終了する。
次に認識時には、まず登録時と同様に環境騒音のパワ
ーが測定された後、信号入力端子1より音声信号が入力
される。
環境騒音パワーが一定閾値P1以下の場合には、登録時
と同様に分析(2)部21で特徴パラメータが算出され、
パラメータは照合部8に入力される。照合部8で標準音
声と入力音声との照合を行い、最短距離を示す単語を認
識結果として認識結果出力端子9より出力する。
環境騒音パワーが一定閾値P1以上の場合には、パワー
測定部2でフレームごとの信号のパワーが算出され、騒
音パワーと信号パワーは母音判定部22に入力される。母
音判定部22では、次の2つの条件で母音判定を行う。
[1]信号レベルは雑音レベルに一定値Cを加えたレベ
ル以上である。
[2]上記条件[1]を満たすフレームが5フレーム以
上継続している。
上記[1][2]の条件を満足するフレームを母音部
と判断し、母音部の場合は入力信号を分析(3)部23
に、母音部以外の場合には分析(2)部21に入力する。
母音部以外のフレームに対しては、登録時と同様、上
記〔1〕式で表されるフィルタで高域強調を行い特徴パ
ラメータを算出する。母音部と判定されたフレームに対
しては、分析(3)部23で、下記式(3)で表されるフ
ィルタを用いて高域強調を行う。
F2(z)=1−0.6375×Z−1 …式(3) 上記フィルタF2はフィルタF1に比べて高域強調の度合
が少なく、傾きの緩やかなものである。環境騒音が大き
くなると話者の発声状態が変化し、音声の高域周波数成
分が強くなる。そのため上記高域強調フィルタの傾き
は、雑音の小さい場合に比べて緩やかにする必要があ
る。フィルタ通過後、登録時同様特徴パラメータを算出
する。
上記特徴パラメータは照合部8に入力され、環境騒音
パワーが一定閾値P1以上の場合と同様に認識結果が出力
端子9より出力される。
なおスイッチ24は、環境騒音パワーが一定閾値P1以上
の場合には母音判定部22に、一定閾値P1以下の場合には
分析(2)部21に信号を入力するように動作し、音声入
力時以外の時は切断されている。スイッチ26は母音の場
合により分析(3)部23に、母音以外の場合には分析
(2)部21に信号を入力するように動作する。また、ス
イッチ25は登録時には標準音声保管バッファ10に、認識
時には照合部8にパラメータを入力するように動作す
る。
発明が解決しようとする課題 しかしながら、上記のような構成では、まず発声変動
によるスペクトルの傾きの変動を補正した後に、認識に
使用されるパラメータを分析しているために、分析処理
を行うことで補正内容がパラメータに忠実に反映され
ず、補正効率が悪くなり、場合によっては上記補正が認
識率に全く寄与しないことがあるという課題を有してい
た。
また、上記のような構成では、スペクトルの傾きの変
動は吸収できるが、発声変動による音韻特有の共振周波
数(以後ホルマント周波数と呼ぶ)の変動の補正はでき
ず、認識率の改善率が悪いという課題を有していた。
本発明は、雑音下で発声した場合の発声変動を認識パ
ラメータ上で補正することにより、補正効率を高くし、
補正結果が忠実に認識率の向上につながる音声認識装置
を提供することを目的とする。
また、従来補正されていなかった発声変動によるホル
マント周波数の変動を、直接認識パラメータ上で効率よ
く補正し、従来にない認識率向上を得ることを目的とす
る。
課題を解決するための手段 第1の発明は、入力信号の単位時間毎の特徴パラメー
タを分析する分析部と、特徴パラメータを補正するパラ
メータ補正部と、標準信号と入力信号とを照合し認識結
果を出力する照合部を具備し、前記分析部で特徴パラメ
ータを分析し、その分析されたスペクトルを直交展開し
たものを認識パラメータとして算出し、前記パラメータ
補正部で装置使用時の環境騒音レベルの違いによる発声
変動に対応して前記認識パラメータを補正し、前記照合
部で前記補正されたパラメータを認識パラメータとして
標準音声と入力音声との照合を行うよう音声認識装置を
構成するものである。
第2の発明は、入力信号の単位時間毎の特徴パラメー
タを分析する分析部と、共振周波数(以後ホルマント周
波数と呼ぶ)を検出するホルマント周波数検出部と、パ
ラメータ補正値を検出する補正値算出部と、前記特徴パ
ラメータを補正するパラメータ補正部と、標準信号と入
力信号とを照合し認識結果を出力する照合部を具備し、
前記分析部でスペクトル分析を行い、その分析されたス
ペクトルを直交展開したものを認識パラメータとして算
出し、前記ホルマント周波数検出部で入力信号のホルマ
ント周波数を検出し、前記補正値算出部で前記ホルマン
ト周波数を利用してパラメータ補正値を算出し、前記パ
ラメータ補正部で入力音声の変動に対応して前記パラメ
ータ補正値にてパラメータを補正し、その補正されたパ
ラメータを認識パラメータとして前記照合部で標準音声
と入力音声との照合を行うよう音声認識装置を構成する
ものである。
作用 上記の構成によれば、補正内容が認識パラメータに忠
実に反映され、補正効率が向上する。
また発声変動によるホルマント周波数の変動の補正が
可能となり、認識率を向上させることができる。
実施例 以下,本発明の実施例について図を参照しながら説明
する。
第1図は、請求項1〜7に記載の発明の実施例を含む
単語音声認識装置のブロック図である。
1は信号入力端子,2はパワー測定部、3は分析(1)
部、4は母音判定部、5はホルマント周波数検出部、6
は補正値算出部、7はパラメータ補正部、8は照合部、
9は認識結果出力端子、10は標準音声保管バッファ、1
1、12、13、14はスイッチであり、前記従来例と同じも
のは,同一の番号を付与している。
以上のように構成された音声認識装置について以下そ
の動作について説明する。
まず標準音声登録時には、音声入力直前の環境騒音が
信号入力端子1より入力され、パワー測定部2で環境騒
音のパワーが算出され、パワーが一定閾値P1以上の場合
は、周囲状況が登録時にふさわしくないとみなし、登録
を中断する。
環境騒音のパワーが一定閾値P1以下の場合には、信号
声入力端子1より入力された標準音声用信号はパワー測
定部2に入力されフレーム毎の信号のパワーが算出され
る。一方、入力音声は分析(1)部3にも入力され、特
徴パラメータが算出される。分析方法は従来例と同様で
あり、認識パラメータとして所定の次数のLPCケプスト
ラム係数が算出される。そしてパワーが所定の音声区間
検出閾値以上のフレームにおける特徴パラメータが標準
音声保管バッファ10に保管される。
標準音声用信号が入力されてからの上記の処理を認識
すべき全単語について行い、登録を終了する。
次に認識時には、まず登録時と同様に環境騒音のパワ
ーが測定された後、信号入力端子1より認識されるべき
信号が入力され、登録時同様、分析(1)部3にてLPC
ケプストラム係数が算出される。
環境騒音パワーが一定閾値P1以下の場合には、パラメ
ータは照合部8に入力される。照合部8で照合を行い、
最短距離を示す単語を認識結果として認識結果出力端子
9より出力する。
環境騒音パワーが一定閾値P1以上の場合には、パワー
測定部2でフレームごとの信号のパワーが算出され、雑
音パワーと信号パワーは母音判定部4に入力される。母
音判定部4では、次の2つの条件で母音判定を行う。
[1]信号レベルは雑音レベルに一定値Cを加えたレベ
ル以上である。
[2]上記条件[1]を満たすフレームが5フレーム以
上継続している。
上記[1][2]の条件を満足するフレームを母音部
と判断し、母音部の場合は入力信号をホルマント周波数
検出部5に、母音部以外の場合には照合部8に入力す
る。
母音部の場合には、パラメータを補正するために、ま
ずホルマント周波数検出部5で信号のホルマント周波数
を検出する。ホルマント周波数が次のように求める。本
実施例の認識パラメータであるLPCケプストラムを算出
する過程で、LPCパラメータa(i)が求められてお
り、このパラメータを用いて音声のスペクトルは 但し S:音声スペクトル N:分析次数 で表される。このA(z)の複素根の実数部Re(z)と
虚数部Im(z)から、ホルマント周波数は f=(fs/2π)tan-1[Im(z)/Re(z)] 但し f :ホルマント周波数 fs:サンプリング周波数 となり、LPCパラメータから、ホルマント周波数を求め
ることができる。
次に、補正値算出部6で、上記ホルマント周波数とLP
Cケプストラムをホルマント周波数で微分した値との積
値を用いてLPCケプストラムの補正値を算出する。算出
式は特許請求の範囲第6項の式(1)の通りである。た
とえば、式(1)において Δfi(第iホルマント周波数の変動量)=120Hz bi(第iホルマントのバンド幅)=150Hz fs(サンプリング周波数)=10Hz とし、発声変動により変動が大きかった周波数範囲(30
0Hz〜1500Hz)に含まれるホルマントに対してのみ補正
を行うと式(1)は式(4)となる。
但し(300Hz<fi<1500Hz) 式(4)にて算出された補正値はパラメータ補正部7
に入力され、下記式(5)のようにLPCケプストラムCn
が補正される。補正されたパラメータは照合部8で環境
騒音パワーが一定閾値P1以下の場合と同様に照合され、
認識結果出力端子9より認識結果が出力される。
Cn=Cn+H(fi,n) …式(5) 以上のように、本実施例によれば、分析部で認識パラ
メータとしてケプストラム係数を算出し、ホルマント周
波数検出部で入力信号のホルマント周波数を検出し、補
正値算出部で式(1)に従って補正値を算出し、パラメ
ータ補正部で入力音声のホルマント周波数変動に対応し
て、上記補正値を認識パラメータに加算してパラメータ
を補正することで、補正内容が認識パラメータに忠実に
反映され、補正効率が向上する。また発声変動によるホ
ルマント周波数の変動の補正が可能となり、認識率を向
上させることができる。
なお、スイッチ11は音声入力直前の環境騒音パワーを
測定する場合にはパワー測定部2に、おんせいを入力す
る場合には分析(1)部3に信号を入力するように動作
する。スイッチ12は登録時には標準音声保管バッファ10
に、認識時には照合部8もしくは母音判定部4に認識パ
ラメータを入力するように動作する。また、スイッチ13
は入力音声のパワーが閾値P1以下の場合には照合部8
に、閾値P1以上の場合は母音判定部4にパラメータを入
力するように動作する。スイッチ14は母音の場合にはホ
ルマント周波数検出部5に、母音以外の場合には照合部
8に信号を入力するように動作する。
なお本実施例では、騒音環境にて発声した場合の発声
変動について説明したが、それ以外の発声変動において
も、ホルマント周波数が変動するような発声変動の補正
には、本方法は有効である。但し、式(1)を用いた補
正は限られたホルマント周波数のみがある規則をもって
変動する場合に最も補正効果が大きいが、騒音環境にて
発声した場合は、約300Hz〜約1500Hzにあるホルマント
周波数のみ上昇する事実があり、上記の補正効果が最も
大きい条件に当てはまる。そのため、本補正は特に騒音
環境においての発声変動に有効である。
なお、請求項3に記載の発明のように、分析(1)部
3で認識パラメータとしてケプストラム係数を算出し、
パラメータ補正部で入力音声の変動に対応してパラメー
タ補正値にてケプストラム係数を補正し、その補正され
たケプストラム係数にて照合部で標準音声と入力音声と
の照合を行うことにより、特に高い補正効果を得ること
ができる。
また、請求項4に記載の発明のように、ホルマント周
波数の変動を、ホルマント周波数の変動量と認識パラメ
ータの変換核もしくは変換核と同周期かつ同位相にて同
符号の周期関数とを用いて補正することで、従来補正で
きなかったホルマント周波数の変動を補正し、認識率を
向上させることができる。
更に請求項5に記載の発明のように、ホルマント周波
数変動を、ホルマント周波数の変動量と認識パラメータ
のホルマント周波数に対する傾きとを用いて補正するこ
とで、従来補正されなかったホルマント周波数の変動を
補正し、認識率を向上させることができる。
更に請求項6に記載の発明のように、ホルマント周波
数変動を、ホルマント周波数の変動量と認識パラメータ
をホルマント周波数で微分した値とを用いて補正するこ
とで、従来補正されなかったホルマント周波数の変動を
補正し、認識率を向上させることができる。
更に請求項7に記載の発明のように、ホルマント周波
数変動を、ホルマント周波数の変動量と認識パラメータ
であるケプストラム係数をホルマント周波数で微分した
値との積を補正量とし、左記補正量をケプストラム係数
に加算または減算することで、従来補正されなかったホ
ルマント周波数の変動を補正し認識率を向上させること
ができる。
なお、本実施例では騒音環境にて発声した場合の発声
変動について説明したが、それ以外の発声変動において
も有効である。
次に,本発明の他の実施例について図を参照しながら
説明する。
第2図は請求項8に記載の発明の一実施例における単
語音声認識装置のブロック図である。1は信号入力端
子,15はパワー測定部、16は変動量推定部、3は分析
(1)部、4は母音判定部、5はホルマント周波数検出
部、17は補正値算出部、7はパラメータ補正部、8は照
合部、9は認識結果出力端子、10は標準音声保管バッフ
ァ、11、12、13、14はスイッチであり、前記従来例と同
じものは,同一の番号を付与している。
以上のように構成された音声認識装置について以下そ
の動作について説明する。
まず標準音声登録時には、音声入力直前の環境騒音が
信号入力端子1より入力され、パワー測定部15で環境騒
音のパワーが算出され、パワーが一定閾値P1以上の場合
は、周囲状況が登録時にふさわしくないとみなし、登録
を中断する。
環境騒音のパワーが一定閾値P1以下の場合には、信号
声入力端子1より入力された標準音声用音声信号は分析
(1)部3に入力され、特徴パラメータが算出される。
分析方法は従来例と同様であり、認識パラメータとして
所定の次数のLPCケプストラム係数が算出される。そし
てパワーが所定の音声区間検出閾値以上のフレームにお
ける特徴パラメータが標準音声保管バッファ10に保管さ
れる。
標準音声用信号が入力されてからの上記の処理を認識
すべき全単語について行い、登録を終了する。
次に認識時には、まず登録時と同様に環境騒音のパワ
ーがパワー測定部2にて測定された後、信号入力端子1
より認識されるべき信号が入力され、分析(1)部3で
登録時と同様に認識パラメータが算出される。
環境騒音パワーが一定閾値P1以下の場合には、認識パ
ラメータは照合部8に入力され、照合を行った後、最短
距離を示す単語を認識結果として認識結果出力端子9よ
り出力する。
環境騒音パワーが一定閾値P1以上の場合には、騒音パ
ワー値は変動量推定部16に入力される。変動量推定部16
では、環境騒音のパワー値Pnより次式を用いて騒音下で
の発声変形によるホルマント変動量Δfを推定する。こ
の場合、パワーPn、P1の単位はdB、Δfの単位はHzであ
る。
Δf=10×(Pn−P1) …式(6) 式(6)は、環境騒音が小さい場合は、発声変動が少
ないためホルマント周波数の変動量が小さく、環境騒音
が大きい場合は、発声変動が大きいためホルマント周波
数の変動量も大きいという事実を反映しているものであ
る。次に、音声が入力され、上記の環境騒音パワーと分
析(1)部でパラメータと共に算出された音声信号パワ
ーとは母音判定部4に入力される。母音判定部4では、
次の2つの条件で母音判定を行う。
[1]信号レベルは雑音レベルに一定値Cを加えたレベ
ル以上である。
[2]上記条件[1]を満たすフレームが5フレーム以
上継続している。
上記[1][2]の条件を満足するフレームを母音部
と判断し、母音部の場合は入力信号をホルマント周波数
検出部5に、母音部以外の場合には照合部8に入力す
る。
母音部の場合には、パラメータを補正するために、ま
ずホルマント周波数検出部5で音声信号のホルマント周
波数を検出する。ホルマント周波数は次のように求め
る。本実施例の認識パラメータであるLPCケプストラム
を算出する過程で、LPCパラメータa(i)が求められ
ており、このパラメータを用いて音声のスペクトルは 但し S:音声のスペクトル N:分析次数 で表される。このA(z)の複素根の実数部Re(z)と
虚数部Im(z)から、ホルマント周波数は f=(fs/2π)tan-1[Im(z)/Re(z)] 但し f :ホルマント周波数 fs:サンプリング周波数 となり、LPCパラメータから、ホルマント周波数を求め
ることができる。
次に、補正値算出部6で、上記ホルマント周波数とLP
Cケプストラムをホルマント周波数で微分した値との積
値を用いてLPCケプストラムの補正値を算出する。算出
式は特許請求の範囲第6項の式(1)の通りである。こ
の際に、式(1)のホルマント周波数の変動量は上記式
(6)で求めた値を用いる。他の変数は式(1)におい
て bi(第iホルマントのバンド幅)=150Hz fs(サンプリング周波数)=10Hz とし、発声変動により変動が大きかった周波数範囲(30
0Hz〜1500Hz)に含まれるホルマントに対してのみ補正
を行うと式(1)は式(4)となる。
但し(300Hz<fi<1500Hz) 式(4)にて算出された補正値はパラメータ補正部7
に入力され、下記式(5)のようにLPCケプストラムCn
が補正される。補正されたパラメータは照合部8で環境
騒音パワーが一定閾値P1以下の場合と同様に照合され、
認識結果出力端子9より認識結果が出力される。
Cn=Cn+H(fi,n) …式(5) 以上のように、本実施例によれば、パワー測定部で環
境騒音パワーを測定し、変動量推定部で発声変動による
ホルマント周波数の変動量を環境騒音パワーを用いて式
(6)のように推定し、分析部で認識パラメータとして
ケプストラム係数を算出し、ホルマント周波数検出部で
入力信号のホルマント周波数を検出し、補正値算出部で
上記で推定されたホルマント周波数の変動量を用いて式
(4)にて補正値を算出し、パラメータ補正部で入力音
声の変動に対応して上記補正値を認識パラメータに加算
してパラメータを補正することで、騒音下で発声したこ
とによるホルマント周波数の変動の補正が可能となり、
認識率を向上させることができる。また、認識パラメー
タ自身を補正することで、補正内容が認識パラメータに
忠実に反映され、補正効率が向上する。また、ホルマン
ト周波数の変動量を騒音パワーより推定し、環境騒音の
大きさに適した補正値を用いることで、より補正効果を
向上させることができる。
なお、スイッチ11は音声入力直前の環境騒音パワーを
測定する場合はパワー測定部2に、音声入力の際には分
析(1)部に信号を入力するように動作する。またスイ
ッチ12は、登録時には標準音声保管バッファ10に、認識
時には照合部8または母音判定部4にパラメータを入力
するように動作する。スイッチ13は環境騒音パワーが一
定閾値P1以上の場合には母音判定部4に、一定閾値P1以
下の場合には照合部8にパラメータを入力するように動
作する。スイッチ14は母音の場合にはホルマント周波数
検出部5に、母音以外の場合には照合部8に信号を入力
するように動作する。
次に、請求項9に記載の発明の実施例について図を参
照しながら説明する。
第3図は同実施例における単語音声認識装置のブロッ
ク図である。
1は信号入力端子,2はパワー測定部、18はLPF部,3は
分析(1)部、4は母音判定部、5はホルマント周波数
検出部、6は補正値算出部、7はパラメータ補正部、8
は照合部、9は認識結果出力端子、10は標準音声保管バ
ッファ、19、12、13、14はスイッチであり、前記従来例
と同じものは、同一の番号を付与している。
以上のように構成された音声認識装置について以下そ
の動作について説明する。
まず標準音声登録時には、音声入力直前の環境騒音が
信号入力端子1より入力され、入力信号レベル測定部2
で環境騒音のパワーが算出され、パワーが一定閾値P1以
上の場合は、周囲状況が登録時にふさわしくないとみな
し、登録を中断する。
環境騒音のパワーが一定閾値P1以下の場合には、信号
声入力端子1より入力された標準音声用音声信号はLPF
部18に入力され、カットオフ周波数が2.5KHzLPFを通過
した後分析(1)部3に入力され、分析(1)部3にて
認識パラメータとして所定の個数のLPCケプストラム係
数が算出される。分析方法は上記実施例と同様である。
そしてパワーが所定の音声区間検出閾値以上の特徴パラ
メータが標準音声保管バッファ10に保管される。
標準音声用信号が入力されてからの上記の処理を認識
すべき全単語について行い、登録を終了する。
次に認識時には、まず音声入力直前に登録時と同様に
環境騒音のパワーがパワー測定部2で測定された後、信
号入力端子1より認識されるべき信号が入力される。入
力信号は登録時と同様にLPF部18を通過した後、分析部
3に入力され、分析部にてLPCケプストラム係数がパラ
メータとして算出される。
環境騒音パワーが一定閾値P1以下の場合には、上記パ
ラメータは照合部8に入力され、照合部8で照合を行
い、最短距離を示す単語を認識結果として認識結果出力
端子9より出力する。
環境騒音パワーが一定閾値P1以上の場合には、騒音パ
ワーと分析の際にパラメータと共に算出された音声信号
パワーは母音判定部4に入力される。母音判定部4で
は、次の2つの条件で母音判定を行う。
[1]信号レベルは雑音レベルに一定値Cを加えたレベ
ル以上である。
[2]上記条件[1]を満たすフレームが5フレーム以
上継続している。
上記[1][2]の条件を満足するフレームを母音部
と判断し、母音部の場合は入力信号のパラメータをホル
マント周波数検出部5に、母音部以外の場合には照合部
8に入力する。
母音部の場合には、パラメータを補正するために、ま
ずホルマント周波数検出部5で信号のホルマント周波数
を検出する。ホルマント周波数は次のように求める。本
実施例の認識パラメータであるLPCケプストラムを算出
する過程で、LPCパラメータa(i)が求められてお
り、このパラメータを用いて音声のスペクトルは 但し S:音声のスペクトル M:分析次数 で表される。このA(z)の複素根の実数部Re(z)と
虚数部Im(z)から、ホルマント周波数は F=(N/2π)tan-1[Im(z)/Re(z)] 但し F:ホルマント周波数 N:サンプリング周波数 となり、LPCパラメータから、ホルマント周波数を求め
ることができる。
次に、補正値算出部6で、上記ホルマント周波数とLP
Cケプストラムをホルマント周波数で微分した値との積
値を用いてLPCケプストラムの補正値を算出する。算出
式は特許請求の範囲の式(1)の通りである。他の変数
は式(1)において Δf3(第iホルマントのホルマント周波数の変動量) =120Hz bi(第iホルマントのバンド幅)=150Hz fs(サンプリング周波数)=10KHz とし、発声変動により変動が大きかった周波数範囲(30
0Hz〜1500Hz)に含まれるホルマントに対してのみ補正
を行うと式(1)は式(4)となる。
但し(300Hz<fi<1500Hz) 式(4)にて算出された補正値はパラメータ補正部7
に入力され、下記式(5)のようにLPCケプストラムCn
が補正される。補正されたパラメータは照合部8で環境
騒音パワーが一定閾値P1以下の場合と同様に照合され、
認識結果出力端子9より認識結果が出力される。
Cn=Cn+H(fi,n) …式(5) 以上のように、本実施例によれば、発声変形によって
スペクトル変形が著しくしかもホルマントパワーが上昇
している高域スペクトルをLPF部で除去し、分析部で線
形予測係数及びケプストラム係数を算出し、ホルマント
周波数検出部で低次ホルマント周波数を検出し、補正値
算出部で式(1)にて補正値を算出し、パラメータ補正
部で入力信号のパターン変動に対応して上記補正値にて
パラメータを補正し、照合部で補正されたパラメータを
認識パラメータして照合を行うことにより、低次ホルマ
ント周波数を確実に検出し、検出されたホルマント周波
数を用いて、発声変形の大きな要因であるホルマント周
波数の変動を入力音声毎に確実に補正することが可能と
なる。
また上記LPFの使用により、発声変形の著しい高域ス
ペクトルを除去するため、発声の違いによる認識パラメ
ータのずれをも吸収できる。すなわち、上記発声変動が
環境騒音によるものである場合、発声変動が高域周波数
のスペクトルに大きく影響を及ぼす事実があり、高域周
波数のパワーを減衰させることは、上記の高域スペクト
ルの変形をも除去することになる。従って、騒音環境に
おける認識率を向上させることができる。
なお、スイッチ19は音声入力直前の環境騒音測定時に
はパワー測定部2に音声入力の際にはLPF部18に信号を
入力するように動作する。スイッチ12は登録時には標準
音声保管バッファ10に、認識時には照合部8または母音
判定部4にパラメータを入力するように動作する。スイ
ッチ13は環境騒音パワーが一定閾値P1以上の場合には母
音判定部4に、一定閾値P1以下の場合には照合部8にパ
ラメータを入力するように動作する。スイッチ13は、ス
イッチ14は母音の場合にはホルマント周波数検出部5
に、母音以外の場合には照合部8に信号を入力するよう
に動作する。
次に、請求項10に記載の発明の一実施例について図を
参照しながら説明する。
第4図は同実施例における単語音声認識装置のブロッ
ク図である。1は信号入力端子,20はパワー測定部、21
は分析(2)部、22は母音判定部、23は分析(3)部、
5はホルマント周波数検出部、6は補正値算出部、7は
パラメータ補正部、8は照合部、9は認識結果出力端
子、10は標準音声保管バッファ、24、25、26はスイッチ
であり、前記従来例と同じものは、同一の番号を付与し
ている。
以上のように構成された音声認識装置について以下そ
の動作について説明する。
まず標準音声登録時には、音声入力直前の環境騒音が
信号入力端子1より入力され、パワー測定部2で環境騒
音のパワーが算出され、パワーが一定閾値P1以上の場合
は、周囲状況が登録時にふさわしくないとみなし、登録
を中断する。
環境騒音のパワーが一定閾値P1以下の場合には、信号
声入力端子1より入力された標準音声用信号は分析
(2)部21に入力され、認識パラメータとしてLPCケプ
ストラム係数が算出される。この際に分析(2)部で
は、通常、まず入力信号を下記式(2)で示されるフィ
ルタに通し、高域スペクトルを強調した後分析を行う。
これは従来例に示したフィルタF1と同様のフィルタであ
る。
F1(z)=1−0.9375×Z−1 …式(2) そしてパワーが所定の音声区間検出閾値以上の場合、
相当する特徴パラメータを標準音声とみなしバッファ10
に保管する。
標準音声用信号が入力されてからの上記の処理を認識
すべき全単語について行い、登録を終了する。
次に認識時には、まず登録時と同様にパワー測定部2
で環境騒音のパワーが測定された後、信号入力端子1よ
り認識されるべき信号が入力される。
環境騒音パワーが一定閾値P1以下の場合には、登録時
と同様に式(2)のF1で表されるフィルタを通過後、分
析(2)部21で特徴パラメータが算出され、パラメータ
は照合部8に入力される。照合部8で標準音声と入力音
声との照合を行い、最短距離を示す単語を認識結果とし
て認識結果出力端子9より出力する。
環境騒音パワーが一定閾値P1以上の場合には、パワー
測定部20で音声信号のパワーがフレームごとに算出さ
れ、先に測定された騒音パワーと音声信号パワーは母音
判定部21に入力される。母音判定部22では、次の2つの
条件で母音判定を行う。
[1]信号レベルは雑音レベルに一定値Cを加えたレベ
ル以上である。
[2]上記条件[1]を満たすフレームが5フレーム以
上継続している。
上記[1][2]の条件を満足するフレームを母音部
と判断し、母音部の場合は入力信号を分析(3)部23
に、母音部以外の場合には分析(2)部21に入力する。
母音部以外のフレームに対しては、標準音声入力時と
同様、上記式(2)で表されるフィルタで高域強調を行
い特徴パラメータを算出する。
母音部と判定されたフレームに対しては、分析(3)
部23で、下記式(3)で示されるフィルタF2を用いて高
域強調を行う。このフィルタは従来例のフィルタF2と同
様のものである。
F2(z)=1−0.6375×Z−1 …式(3) 上記式(3)のフィルタは式(2)のフィルタに比べ
て、高域強調の度合が少なく、傾きの緩やかなものであ
る。環境騒音が大きくなると話者の発声状態が変化し、
音声の高域スペクトル成分が強くなる。そのため上記高
域強調フィルタの傾きは、雑音の小さい場合に比べて緩
やかにする必要がある。フィルタ通過後、登録時同様特
徴パラメータを算出する。
次に、ホルマント周波数検出部5で信号のホルマント
周波数を検出する。ホルマント周波数は次のように求め
る。本実施例の認識パラメータであるLPCケプストラム
を算出する過程で、LPCパラメータa(i)が求められ
ており、このパラメータを用いて音声のスペクトルは 但し S:音声のスペクトル M:分析次数 で表される。このA(z)の複素根の実数部Re(z)と
虚数部Im(z)から、ホルマント周波数は F=(N/2π)tan-1[Im(z)/Re(z)] 但し F:ホルマント周波数 N:サンプリング周波数 となり、LPCパラメータから、ホルマント周波数を求め
ることができる。
次に、補正値算出部6で、上記ホルマント周波数とLP
Cケプストラムをホルマント周波数で微分した値との積
値を用いてLPCケプストラムの補正値を算出する。算出
式は(1)の通りである。他の変数は式(1)において Δf3(第iホルマントのホルマント周波数の変動量) =120Hz bi(第iホルマントのバンド幅)=150Hz fs(サンプリング周波数)=10KHz とし、発声変動により変動が大きかった周波数範囲(30
0Hz〜1500Hz)に含まれるホルマントに対してのみ補正
を行うと式(1)は式(4)となる。
但し(300Hz<fi<1500Hz) 式(4)にて算出された補正値はパラメータ補正部7
に入力され、下記式(5)のようにLPCケプストラムCn
が補正される。補正されたパラメータは照合部8で環境
騒音パワーが一定閾値P1以下の場合と同様に照合され、
認識結果出力端子9より認識結果が出力される。
Cn=Cn+H(fi,n) …式(5) 以上のように、本実施例によれば、S/Nの低い騒音下
で発声された発声変動の大きい音声に対してのみ、分析
(3)部23で高域強調フィルタの1次係数を変化させ高
域強調度合を小さくした後、線形予測係数及びケプスト
ラムパラメータを算出し、ホルマント周波数検出部で低
次ホルマント周波数を検出し、補正値算出部で各パラメ
ータのホルマント周波数と変換核とを用いて補正値を算
出し、パラメータ補正部で入力信号のホルマント変動に
対応して上記補値にてパラメータを補正し、照合部で補
正されたパラメータを認識パラメータして照合を行うこ
とにより、高次ホルマントピークレベルが抑えられ、結
果として低次ホルマント周波数を確実に検出でき、検出
されたホルマント周波数を用いて、発声変形の大きな要
因であるホルマント周波数の変動を入力音声毎に確実に
補正することが可能となる。また高域強調度合を小さく
することで、発声変形により上昇した高域スペクトルパ
ワーを抑えるため、発声の違いによる認識パラメータの
ずれを吸収できる。以上の理由により騒音環境における
認識率を向上させることができる。
なお、スイッチ24は環境騒音パワーが一定閾値P1以上
の場合には母音判定部4に、一定閾値P1以下の場合には
分析(2)部21に信号を入力するように動作する。スイ
ッチ25は、登録時には標準音声保管バッファ10に、認識
時には照合部8にパラメータを入力するように動作す
る。スイッチ26は母音の場合には分析(3)部23に、母
音以外の場合には分析(2)部21に信号を入力するよう
に動作する。
発明の効果 本発明によれば、補正内容が認識パラメータに忠実に
反映され、補正効率が向上する。
また、従来補正できなかった音声の変動によるホルマ
ント周波数の変動の補正が認識パラメータ上で可能とな
り、補正内容が認識パラメータに忠実に反映され、補正
効率を向上させることができる。
【図面の簡単な説明】
第1図〜第4図は、本発明の実施例における音声認識装
置のブロック図、第5図は従来例における音声認識装置
のブロック図である。 1……音声入力端子、2……パワー測定部、3……分析
(1)部、4……母音判定部、5……ホルマント周波数
算出部、6……補正値算出部、7……パラメータ補正
部、8……照合部、9……認識結果出力端子、10……標
準音声保管バッファ、11、12、13、14……スイッチ。
フロントページの続き (56)参考文献 特開 昭60−144800(JP,A) 特開 昭61−259298(JP,A) 特開 平3−208099(JP,A) 特開 平2−42495(JP,A) 特開 昭64−82000(JP,A) 特開 昭62−138900(JP,A) 特開 昭61−296397(JP,A) 実開 平2−24900(JP,U) 特公 平6−34190(JP,B2) 特公 平2−15897(JP,B2) 特公 平2−1319(JP,B2) 実公 平7−27519(JP,Y2) 米国特許5361324(US,A) 欧州特許421341(EP,B1) 電子情報通信学会技術研究報告 Vo l.89,No.387,SP89−105,「耐 騒音音声認識システム」p.55−62 (58)調査した分野(Int.Cl.6,DB名) G10L 3/02 301 JICST科学技術文献ファイル WPI

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】入力信号の単位時間毎の特徴パラメータを
    分析する分析部と、特徴パラメータを補正するパラメー
    タ補正部と、標準信号と入力信号とを照合し認識結果を
    出力する照合部を具備し、前記分析部で特徴パラメータ
    を分析し、その分析されたスペクトルを直交展開したも
    のを認識パラメータとして算出し、前記パラメータ補正
    部で装置使用時の環境騒音レベルの違いによる発声変動
    に対応して前記認識パラメータを補正し、前記照合部で
    前記補正されたパラメータを認識パラメータとして標準
    音声と入力音声との照合を行うことを特徴とする音声認
    識装置。
  2. 【請求項2】入力信号の単位時間毎の特徴パラメータを
    分析する分析部と、共振周波数(以後ホルマント周波数
    と呼ぶ)を検出するホルマント周波数検出部と、パラメ
    ータ補正値を検出する補正値算出部と、前記特徴パラメ
    ータを補正するパラメータ補正部と、標準信号と入力信
    号とを照合し認識結果を出力する照合部を具備し、前記
    分析部でスペクトル分析を行い、その分析されたスペク
    トルを直交展開したものを認識パラメータとして算出
    し、前記ホルマント周波数検出部で入力信号のホルマン
    ト周波数を検出し、前記補正値算出部で前記ホルマント
    周波数を利用してパラメータ補正値を算出し、前記パラ
    メータ補正部で入力音声の変動に対応して前記パラメー
    タ補正値にてパラメータを補正し、その補正されたパラ
    メータを認識パラメータとして前記照合部で標準音声と
    入力音声との照合を行うことを特徴とする音声認識装
    置。
  3. 【請求項3】分析部で認識パラメータとしてケプストラ
    ム係数を算出し、パラメータ補正部で入力音声の変動に
    対応してパラメータ補正値にてケプストラム係数を補正
    し、その補正されたケプストラム係数により照合部で標
    準音声と入力音声との照合を行うことを特徴とする請求
    項2に記載の音声認識装置。
  4. 【請求項4】補正値算出部で音声の変動によるホルマン
    ト周波数の変動量と認識パラメータの変換核もしくは変
    換核と同周期かつ同位相にて同符号の周期関数を用いて
    補正値を算出することを特徴とする請求項2に記載の音
    声認識装置。
  5. 【請求項5】補正値算出部で音声の変動によるホルマン
    ト周波数の変動量と認識パラメータのホルマント周波数
    に対する傾きとを用いて補正値を算出することを特徴と
    する請求項2に記載の音声認識装置。
  6. 【請求項6】補正値算出部で音声の変動によるホルマン
    ト周波数の変動量と認識パラメータをホルマント周波数
    で微分した値とを用いて補正値を算出することを特徴と
    する請求項2に記載の音声認識装置。
  7. 【請求項7】補正値算出部で下記式(1)に従って補正
    値を算出することを特徴とする請求項2に記載の音声認
    識装置。 H(fi,n):ホルマント周波数がfiHzの時の第n次ケプ
    ストラム係数の補正量 Δfi :発声変形の有無によるホルマント周波数の
    ∂Cn/∂fi=(−4π/fs)exp(−nπbi/fs)×sin(2πfin/fs) Cn :第n次ケプストラム係数 bi :第iホルマントのバンド幅 fi :第iホルマント周波数 fs :サンプリング周波数 M/2:ホルマントの個数
  8. 【請求項8】環境騒音のパワーを測定するパワー測定部
    と、パワーの大きさからホルマント周波数の変動量を推
    定する変動量推定部と、入力信号の単位時間毎の特徴パ
    ラメータを分析する分析部と、ホルマント周波数を検出
    するホルマント周波数検出部と、パラメータ補正値を検
    出する補正値算出部と、特徴パラメータを補正するパラ
    メータ補正部と、標準信号と入力信号とを照合し認識結
    果を出力する照合部を具備し、前記パワー測定部で環境
    騒音パワーを測定し、前記変動量推定部で上記で測定さ
    れた騒音パワーを用いて発声変形によるホルマント周波
    数変動量を推定し、前記分析部でスペクトル分析を行
    い、その分析されたスペクトルを直交展開したものを認
    識パラメータとして算出し、前記ホルマント周波数検出
    部で入力信号のホルマント周波数を検出し、前記補正値
    算出部で前記変動量推定部にて推定されたホルマント周
    波数の変動量と上記認識パラメータの変換核もしくは変
    換核と同周期かつ同位相にて同符号の周期関数とを用い
    て補正値を算出し、前記パラメータ補正部で騒音下で発
    声した場合の入力音声の発声変動に対応して上記補正値
    にてパラメータを補正し、その補正されたパラメータを
    認識パラメータして前記照合部で標準音声と入力音声と
    の照合を行うことを特徴とする音声認識装置。
  9. 【請求項9】高域周波数のパワーを減衰させる特定帯域
    パワー減衰部を具備し、その特定帯域パワー減衰部で音
    声の高域周波数パワーを減衰させた後、分析部でスペク
    トル分析を行うことを特徴とする請求項2に記載の音声
    認識装置。
  10. 【請求項10】スペクトルの概形を補正する概形補正部
    を具備し、その概形補正部で標準音声と入力音声とのス
    ペクトルの概形が等しくなるようにスペクトル概形を補
    正し、分析部でスペクトル分析を行うことを特徴とする
    請求項2に記載の音声認識装置。
JP2212831A 1989-10-04 1990-08-10 音声認識装置 Expired - Fee Related JP2969862B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE1990633000 DE69033000T2 (de) 1989-10-04 1990-10-02 Einrichtung zur Spracherkennung
EP19900118858 EP0421341B1 (en) 1989-10-04 1990-10-02 Speech recognizer
US07/983,246 US5361324A (en) 1989-10-04 1992-11-30 Lombard effect compensation using a frequency shift

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP25903489 1989-10-04
JP1-259034 1989-10-04

Publications (2)

Publication Number Publication Date
JPH03206499A JPH03206499A (ja) 1991-09-09
JP2969862B2 true JP2969862B2 (ja) 1999-11-02

Family

ID=17328415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2212831A Expired - Fee Related JP2969862B2 (ja) 1989-10-04 1990-08-10 音声認識装置

Country Status (2)

Country Link
US (1) US5361324A (ja)
JP (1) JP2969862B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017050175A1 (zh) * 2015-09-24 2017-03-30 阿里巴巴集团控股有限公司 音频识别方法和系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2969862B2 (ja) 1989-10-04 1999-11-02 松下電器産業株式会社 音声認識装置
DE4322372A1 (de) * 1993-07-06 1995-01-12 Sel Alcatel Ag Verfahren und Vorrichtung zur Spracherkennung
US5864809A (en) * 1994-10-28 1999-01-26 Mitsubishi Denki Kabushiki Kaisha Modification of sub-phoneme speech spectral models for lombard speech recognition
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
JPH1074098A (ja) * 1996-09-02 1998-03-17 Yamaha Corp 音声変換装置
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
GB9822529D0 (en) * 1998-10-16 1998-12-09 Dragon Syst Uk Ltd Speech processing
WO2001030049A1 (fr) * 1999-10-19 2001-04-26 Fujitsu Limited Unite de traitement et de reproduction de son vocaux reçus
JP4880136B2 (ja) * 2000-07-10 2012-02-22 パナソニック株式会社 音声認識装置および音声認識方法
US20050114134A1 (en) * 2003-11-26 2005-05-26 Microsoft Corporation Method and apparatus for continuous valued vocal tract resonance tracking using piecewise linear approximations
US20070168187A1 (en) * 2006-01-13 2007-07-19 Samuel Fletcher Real time voice analysis and method for providing speech therapy
JP6464650B2 (ja) 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
US9729957B1 (en) 2016-01-25 2017-08-08 Cirrus Logic, Inc. Dynamic frequency-dependent sidetone generation
GB201801657D0 (en) * 2017-11-21 2018-03-21 Cirrus Logic Int Semiconductor Ltd Speaker enrolment

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5361324A (en) 1989-10-04 1994-11-01 Matsushita Electric Industrial Co., Ltd. Lombard effect compensation using a frequency shift

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0054365B1 (en) * 1980-12-09 1984-09-12 Secretary of State for Industry in Her Britannic Majesty's Gov. of the United Kingdom of Great Britain and Northern Ireland Speech recognition systems
JPS5862700A (ja) * 1981-10-12 1983-04-14 株式会社デンソー 音声認識装置
US4956865A (en) * 1985-01-30 1990-09-11 Northern Telecom Limited Speech recognition
US4922539A (en) * 1985-06-10 1990-05-01 Texas Instruments Incorporated Method of encoding speech signals involving the extraction of speech formant candidates in real time
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
NL8603163A (nl) * 1986-12-12 1988-07-01 Philips Nv Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal.
JPH0634191B2 (ja) * 1987-09-24 1994-05-02 日本電気株式会社 パターン特徴正規化方式
US5001761A (en) * 1988-02-09 1991-03-19 Nec Corporation Device for normalizing a speech spectrum
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
GB8911153D0 (en) * 1989-05-16 1989-09-20 Smiths Industries Plc Speech recognition apparatus and methods
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5361324A (en) 1989-10-04 1994-11-01 Matsushita Electric Industrial Co., Ltd. Lombard effect compensation using a frequency shift

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会技術研究報告 Vol.89,No.387,SP89−105,「耐騒音音声認識システム」p.55−62

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017050175A1 (zh) * 2015-09-24 2017-03-30 阿里巴巴集团控股有限公司 音频识别方法和系统
US10679647B2 (en) 2015-09-24 2020-06-09 Alibaba Group Holding Limited Audio recognition method and system

Also Published As

Publication number Publication date
US5361324A (en) 1994-11-01
JPH03206499A (ja) 1991-09-09

Similar Documents

Publication Publication Date Title
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
JP2969862B2 (ja) 音声認識装置
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
US8036884B2 (en) Identification of the presence of speech in digital audio data
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
EP1355296B1 (en) Keyword detection in a speech signal
JPS62231997A (ja) 音声認識システム及びその方法
JP5151102B2 (ja) 音声認証装置、音声認証方法およびプログラム
US20140129224A1 (en) Method and apparatus for utterance verification
JP4432893B2 (ja) 声質判定装置、声質判定方法、および声質判定プログラム
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
US4937871A (en) Speech recognition device
JP2817429B2 (ja) 音声認識装置
JP3119510B2 (ja) 音声認識装置
JPH0449952B2 (ja)
JP5151103B2 (ja) 音声認証装置、音声認証方法およびプログラム
JPH0792989A (ja) 音声認識方法
JP3026855B2 (ja) 音声認識装置
JPH0736477A (ja) パターンマッチング方式
JPH10124084A (ja) 音声処理装置
Rao et al. Robust Voicing Detection and F 0 Estimation Method
JPH0619491A (ja) 音声認識装置
Mahalakshmi A review on voice activity detection and melfrequency cepstral coefficients for speaker recognition (Trend analysis)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees