JP3354252B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3354252B2
JP3354252B2 JP33059193A JP33059193A JP3354252B2 JP 3354252 B2 JP3354252 B2 JP 3354252B2 JP 33059193 A JP33059193 A JP 33059193A JP 33059193 A JP33059193 A JP 33059193A JP 3354252 B2 JP3354252 B2 JP 3354252B2
Authority
JP
Japan
Prior art keywords
voice
noise
analysis
acoustic feature
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33059193A
Other languages
English (en)
Other versions
JPH07191696A (ja
Inventor
敬 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP33059193A priority Critical patent/JP3354252B2/ja
Publication of JPH07191696A publication Critical patent/JPH07191696A/ja
Application granted granted Critical
Publication of JP3354252B2 publication Critical patent/JP3354252B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力された音声の特徴
量を予め用意された標準パターンの特徴量と比較するこ
とで入力された音声を認識する音声認識装置に関する。
【0002】
【従来の技術】近年、人間が発生する言語の音韻性情報
を認識する音声認識技術が盛んに研究され、この音声認
識技術を具体的な装置に応用した音声認識装置の開発が
進められている。音韻性情報を認識するには、一般に、
予め単語や音節等を単位とする複数の標準パターンを用
意し、未知の入力音声と各標準パターンとを比較し、入
力音声に最も類似している標準パターンを見つけ出し、
この標準パターンが発声された音声であると判定する等
の手法が用いられている。
【0003】このような音声認識の技術における単語や
音節等を認識する技術は、区切って発生された単語等を
認識する孤立単語音声認識と、連続的に発生された音声
から特定の単語等を認識する連続単語音声認識との二通
りに分類できる。音声認識技術を利用した音声認識装置
の実用化に際しては、周囲に生ずる騒音や話者が発生す
るかもしれない不要語等を考慮すると、連続単語音声認
識を実現し得る装置とすることが望ましい。
【0004】周囲の騒音や話者が発生する不要語等を除
外して音声を認識する連続単語音声認識の技術として
は、例えば、連続DP法等のワードスポッティングが従
来から知られている(吉井貞煕著「デジタル音声処理」
東海大学出版会 第8章)。ここで、ワードスポッティ
ング(word spotting )というのは、ある音声から単語
や音節等の単位を捜し出し、予め定められた言葉を抽出
する技術である。また、連続DP法(continuous Dynam
ic Programming)というのは、スペクトル等のパラメー
タ系列に変換された入力音声について、この入力音声を
始端から1フレームずつずらして単語や音節等の標準パ
ターンとDPマッチング(Dynamic Programming matchi
ng)を行い、マッチング結果としての距離がある閾値以
下となったとき、その時点にその標準パターンの単語や
音節等が存在すると判定する連続単語音声認識である。
【0005】ここで、音声認識における入力音声と標準
パターンとの比較に際しては、音声波形そのものを比較
するのではなく、音声波形から位相情報を除去し、スペ
クトルに関連した特徴に変換して入力音声情報を扱うの
が一般的である。これは、音声波形そのものを比較した
のでは情報量が多過ぎるし、波形の位相情報は伝送系や
録音系により変化し易い上に、このような位相情報は人
間による音声の知覚にほとんど寄与しないからである。
【0006】スペクトルに関連した特徴としては、一定
周期毎に抽出された短時間スペクトルが一般に用いられ
る。この短時間スペクトルというのは、音声の短時間区
間毎の電力スペクトル密度を意味し、周波数に応じて緩
やかに変化する成分であるスペクトル包絡と、周波数に
応じて細かく変化する成分であるスペクトル微細構造と
の積(対数尺度では和)に分解して分析することができ
る。これらのうち、スペクトル微細構造は、ピッチ等の
影響を受けて不安定である。このため、音声認識に際し
ては、短時間スペクトルからスペクトル包絡を抽出し、
スペクトル包絡を音声の特徴とするようなことが一般に
行われている。
【0007】スペクトル包絡を抽出する手法には色々な
種類があるが、そのうちの一つとしてケプストラム分析
(cepstrum)がある。このケプストラム分析というの
は、波形の短時間振幅スペクトルの対数の逆フーリエと
して定義され、スペクトル包絡とスペクトル微細構造と
を近似的に分離することができる点に特色を有する。ま
た、ケプストラム分析に関連したスペクトル包絡を抽出
する手法として、近年では、メルスケールの周波数で再
標本化した対数スペクトルから計算したケプストラムを
用いる試みもなされている。このようなケプストラムを
メルケプストラムという。さらに、ケプストラム分析の
特殊なものとして、LPCケプストラム分析(LPC
は、linear predictive coding:線形予測の略称であ
る)という手法がある。このLPCケプストラムという
のは、波形から直接計算されるケプストラム、すなわち
FFTケプストラム(FFTは、fast Fourier transfo
rm:高速フーリエ変換の略称である)に対し、線形予測
モデルによるケプストラムを意味し、FFTケプストラ
ムによる包絡スペクトルよりもスペクトルのピークを重
視した形の包絡スペクトルを得ることができる点を特色
とする。つまり、スペクトルのピーク部に音声認識の重
要な情報が存在していることに着目し、スペクトルのピ
ークを強調することで、その距離尺度をセンシティブに
してより正確な音声認識を実現させるようにした手法で
ある。
【0008】
【発明が解決しようとする課題】このように、音声特徴
量の検出、すなわち、短時間スペクトルのスペクトル包
絡の抽出には、例えば、ケプストラム分析、メルケプス
トラム分析、LPCケプストラム分析等の手法が用いら
れる。この際、音声特徴量としては、ケプストラム係
数、メルケプストラム係数、LPCケプストラム係数が
それぞれ用いられる。ところが、このようなケプストラ
ム係数等は、音声の入力レベルに依存しない特徴量であ
るため、促音発声時等の無音区間や音声レベルが低い区
間では、周囲の騒音の特徴量が入力音声の特徴量に影響
を与え、誤認識を生じさせてしまうことがあるという問
題がある。例えば、無音の区間では、入力音声に対応す
る単語の標準パターンに対する距離が周囲の騒音によっ
て広がり、対応しない単語であると誤認されてしまった
り、入力音声に対応しない単語の標準パターンに対する
距離が周囲の騒音によって狭まり、対応する単語である
と誤認されてしまったりするようなことがあり、正確な
音声認識を実現する上での障害となっている。
【0009】
【課題を解決するための手段】請求項1記載の発明は、
入力された音響信号に対してフレーム毎に音響分析を行
うことでその音響信号の音響特徴量を求める音響分析部
と、入力された音響信号に対してフレーム毎に音声らし
さの程度を求める音声検出部と、この音声検出部により
音声らしさの程度が低いと判定された区間の音響特徴量
を白色雑音化する雑音化処理部と、音声の標準パターン
を記憶する標準パターン記憶部と、この標準パターン記
憶部に記憶された標準パターンの時系列と雑音化処理部
による処理を経た音響特徴量の時系列とのマッチングを
行うマッチング処理部とを設けた。
【0010】請求項2記載の発明は、請求項1記載の発
明において、音響分析部では音響特徴量としてケプスト
ラム係数をフレーム毎に求めるケプストラム分析を行
い、雑音化処理部では音声検出部で求められた音声らし
さの程度が低いフレームのケプストラム係数を小さく設
定することで音響特徴量を白色雑音化する。
【0011】請求項3記載の発明は、請求項1記載の発
明において、音響分析部では音響特徴量としてメルケプ
ストラム係数をフレーム毎に求めるメルケプストラム分
析を行い、雑音化処理部では音声検出部で求められた音
声らしさの程度が低いフレームのメルケプストラム係数
を小さく設定することで音響特徴量を白色雑音化する。
【0012】請求項4記載の発明は、請求項1記載の発
明において、音響分析部では音響特徴量としてスペクト
ル傾斜を除去する補正が行われた短時間スペクトルをフ
レーム毎に求めるスペクトル分析を行い、雑音化処理部
では音声検出部で求められた音声らしさの程度が低いフ
レームの短時間スペクトルを小さく設定することで音響
特徴量を白色雑音化する。
【0013】請求項5記載の発明は、請求項1記載の発
明において、音声検出部では入力された音響信号のパワ
ーが小さいほど音声らしさの程度が低いと判断し、雑音
化処理部ではその音声検出部で音声らしさの程度が低い
と判断される程音響特徴量を強く白色雑音化する。
【0014】請求項6記載の発明は、請求項1記載の発
明において、標準パターン記憶部に記憶された標準パタ
ーンは、雑音化処理部での音響特徴量の白色雑音化と同
等の処理を経て生成された標準パターンである。
【0015】請求項7記載の発明は、請求項1記載の発
明において、マッチング処理部でのマッチング処理は、
ワードスポッティング処理である。
【0016】
【作用】請求項1記載の発明では、各フレーム毎に、音
響分析部により入力された音響信号の音響特徴量が求め
られ、音声検出部によりその音響信号の音声らしさの程
度が求められる。この際、音響信号中に音声らしさの程
度が低いと判定された区間がある場合には、音響特徴量
が雑音化処理部で白色雑音化される。つまり、音響信号
中、音声らしさの程度が低い区間は、無音であるか音声
レベルが低い区間であることを意味する。そして、音響
特徴量が白色雑音化されるということは、音響特徴量を
表現するスペクトルが平滑化されることを意味する。し
たがって、無音であるか音声レベルが低い場合には、音
響特徴量としてのスペクトルが平滑化され、周囲の騒音
による影響が除去される。マッチング処理部では、この
ような処理を経た特徴量の時系列と標準パターン記憶部
に記憶された標準パターンの時系列とが比較され、その
マッチングが行われる。これにより、周囲の騒音の有無
に拘らず、正確な音声認識がなされる。
【0017】請求項2記載の発明では、音響特徴量とし
てケプストラム係数を用いるケプストラム分析が音響分
析の手法として選択され、このケプストラム係数を小さ
くすることで音響特徴量の白色雑音化を実現させてい
る。また、請求項3記載の発明では、音響特徴量として
メルケプストラム係数を用いるメルケプストラム分析が
音響分析の手法として選択され、このメルケプストラム
係数を小さくすることで音響特徴量の白色雑音化を実現
させている。そして、請求項4記載の発明では、音響特
徴量としてスペクトル傾斜が除去されたスペクトルを用
いるスペクトル分析が音響分析の手法として選択され、
このスペクトルを小さくすることで音響特徴量の白色雑
音化を実現させている。したがって、請求項2、3及び
4記載の発明では、安定した音響特徴量に基づく正確な
音声認識がなされ、しかも、音響特徴量の白色雑音化が
容易である。
【0018】請求項5記載の発明では、音声検出部にお
ける音声らしさの程度の判断に際して、入力された音響
信号のパワーが小さいほど音声らしさの程度が低いと判
断され、雑音化処理部では、入力された音響信号のパワ
ーの程度に応じて音響特徴量の白色雑音化の程度が決定
される。つまり、音響信号は、そのパワーが小さいほど
強く白色雑音化される。これにより、より精度が高い音
声認識がなされる。
【0019】請求項6記載の発明では、標準パターン記
憶部に記憶された標準パターンは、雑音化処理部での音
響特徴量の白色雑音化と同等の処理を経て生成されてい
るので、標準パターンの生成が容易である。そして、現
実に入力される音響信号の特徴量と極めて近似する標準
パターンを用意することができ、より精度の高い音声認
識がなされる。
【0020】請求項7記載の発明では、マッチング部で
は、音声特徴量の時系列と標準パターンの時系列とのマ
ッチング処理に際し、ワードスポッティング処理がなさ
れる。これにより、標準パターンとして生成された単語
や音節等が含まれたある言葉が発声された場合、その言
葉に含まれるその単語等が抽出されて認識される。
【0021】
【実施例】本発明の一実施例を図1に基づいて説明す
る。図1に示すのは各部のブロック図であり、音声を入
力する音声入力部1にA/D変換部2(A/Dは、 ana
logto disitalの略称である)が接続され、このA/D
変換部2には音響前処理部3と音響分析部4とが順に接
続されている。また、前記音響前処理部3には音声検出
部5も接続され、この音声検出部5と前記音響分析部4
とには雑音化処理部6が接続されている。そして、標準
パターン記憶部7が設けられ、この標準パターン記憶部
7と前記雑音化処理部6とはマッチング処理部8に接続
され、このマッチング処理部8は認識結果出力部9に接
続されている。
【0022】ここで、前記音声入力部1は、例えばマイ
クロフォンであり、この音声入力部1より入力されたア
ナログ信号である音響信号が前記A/D変換部2に出力
される構造である。
【0023】前記A/D変換部2は、前記音声入力部1
からの音響信号をデジタル信号に変換し、標本化、量子
化及び符号化を実行する構造のものである。このA/D
変換部2でのデジタル変換の条件としては、例えば、標
本化周波数が16kHz で量子化ビット数が16ビットで
ある。この際、低周波域の帯域制限をかけた後に標本化
がなされるよう構成されている。これは、標本化定理に
従った標本化をして折り返し否(aliasing distortion
)の発生を防止するためである。
【0024】次いで、前記音響前処理部3は、A/D変
換部2でデジタル信号に変換された入力音響信号を高域
強調(プリエンファシス:pre-emphasis)する構造のも
のである。この音響前処理部3は、 H(z)=1−Z~1 ………式1 の伝達関数を有する1次のデジタルフィルタや、差分演
算回路等により構成されている。
【0025】次いで、前記音響分析部4は、入力された
音響信号の特徴量を抽出する演算部であり、音響信号の
短時間スペクトルのスペクトル包絡を抽出する構造のも
のである。本実施例では、音響信号をLPCスペクトラ
ム分析し、フレーム毎にケプストラム係数としてのケプ
ストラムベクトル(0次は含まず)ct を求める構造の
ものが用いられている。この音響分析部4における音響
信号の分析条件は、 フレーム周期 :10ms 窓周期 :16ms 窓関数 :ハミング窓 LPC分析次数 :14次 ケプストラム次数:14次 である。
【0026】次いで、前記音声検出部5は、前記音響前
処理部3で高域強調された入力音響信号における各フレ
ームでの平均パワーに基づき、その音響信号の音声らし
さの程度を求める構造のものである。フレーム平均パワ
ーは、LPC分析中の0次の自己相関係数から求めるこ
とができる。ここで、前記音声検出部5においては、フ
レーム平均パワーpとこの音声検出部5で求める音声ら
しさの程度vとの関係を、次に示す式2で定義してい
る。
【0027】
【数2】
【0028】この式2におけるp0 は実験的に求められ
る定数であり、音声区間の始終端のパワーの値よりもや
や大きな値が用いられる。この式より明らかなように、
音声らしさの程度vは、0≦v≦1であり、フレーム平
均パワーpが十分に大きい時には音声らしさの程度vは
1で、フレーム平均パワーpが0の時には音声らしさの
程度vは0であり、その間では、フレーム平均パワーp
が小さくなるにつれて音声らしさの程度vは単調に低く
なっていく。
【0029】次いで、前記雑音化処理部6は、前記音声
検出部5により求められた音声らしさの程度に応じ、前
記音響分析部4により求められた音響特徴量を白色雑音
化する構造のものである。この雑音化処理部6では、 c*t=vct ………式3 の演算処理が実行される。ここで、前述した通り、ct
は前記音響分析部4により求められた音響特徴量、すな
わちケプストラムベクトルであり、vは前記音声検出部
5により求められた音声らしさの程度である。そして、
c*tは、入力された音響信号中の音声らしさの程度に応
じて白色雑音化されたケプストラムベクトルである。こ
の式から明らかなように、前記雑音化処理部6では、ケ
プストラムベクトルct と音声らしさの程度vとの積に
よりケプストラムベクトルc*tを決定している。ここ
で、白色雑音のケプストラムベクトルは0、すなわち0
ベクトルである。したがって、音声らしさの程度vが低
ければ低いほどケプストラムベクトルctが強く白色雑
音化されることになる。
【0030】次いで、前記標準パターン記憶部7には、
音声認識を実行させる単語や音節等の標準パターンが多
数記憶されている。これらの標準パターンは、音声入力
部1に入力されて音響分析部4でケプストラムベクトル
ct とされ、雑音化処理部4で所定の処理が施されたケ
プストラムベクトルc*tの時系列と同等の内容を有し、
このケプストラムベクトルc*tの時系列と同じ処理を経
て生成されたケプストラムベクトルc*rである。
【0031】次いで、前記マッチング処理部8は、前記
標準パターン記憶部7に記憶された標準パターン、つま
りケプストラムベクトルc*rの時系列と、前記雑音化処
理部6による処理を経た音響特徴量、つまりケプストラ
ムベクトルc*tの時系列とでマッチング処理を実行する
構造のものである。このマッチング処理部8でのマッチ
ング処理は、連続DP法を用いたマッチング処理であ
る。この際、距離尺度は、群遅延スペクトル距離尺度等
の距離尺度が用いられる。
【0032】次いで、前記認識結果出力部9は、前記マ
ッチング処理部8での認識結果を出力する構造であり、
例えば、該当する単語等の有無を信号や表示として出力
する等の構造となっている。
【0033】このような構成において、音声入力部1に
入力された音響信号はA/D変換部2でデジタル変換さ
れ、標本化、量子化及び符号化される。そして、音響前
処理部3で高域強調が施され、スペクトル傾斜が平坦化
される。これにより、音響信号のダイナミックレンジが
圧縮され、実効的なSNR(signal-to-quantizationno
ise ratio:信号対量子化雑音比)が高められる。
【0034】次いで、高域強調された音響信号は、音響
分析部4によるLPCケプストラム分析によりその特徴
量がケプストラムベクトルct として抽出される。これ
と同時に、音声検出部5では、式2により、高域強調さ
れた音響信号の音声らしさの程度vが各フレームの平均
パワーpに基づき求められる。
【0035】そして、こうして求められたケプストラム
ベクトルct 及び音声らしさの程度vは雑音化処理部6
に送られ、この雑音化処理部6での式3の演算処理によ
り白色雑音化処理されたケプストラムベクトルc*tが求
められる。ここで、この雑音化処理部6で処理されたケ
プストラムベクトルc*tは、音声検出部5で求められた
音声らしさの程度が低ければ低いほど強く白色雑音化さ
れる。つまり、音声らしさの程度が低いということは、
その区間が無音であるか音声レベルが低いことを意味し
ているため、無音区間や音声レベルが低い区間が白色雑
音化され、その区間のスペクトルが平坦にされる。
【0036】次いで、マッチング処理部8では、雑音化
処理部6での処理を経たケプストラムベクトルc*tの時
系列と、標準パターン記憶部7に格納されている標準パ
ターンであるケプストラムベクトルc*rの時系列とがマ
ッチング処理される。この時のマッチング処理は、ワー
ドスポッティングである連続DP法によりなされる。し
たがって、音声の端点フリーの音声認識がなされる。そ
して、マッチング対象であるケプストラムベクトルc*t
の時系列とケプストラムベクトルc*rの時系列とは、共
に、音声らしさの程度が低い区間、すなわち、無音であ
るか音声レベルが低い区間が白色雑音化され、その区間
のスペクトルが平滑化されている。したがって、周囲の
騒音による影響がない音声認識がなされ、音声認識の精
度の向上が図られる。したがって、マッチング処理部8
の処理結果を出力する認識結果出力部9より、高精度な
認識結果が出力される。
【0037】ここで、音響分析部4の変形例について説
明する。本実施例では、入力された音響信号の特徴量を
求める手法としてLPCケプストラム分析を実行する音
響分析部4を設けたが、音響信号の特徴量を求める手法
としてはこれに限らず、例えば、ケプストラム分析やメ
ルケプストラム分析、スペクトル傾斜補正を施したスペ
クトル分析等の手法を用いる音響分析部としても良い。
要は、雑音化処理部6での白色雑音化の処理を容易にす
ることができる特徴量を求めることができる構造であれ
ば、その種類を問わない。より詳細には、メルケプスト
ラム係数としてのメルケプストラムベクトルは、ケプス
トラムベクトルと同様に、0ベクトルが白色雑音を表現
する。また、スペクトル傾斜補正を施したスペクトル分
析は、FFTやバンドパスフィルタバンクによって求め
られたスペクトルに対し、対数変換や最小2乗近似直線
を減じる補正(指数変換)等のスペクトル傾斜補正をす
ることにより実行される。この結果、補正後のスペクト
ルベクトルは、ケプストラムベクトルと同様に、0ベク
トルが白色雑音を表現する。したがって、標準パターン
記憶部に格納する標準パターンをメルケプストラム分析
を施した標準パターンとしたり、スペクトル傾斜補正を
施したスペクトル分析を施した標準パターンとするだけ
で、本実施例の装置にそのまま適用できる。
【0038】次いで、音声検出部5の変形例について説
明する。まず、音声検出部5では、音響信号中の音声ら
しさの程度を求めるための基礎データとして各フレーム
の平均パワーPを求めるが、このフレーム平均パワーp
はLPC分析により求められるため、LPCケプストラ
ム分析を行う音響分析部4の構造を一部共用して音声検
出部5を構成しても良い。音声検出部5の他の変形例と
しては、音声らしさの程度を判定する基礎データとして
音声パワーを用いず、ゼロ交差数、ピッチ周波数、フォ
ルマントの先鋭度、各音素パターンとの距離等を用いて
も良い。
【0039】次いで、マッチング処理部8の変形例につ
いて説明する。本実施例では、連続DP法を実行する構
造のマッチング処理部8としたが、状態遷移モデル等を
用いる他の方式によるマッチングを実行する構造として
も良く、また、これらのようなワードスポッティングに
限らず、孤立単語音声認識を実行する構造としても良
い。
【0040】
【発明の効果】請求項1記載の発明は、入力された音響
信号に対してフレーム毎に音響分析を行うことでその音
響信号の音響特徴量を求める音響分析部と、入力された
音響信号に対してフレーム毎に音声らしさの程度を求め
る音声検出部と、この音声検出部により音声らしさの程
度が低いと判定された区間の音響特徴量を白色雑音化す
る雑音化処理部と、音声の標準パターンを記憶する標準
パターン記憶部と、この標準パターン記憶部に記憶され
た標準パターンの時系列と雑音化処理部による処理を経
た音響特徴量の時系列とのマッチングを行うマッチング
処理部とを設けたので、入力された音響信号中に音声ら
しさの程度が低いと判定された区間がある場合、つま
り、無音であるか音声レベルが低い区間がある場合に
は、音響特徴量を雑音化処理部で白色雑音化して音響特
徴量を表現するスペクトルを平滑化し、これにより、そ
の区間に対する周囲の騒音による影響を除去し、周囲の
騒音の特徴量が音響特徴量に混ざることによる誤認識を
防止することができ、したがって、音声の認識精度を向
上させることができる等の効果を有する。
【0041】請求項2記載の発明は、請求項1記載の発
明において、音響分析部では音響特徴量としてケプスト
ラム係数をフレーム毎に求めるケプストラム分析を行
い、雑音化処理部では音声検出部で求められた音声らし
さの程度が低いフレームのケプストラム係数を小さく設
定することで音響特徴量を白色雑音化し、請求項3記載
の発明は、請求項1記載の発明において、音響分析部で
は音響特徴量としてメルケプストラム係数をフレーム毎
に求めるメルケプストラム分析を行い、雑音化処理部で
は音声検出部で求められた音声らしさの程度が低いフレ
ームのメルケプストラム係数を小さく設定することで音
響特徴量を白色雑音化し、請求項4記載の発明は、請求
項1記載の発明において、音響分析部では音響特徴量と
してスペクトル傾斜を除去する補正が行われた短時間ス
ペクトルをフレーム毎に求めるスペクトル分析を行い、
雑音化処理部では音声検出部で求められた音声らしさの
程度が低いフレームの短時間スペクトルを小さく設定す
ることで音響特徴量を白色雑音化するように構成したの
で、安定した音響特徴量に基づく正確な音声認識を行う
ことができ、したがって、音声の認識精度をより向上さ
せることができ、また、音響特徴量を容易に白色雑音化
することができ、したがって、白色雑音化するに際して
の演算処理の簡略化を図ることができる等の効果を有す
る。
【0042】請求項5記載の発明は、請求項1記載の発
明において、音声検出部では入力された音響信号のパワ
ーが小さいほど音声らしさの程度が低いと判断し、雑音
化処理部ではその音声検出部で音声らしさの程度が低い
と判断される程音響特徴量を強く白色雑音化するように
構成したので、音声らしさの程度を判断するパラメータ
として音響信号のパワーを用いることで容易かつ正確に
音声らしさの程度の判断を実現させることができ、した
がって、演算処理の簡略化を図ることができ、また、音
響信号は、そのパワーが小さいほど強く白色雑音化され
るため、より精度が高い音声認識の実現に寄与すること
ができる等の効果を有する。
【0043】請求項6記載の発明は、請求項1記載の発
明において、標準パターン記憶部に記憶された標準パタ
ーンは、雑音化処理部での音響特徴量の白色雑音化と同
等の処理を経て生成された標準パターンであるので、標
準パターンの生成が容易であり、また、現実に入力され
る音響信号の特徴量と極めて近似する標準パターンを用
意することができ、したがって、より精度の高い音声認
識の実現に寄与することができる等の効果を有する。
【0044】請求項7記載の発明は、請求項1記載の発
明において、マッチング処理部でのマッチング処理は、
ワードスポッティング処理であるので、標準パターンと
して生成された単語や音節等が含まれたある言葉が発声
された場合、その言葉に含まれるその単語等を抽出して
認識することができ、この際、入力音声がない場合に誤
った認識結果が生ずるのを防止することができる等の効
果を有する。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック図である。
【符号の説明】
4 音響分析部 5 音声検出部 6 雑音化処理部 7 標準パターン記憶部 8 マッチング処理部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/10 G10L 21/02 G10L 15/20

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された音響信号に対してフレーム毎
    に音響分析を行うことでその音響信号の音響特徴量を求
    める音響分析部と、入力された音響信号に対してフレー
    ム毎に音声らしさの程度を求める音声検出部と、この音
    声検出部により音声らしさの程度が低いと判定された区
    間の音響特徴量を白色雑音化する雑音化処理部と、音声
    の標準パターンを記憶する標準パターン記憶部と、この
    標準パターン記憶部に記憶された標準パターンの時系列
    と前記雑音化処理部による処理を経た音響特徴量の時系
    列とのマッチングを行うマッチング処理部とを有するこ
    とを特徴とする音声認識装置。
  2. 【請求項2】 音響分析部では音響特徴量としてケプス
    トラム係数をフレーム毎に求めるケプストラム分析を行
    い、雑音化処理部では音声検出部で求められた音声らし
    さの程度が低いフレームのケプストラム係数を小さく設
    定することで音響特徴量を白色雑音化することを特徴と
    する請求項1記載の音声認識装置。
  3. 【請求項3】 音響分析部では音響特徴量としてメルケ
    プストラム係数をフレーム毎に求めるメルケプストラム
    分析を行い、雑音化処理部では音声検出部で求められた
    音声らしさの程度が低いフレームのメルケプストラム係
    数を小さく設定することで音響特徴量を白色雑音化する
    ことを特徴とする請求項1記載の音声認識装置。
  4. 【請求項4】 音響分析部では音響特徴量としてスペク
    トル傾斜を除去する補正が行われた短時間スペクトルを
    フレーム毎に求めるスペクトル分析を行い、雑音化処理
    部では音声検出部で求められた音声らしさの程度が低い
    フレームの短時間スペクトルを小さく設定することで音
    響特徴量を白色雑音化することを特徴とする請求項1記
    載の音声認識装置。
  5. 【請求項5】 音声検出部では入力された音響信号のパ
    ワーが小さいほど音声らしさの程度が低いと判断し、雑
    音化処理部ではその音声検出部で音声らしさの程度が低
    いと判断される程音響特徴量を強く白色雑音化すること
    を特徴とする請求項1記載の音声認識装置。
  6. 【請求項6】 標準パターン記憶部に記憶された標準パ
    ターンは、雑音化処理部での音響特徴量の白色雑音化と
    同等の処理を経て生成された標準パターンであることを
    特徴とする請求項1記載の音声認識装置。
  7. 【請求項7】 マッチング処理部でのマッチング処理
    は、ワードスポッティング処理であることを特徴とする
    請求項1記載の音声認識装置。
JP33059193A 1993-12-27 1993-12-27 音声認識装置 Expired - Fee Related JP3354252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33059193A JP3354252B2 (ja) 1993-12-27 1993-12-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33059193A JP3354252B2 (ja) 1993-12-27 1993-12-27 音声認識装置

Publications (2)

Publication Number Publication Date
JPH07191696A JPH07191696A (ja) 1995-07-28
JP3354252B2 true JP3354252B2 (ja) 2002-12-09

Family

ID=18234371

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33059193A Expired - Fee Related JP3354252B2 (ja) 1993-12-27 1993-12-27 音声認識装置

Country Status (1)

Country Link
JP (1) JP3354252B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11380314B2 (en) 2019-03-25 2022-07-05 Subaru Corporation Voice recognizing apparatus and voice recognizing method

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806022A (en) * 1995-12-20 1998-09-08 At&T Corp. Method and system for performing speech recognition
JP3351746B2 (ja) * 1997-10-03 2002-12-03 松下電器産業株式会社 オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
JP4893940B2 (ja) * 2006-01-06 2012-03-07 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2007080886A1 (ja) * 2006-01-11 2007-07-19 Nec Corporation 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム
JP5005364B2 (ja) * 2007-01-17 2012-08-22 株式会社リコー 印刷システムおよび印刷方法
WO2009078093A1 (ja) 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
CN111768801A (zh) * 2020-06-12 2020-10-13 瑞声科技(新加坡)有限公司 气流杂音消除方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11380314B2 (en) 2019-03-25 2022-07-05 Subaru Corporation Voice recognizing apparatus and voice recognizing method

Also Published As

Publication number Publication date
JPH07191696A (ja) 1995-07-28

Similar Documents

Publication Publication Date Title
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP3055691B2 (ja) 音声認識装置
US5305422A (en) Method for determining boundaries of isolated words within a speech signal
US7792672B2 (en) Method and system for the quick conversion of a voice signal
KR0123934B1 (ko) 저렴한 음성 인식 시스템 및 방법
JP2002014689A (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
JPH0990974A (ja) 信号処理方法
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
JPH0743598B2 (ja) 音声認識方法
CN108682432B (zh) 语音情感识别装置
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
JP2745535B2 (ja) 音声認識装置
JPH0638199B2 (ja) 音声認識装置
JP5081730B2 (ja) 音声区間検出装置および音声区間検出方法
JP3354252B2 (ja) 音声認識装置
JPS6366600A (ja) 話者の音声を前処理して次の処理のための正規化された信号を得る方法および装置
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
JPH0797279B2 (ja) 音声認識装置
JPH0229232B2 (ja)
JP2709926B2 (ja) 声質変換方法
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels
JP2001083978A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100927

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees