JPH11296192A - 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体 - Google Patents

音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体

Info

Publication number
JPH11296192A
JPH11296192A JP10099051A JP9905198A JPH11296192A JP H11296192 A JPH11296192 A JP H11296192A JP 10099051 A JP10099051 A JP 10099051A JP 9905198 A JP9905198 A JP 9905198A JP H11296192 A JPH11296192 A JP H11296192A
Authority
JP
Japan
Prior art keywords
voice
transfer characteristic
transfer
speech
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10099051A
Other languages
English (en)
Inventor
Shunsuke Ishimitsu
俊介 石光
Ikuo Fujita
育雄 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP10099051A priority Critical patent/JPH11296192A/ja
Priority to US09/288,973 priority patent/US6381572B1/en
Publication of JPH11296192A publication Critical patent/JPH11296192A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 実環境下で使用しても認識性能の劣化が少な
い音声認識装置等を提供する。 【解決手段】 実環境で発声されマイク1から入力され
た音声信号は、特徴抽出部2で音声特徴量が抽出され、
補正部3で、補正データ記憶部4に保持される辞書環境
下の伝達関数と、想定される実環境下の伝達関数を用い
て補正される。この補正は、音声特徴量が周波数領域で
表されている場合は乗除算で、ケプストラム領域で表さ
れている場合は加減算で、それぞれ計算される。その
後、補正された音声特徴量に対し、確率計算部6で辞書
5を用いた確率計算が行われ、判定部7で入力音声が認
識されて、認識結果が出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置の技
術分野に属し、より詳しくは、入力音声に対する音声特
徴量の補正方法の技術分野に属する。
【0002】
【従来の技術】従来から、人間の発声した音声を認識す
る音声認識装置が知られている。このような音声認識装
置は、例えば、自動車に搭載されたり、電話装置に組み
込まれるなど、様々な環境下で動作する。従って、音声
認識装置は、このような実環境においても、十分な性能
を確保することが要求される。
【0003】
【発明が解決しようとする課題】しかしながら、前述の
実環境下では、例えば、音声認識装置の設置場所の広さ
や残響など、音場特性が様々であったり、回線の伝達特
性の影響を受けるなどして、人間が発声してから音声認
識装置に入力されるまでの間、伝送系の伝達関数が変化
して音声を歪ませることになる。一方、音声認識に用い
られる辞書に登録されるパターンに対して考慮される伝
達関数は、辞書作成の際の理想的な環境に対するもので
ある。従って、認識処理においては、実環境における伝
達関数と辞書の作成環境における伝達関数との不整合に
起因して、認識率が劣化することになる。
【0004】そこで、本発明は、このような問題点に鑑
みなされたもので、その課題は、実環境下において使用
した場合でも音声認識性能の劣化が少ない音声認識装置
等を提供することにある。
【0005】
【課題を解決するための手段】上記課題を解決するた
め、請求項1に記載の発明は、音声認識用の代表パター
ンを格納する辞書の作成環境に対応する第1の音声伝達
特性と、実環境に対応する第2の音声伝達特性が保持さ
れ、入力音声から抽出された音声特徴量を当該第1の音
声伝達特性と当該第2の音声伝達特性とに基づいて補正
し、前記辞書の作成環境に対応する音声特徴量を生成す
ることを特徴とする。
【0006】請求項1に記載の発明によれば、音声が発
声されると、実環境の下での音声伝達特性に由来する伝
送歪みを伴って音声認識装置に入力される。そして、抽
出された音声特徴量は、辞書の作成環境に対応する第1
の音声伝達特性と、実環境に対応する第2の音声伝達特
性とに基づいて補正され、辞書の作成環境に対応する音
声特徴量が生成される。よって、実環境の影響による音
声特徴量に生じた歪みが除去され、認識率向上に適する
音声特徴量に補正される。
【0007】上記課題を解決するため、請求項2に記載
の発明は、請求項1に記載の発明において、前記音声特
徴量は周波数領域で表わされ、前記第1の音声伝達特性
と前記第2の音声伝達特性は周波数領域における伝達関
数であると共に、前記補正は、前記入力音声から抽出さ
れた音声特徴量に、前記第1の音声伝達特性を表す伝達
関数を乗じ、更に前記第2の伝達特性を表す伝達関数で
除して行うものであることを特徴とする。
【0008】請求項2に記載の発明によれば、補正処理
の対象となる音声特徴量は、周波数領域で表現され、第
1の音声伝達特性と第2の音声伝達特性はどちらも周波
数領域で表された伝達関数である。そして、抽出された
音声特徴量に対する前記伝達関数を用いて乗除算を行う
ことにより補正処理が行われる。よって、実環境による
影響が除去されることに加え、時間領域で音声特徴量を
表現するよりも処理時間の短縮が図られる。
【0009】上記課題を解決するため、請求項3に記載
の発明は、請求項1に記載の発明において、前記音声特
徴量はケプストラム領域で表され、前記第1の音声伝達
特性と前記第2の音声伝達特性は、ケプストラム領域に
おける伝達関数であると共に、前記補正は、前記入力さ
れた音声特徴量に、前記第1の音声伝達特性を表す伝達
関数を加え、更に前記第2の伝達特性を表す伝達関数を
減じて行うものであることを特徴とする。
【0010】請求項3に記載の発明によれば、補正処理
の対象となる音声特徴量は、ケプストラム領域で表現さ
れ、第1の音声伝達特性と第2の音声伝達特性はどちら
もケプストラム領域で表された伝達関数である。そし
て、抽出された音声特徴量に対する前記伝達関数を用い
て加減算を行うことにより補正処理が行われる。よっ
て、実環境による影響が除去されることに加え、時間領
域や周波数領域で音声特徴量を表現するよりも更に処理
時間の短縮が図られる。
【0011】上記課題を解決するため、請求項4に記載
の発明は、入力された音声信号から音声特徴量を抽出す
るステップと、前記音声特徴量を補正して音声認識用の
代表パターンを格納する辞書の作成環境に対応する音声
特徴量を生成するステップと、補正後の前記音声特徴量
と前記代表パターンの確率計算を行うステップと、前記
確率計算の結果に基づいて前記入力音声を認識するステ
ップとを備え、前記辞書の作成環境に対応する第1の音
声伝達特性と、実環境に対応する第2の音声伝達特性が
保持され、前記抽出された音声特徴量に対し、当該第1
の音声伝達特性と当該第2の音声伝達特性とに基づいて
前記補正を行うことを特徴とする。
【0012】請求項4に記載の発明によれば、音声が発
声されると、実環境の下での音声伝達特性に由来する伝
送歪みを伴って音声認識装置に入力され、この音声信号
から音声特徴量が抽出される。そして、保持される第1
の音声伝達特性と第2の音声伝達特性とに基づいて、音
声特徴量に対する補正がなされ、辞書の作成環境に対応
する音声特徴量が生成される。その後、補正後の音声特
徴量を用いて確率計算が行われ、その結果に基づいて入
力音声が認識される。よって、実環境の影響による音声
特徴量に生じた歪みが除去されるので、入力音声に対す
る認識率が向上する。
【0013】上記課題を解決するため、請求項5に記載
の発明は、前記音声特徴量は周波数領域で表わされ、前
記第1の音声伝達特性と前記第2の音声伝達特性は周波
数領域における伝達関数であると共に、前記補正は、前
記入力音声から抽出された音声特徴量に、前記第1の音
声伝達特性を表す伝達関数を乗じ、更に前記第2の伝達
特性を表す伝達関数で除して行うものであることを特徴
とする。
【0014】請求項5に記載の発明によれば、周波数領
域で表現された音声特徴量に対し、ともに周波数領域で
表される第1の音声伝達特性と第2の音声伝達特性とに
対応する伝達関数を用いて、補正処理がなされ、更に確
率計算と入力音声の認識が行われる。よって、実環境の
影響による音声特徴量に生じた歪みが除去されるので、
入力音声に対する認識率が向上すると共に、簡易かつ迅
速な処理が行われる。
【0015】上記課題を解決するため、請求項6に記載
の発明は、請求項4に記載の発明において、前記音声特
徴量はケプストラム領域で表され、前記第1の音声伝達
特性と前記第2の音声伝達特性は、ケプストラム領域に
おける伝達関数であると共に、前記補正は、前記入力さ
れた音声特徴量に、前記第1の音声伝達特性を表す伝達
関数を加え、更に前記第2の伝達特性を表す伝達関数を
減じて行うものであることを特徴とする。
【0016】請求項6に記載の発明によれば、ケプスト
ラム領域で表現された音声特徴量に対し、ともにケプス
トラム領域で表される第1の音声伝達特性と第2の音声
伝達特性とに対応する伝達関数を用いて、補正処理がな
され、更に確率計算と入力音声の認識が行われる。よっ
て、実環境の影響による音声特徴量に生じた歪みが除去
されるので、入力音声に対する認識率が向上すると共
に、一層簡易かつ迅速な処理が行われる。
【0017】上記課題を解決するため、請求項7に記載
の発明は、入力された音声信号から音声特徴量を抽出す
る手段と、前記音声特徴量を補正し、音声認識用の代表
パターンを格納する辞書の作成環境に対応する音声特徴
量を生成する手段と、補正後の前記音声特徴量と前記代
表パターンの確率計算を行う手段と、前記確率計算の結
果に基づいて前記入力音声を認識する手段とを備え、前
記辞書の作成環境に対応する第1の音声伝達特性と、実
環境に対応する第2の音声伝達特性が保持され、前記抽
出された音声特徴量に対し、当該第1の音声伝達特性と
当該第2の音声伝達特性とに基づいて前記補正を行うこ
とを特徴とする。
【0018】請求項7に記載の発明によれば、請求項4
に記載の発明と同様の作用により、音声特徴量に対する
補正及び音声認識処理が行われる。よって、実環境の影
響による音声特徴量に生じた歪みが除去されるので、多
様な使用環境における音声認識装置の認識率の向上が図
られる。
【0019】上記課題を解決するため、請求項8に記載
の発明は、請求項7に記載の発明において、前記音声特
徴量は周波数領域で表わされ、前記第1の音声伝達特性
と前記第2の音声伝達特性は周波数領域における伝達関
数であると共に、前記補正は、前記入力音声から抽出さ
れた音声特徴量に、前記第1の音声伝達特性を表す伝達
関数を乗じ、更に前記第2の伝達特性を表す伝達関数で
除して行うものであることを特徴とする。
【0020】請求項8に記載の発明によれば、請求項5
に記載の発明と同様の作用により、周波数領域での音声
特徴量に対する補正及び音声認識処理が行われる。よっ
て、実環境の影響による音声特徴量に生じた歪みが除去
されるので、多様な使用環境における音声認識装置の認
識率の向上が、簡易かつ迅速な処理により図られる。
【0021】上記課題を解決するため、請求項9に記載
の発明は、請求項7に記載の発明において、前記音声特
徴量はケプストラム領域で表され、前記第1の音声伝達
特性と前記第2の音声伝達特性は、ケプストラム領域に
おける伝達関数であると共に、前記補正は、前記入力さ
れた音声特徴量に、前記第1の音声伝達特性を表す伝達
関数を加え、更に前記第2の伝達特性を表す伝達関数を
減じて行うものであることを特徴とする。
【0022】請求項9に記載の発明によれば、請求項6
に記載の発明と同様の作用により、ケプストラム領域で
の音声特徴量に対する補正及び音声認識処理が行われ
る。よって、実環境の影響による音声特徴量に生じた歪
みが除去されるので、多様な使用環境における音声認識
装置の認識率の向上が、一層簡易かつ迅速な処理により
図られる。
【0023】上記課題を解決するため、請求項10に記
載の発明は、コンピュータに、入力された音声信号から
音声特徴量を抽出するステップと、前記音声特徴量を補
正して音声認識用の代表パターンを格納する辞書の作成
環境に対応する音声特徴量を生成するステップと、補正
後の前記音声特徴量と前記代表パターンの確率計算を行
うステップと、前記確率計算の結果に基づいて前記入力
音声を認識するステップとを実行させ、前記辞書の作成
環境に対応する第1の音声伝達特性と、実環境に対応す
る第2の音声伝達特性が保持され、前記抽出された音声
特徴量に対し、当該第1の音声伝達特性と当該第2の音
声伝達特性とに基づいて前記補正を行うことを特徴とす
る。
【0024】請求項10に記載の発明によれば、請求項
4及び請求項7に記載の発明と同様の作用により、音声
特徴量に対する補正及び音声認識処理が行われる。よっ
て、実環境の影響による音声特徴量に生じた歪みが除去
されるので、音声認識プログラムにおける入力音声に対
する認識率の向上が図られる。
【0025】上記課題を解決するため、請求項11に記
載の発明は、請求項10に記載の発明において、前記音
声特徴量は周波数領域で表わされ、前記第1の音声伝達
特性と前記第2の音声伝達特性は周波数領域における伝
達関数であると共に、前記補正は、前記入力音声から抽
出された音声特徴量に、前記第1の音声伝達特性を表す
伝達関数を乗じ、更に前記第2の伝達特性を表す伝達関
数で除して行うものであることを特徴とする。
【0026】請求項11に記載の発明によれば、請求項
5及び請求項8に記載の発明と同様の作用により、周波
数領域での音声特徴量に対する補正及び音声認識処理が
行われる。よって、実環境の影響による音声特徴量に生
じた歪みが除去されるので、音声認識プログラムにおけ
る入力音声に対する認識率の向上が、簡易かつ迅速な処
理により図られる。
【0027】上記課題を解決するため、請求項12に記
載の発明は、請求項10に記載の発明において、前記音
声特徴量はケプストラム領域で表され、前記第1の音声
伝達特性と前記第2の音声伝達特性は、ケプストラム領
域における伝達関数であると共に、前記補正は、前記入
力された音声特徴量に、前記第1の音声伝達特性を表す
伝達関数を加え、更に前記第2の伝達特性を表す伝達関
数を減じて行うものであることを特徴とする。
【0028】請求項12に記載の発明によれば、請求項
6及び請求項9に記載の発明と同様の作用により、ケプ
ストラム領域での音声特徴量に対する補正及び音声認識
処理が行われる。よって、実環境の影響による音声特徴
量に生じた歪みが除去されるので、音声認識プログラム
における入力音声に対する認識率の向上が、一層簡易か
つ迅速な処理により図られる。
【0029】
【発明の実施の形態】以下、本発明の好適な実施形態に
ついて、図1に基づいて説明する。
【0030】図1は、本実施形態に係る音声認識装置の
全体構成を示すブロック図である。図1に示すように、
本実施形態に係る音声認識装置は、マイク1と、入力音
声を分析して音声の性質を特徴づける音声特徴量を抽出
する特徴抽出部2と、抽出された音声特徴量を補正して
辞書5の作成環境に対応させる補正部3と、補正部3に
おける処理に必要なデータを格納する補正データ記憶部
4と、各単語について認識用の代表パターンを格納する
辞書5と、確率計算部6と、判定部7とにより構成され
ている。なお、図1は本発明の音声認識装置を機能ブロ
ックで表現したものであり、実際には、マイクロコンピ
ュータやDSPなどでソフトウェア的に実現され、マイ
ク1やその他の部品とともに全体の音声認識装置が構成
される。
【0031】以上の構成において、実環境下にある音声
認識装置のマイク1に向かって音声が発声されると、そ
の入力音声信号は、適当なフレーム長で切り出された
後、特徴抽出部2により所要の分析が行われ、音声特徴
量が抽出される。
【0032】ここで、特徴抽出部2により抽出される音
声特徴量は、音声を構成する言語音の音韻識別に必要と
なるパラメータである。音声波形そのものは、冗長な情
報を多く含んでいるため、音声波形を元に音声認識に効
率的に利用できる特徴を抽出するものである。
【0033】この音声特徴量としては、周波数領域のパ
ラメータが一般的に用いられる。すなわち、音声の言語
音の音韻性は、主にスペクトル包絡とその時間的推移に
よって表現されるので、この周波数領域におけるスペル
トル包絡を音声特徴量として音声認識に利用することが
できる。
【0034】スペクトル包絡の分析に際しては、非定常
信号である音声信号も短時間区間では、定常的であると
みなすことができるので、1分析フレームを100分の
1秒程度のオーダにすればよい。また、分析の次数はス
ペクトル微細構造が表れない程度の次数に設定すればよ
い。
【0035】そして、周波数領域で表現された音声特徴
量は、ケプストラム領域において表現することも可能で
ある。ここで、ケプストラムとは、対数スペクトルを逆
フーリエ変換することにより得られるものであり、人間
の聴覚特性に近い特性を有し、スペクトル包絡とスペク
トル微細構造を分離して表現できる点に特徴がある。
【0036】さて、このように周波数領域やケプストラ
ム領域で表現された音声特徴量が得られると、補正部3
に入力される。この補正部3では、実環境における音声
信号の伝送路の歪みによる影響を取り除くため、以下に
説明する処理が行われる。
【0037】音声認識装置は、例えば電話機に組み込ま
れたり、自動車に搭載されるなど種々の使用形態があ
る。そのため、実際に音声認識処理が行われる環境も様
々であり、屋内や自動車内など、空間の広さや形状が異
なるので、反射や残響等の音場特性が変わってくる。ま
た、電話回線等を経由する場合は、回線の伝達特性によ
る歪みの影響がある。さらに、実環境下の周囲騒音のレ
ベルも大小違いがある。
【0038】ここで、これら実使用環境の各要因の影響
は、実際に発声された音声本来の音声特徴量に対して歪
みを与えることになる。周波数領域で表現すると、音声
本来の音声特徴量S(ω)に前記実環境下の伝達関数C
r(ω)をかけたCr(ω)S(ω)が、特徴抽出部2で
実際に得られる音声特徴量となる。
【0039】一方、辞書5に格納されている認識用の代
表パターンには、データ作成時の環境における伝達関数
Ct(ω)が予め考慮されている。しかし、辞書データ
の作成は理想的な環境で行われるものであり、例えば無
響室内において所定の距離から所定の方向に位置する特
定のマイクに向かって発声するようにして行われる。そ
のため、伝達特性は歪みが少ないものであり、前述の実
環境下の伝達特性とはかなり異なっている。
【0040】従って、実環境下の伝達関数Cr(ω)と
辞書作成環境下の伝達関数Ct(ω)とは一致しない場
合が多く、その結果、認識性能の劣化につながることに
なる。このような認識性能の劣化を防止するために、本
実施形態では、補正部3において、認識処理を行うのに
先立って実環境下で発声された音声に対する音声特徴量
への補正処理を行うものである。
【0041】この補正処理に必要となる伝達関数等のデ
ータは予め補正データ記憶部4に記憶しておく。すなわ
ち、周波数領域の音声領域における音声特徴量の補正の
場合には、想定される使用環境に応じて前述の伝達関数
Cr(ω)を推定して予め用意された伝達関数Cr’
(ω)を、補正データ記憶部4に記憶しておけばよい。
さらに、辞書作成時の伝達関数Ct(ω)も同様に補正
データ記憶部4に記憶しておく。なお、様々な使用環境
が考えられる場合には、複数の伝達関数Cr’(ω)を
記憶させ、その中から1つを選択して設定可能にしても
よい。
【0042】そして、抽出された実環境下の音声特徴量
Cr(ω)S(ω)に対し、補正された音声特徴量St
(ω)を、前述のCr’(ω)とCt(ω)を用いて次によ
うに算出する。
【0043】
【数1】 St (ω)= {Cr(ω)S(ω)}Ct(ω)/Cr’(ω)
【0044】数1の計算の結果得られたSt(ω)にお
いては、前述の実環境による伝達特性の影響がキャンセ
ルされることになるので、辞書5の作成環境に近い音声
特徴量に変換されることになる。このとき、補正データ
記憶部4に用意される伝達関数Cr’(ω)が実際の伝
達関数Cr(ω)に合致しているほど、理想的な音声特
徴量St(ω)を得ることができる。
【0045】次に、ケプストラム領域で表現された音声
特徴量を用いる場合の補正処理について説明する。前述
したように、ケプストラム領域での表現は、周波数領域
に対し対数をとる関係となるため、周波数領域の乗除算
が加減算に置き換わる。従って、数1に対応する式は次
のようになる。
【0046】
【数2】Cep[St ]= Cep[CrS]+Cep
[Ct]−Cep[Cr’]
【0047】なお、数2において、Cepはケプストラ
ム領域で表現される量であることを意味し、前述のSt
(ω)、Cr(ω)S(ω)、Ct(ω)、Cr’(ω)に対応す
るケプストラム領域の表現を、それぞれCep[St
]、Cep[CrS]、Cep[Ct]、Cep[C
r’]で示すものとする。
【0048】数2に示すように、補正処理を行うに際
し、周波数領域の音声特徴量に対しては乗除算であった
ものが、ケプストラム領域の音声特徴量に対しては加減
算ですむ。よって、膨大な音声データに対して補正処理
を行う場合には、ケプストラム領域の音声特徴量を用い
る方が計算時間を短縮化できる。
【0049】次に、このようにして算出された補正後の
音声特徴量は、確率計算部6に入力され、出力確率の計
算が行われる。すなわち、音韻の数は限られており、こ
れに対応して音声特徴量の分布は、多峰性の確率密度関
数で表現可能であるため、一定の中心と分布に基づく出
力確率を計算するものである。
【0050】例えば、隠れマルコフモデル(以下、HM
Mという)に基づく確率計算が一般的に用いられる。こ
のHMMは、複数の状態を有し、各状態間の遷移確率
と、遷移の際のシンボル出力確率に従って、音素や単語
を表現するモデルである。そして、辞書5には必要とな
る音素や単語の前記HMMを代表パターンとして登録し
ておき、補正後の音声特徴量ごとに、辞書5からHMM
を読み出し出力確率が計算される。
【0051】次に、判定部7においては、計算された出
力確率に基づいて、最大の確率を与えるものを認識対象
として判定する。判定部7による判定の結果、入力音声
が認識されることになり、認識結果が出力される。
【0052】なお、前述の説明では、数1及び数2に示
すように、周波数領域とケプストラム領域の音声特徴量
に対して、補正処理を行う場合について説明を行った
が、音声特徴量が時間領域で表現されたものである場合
にも、本発明を適用することができる。この場合には、
数1、数2に対応する計算は畳み込み積分となるので、
必要な計算量は、周波数領域及びケプストラム領域の場
合に比べて増大する。
【0053】以上説明したように、本実施形態に係る音
声認識装置によれば、実環境においで種々の要因で伝達
特性が変化する結果、マイク1を介して入力される音声
に歪みを生じた場合であっても、特徴抽出部2で抽出さ
れた音声特徴量に対し、補正データ記憶部4に記憶され
るデータを用いて、数1や数2に示す補正計算が補正部
3において行われる。その結果得られた補正後の音声特
徴量は、実環境下によって生じる歪みの影響がキャンセ
ルされたものであり、これに基づいて以降の確率計算部
6における辞書5のデータを用いた出力確率の計算と、
判定部7における入力音声の認識が行われる。
【0054】従って、当該補正処理を行わない場合に比
べ、音声特徴量は辞書データの作成環境における特性に
近くなるため、実環境下の影響による認識率の劣化を防
止することができる。また、周波数領域で表現された音
声特徴量を用いれば、畳み込み積分が必要な時間領域で
の表現に比べ、数1に示すように乗除算ですむため、補
正計算が簡易に行われ、ケプストラム領域で表現された
音声特徴量を用いれば、数2に示すように加減算となる
ので、一層、補正計算が簡易に行われる。更に、話者や
発声語が異なる場合に限られず、同一話者、同一語につ
いても、同様に認識率の劣化が防止される。なお、実験
の結果、本実施形態に係る音声認識装置を使用すること
により、静寂下で3%程度の認識率の向上が達成され
た。
【0055】なお、本発明は上述した本実施形態に係る
音声認識処理を機能させるプログラムは、コンピュータ
に読み取り可能なROM、CD−ROM、フロッピーデ
ィスク等の記録媒体に記録させることが可能である。そ
して、当該ROM等を用いてコンピュータにおいて当該
プログラムをインストールし、実行することにより、本
発明の音声認識処理が機能する。
【0056】
【発明の効果】以上説明したように、請求項1に記載の
発明によれば、実環境の影響により音声特徴量に生じた
歪みが除去され、認識率向上に適する音声特徴量への補
正を行うことが可能となる。
【0057】請求項2に記載の発明によれば、実環境に
よる影響が除去されることに加え、周波数領域で表現さ
れた音声特徴量に対する乗除算で補正処理がされ、時間
領域で音声特徴量を表現するよりも処理時間の短縮を可
能とする。
【0058】請求項3に記載の発明によれば、実環境に
よる影響が除去されることに加え、ケプストラム領域で
表現された音声特徴量に対する加減算で補正処理がさ
れ、時間領域や周波数領域で音声特徴量を表現するより
も更に処理時間の短縮を可能とする。
【0059】請求項4に記載の発明によれば、実環境の
影響による音声特徴量に生じた歪みが除去されるので、
入力音声に対する認識率の向上を可能とする。
【0060】請求項5に記載の発明によれば、実環境の
影響による音声特徴量に生じた歪みが除去されるので、
入力音声に対する認識率が向上すると共に、簡易かつ迅
速な処理が可能となる。
【0061】請求項6に記載の発明によれば、実環境の
影響による音声特徴量に生じた歪みが除去されるので、
入力音声に対する認識率が向上すると共に、一層簡易か
つ迅速な処理が可能となる。
【0062】請求項7に記載の発明によれば、実環境の
影響による音声特徴量に生じた歪みが除去されるので、
多様な使用環境における認識率を向上させることが可能
な音声認識装置が提供される。
【0063】請求項8に記載の発明によれば、実環境の
影響による音声特徴量に生じた歪みが除去されるので、
多様な使用環境における認識率を簡易かつ迅速な処理に
より向上させることが可能な音声認識装置が提供され
る。
【0064】請求項9に記載の発明によれば、実環境の
影響による音声特徴量に生じた歪みが除去されるので、
多様な使用環境における認識率を一層簡易かつ迅速な処
理により向上させることが可能な音声認識装置が提供さ
れる。
【0065】請求項10に記載の発明によれば、実環境
の影響による音声特徴量に生じた歪みが除去されるの
で、入力音声に対する認識率を向上させることが可能な
音声認識プログラムが提供される。
【0066】請求項11に記載の発明によれば、実環境
の影響による音声特徴量に生じた歪みが除去されるの
で、入力音声に対する認識率を簡易かつ迅速な処理によ
り向上させることが可能な音声認識プログラムが提供さ
れる。
【0067】請求項12に記載の発明によれば、実環境
の影響による音声特徴量に生じた歪みが除去されるの
で、入力音声に対する認識率を一層簡易かつ迅速な処理
により向上させることが可能な音声認識プログラムが提
供される。
【図面の簡単な説明】
【図1】本実施形態に係る音声認識装置の全体構成を示
すブロック図である。
【符号の説明】
1…マイク 2…特徴抽出部 3…補正部 4…補正データ記憶部 5…辞書 6…確率計算部 7…判定部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声認識用の代表パターンを格納する辞
    書の作成環境に対応する第1の音声伝達特性と、実環境
    に対応する第2の音声伝達特性が保持され、入力音声か
    ら抽出された音声特徴量を当該第1の音声伝達特性と当
    該第2の音声伝達特性とに基づいて補正し、前記辞書の
    作成環境に対応する音声特徴量を生成することを特徴と
    する音声認識における音声特徴量の補正方法。
  2. 【請求項2】 前記音声特徴量は周波数領域で表わさ
    れ、前記第1の音声伝達特性と前記第2の音声伝達特性
    は周波数領域における伝達関数であると共に、前記補正
    は、前記入力音声から抽出された音声特徴量に、前記第
    1の音声伝達特性を表す伝達関数を乗じ、更に前記第2
    の伝達特性を表す伝達関数で除して行うものであること
    を特徴とする請求項1に記載の音声認識における音声特
    徴量の補正方法。
  3. 【請求項3】 前記音声特徴量はケプストラム領域で表
    され、前記第1の音声伝達特性と前記第2の音声伝達特
    性は、ケプストラム領域における伝達関数であると共
    に、前記補正は、前記入力された音声特徴量に、前記第
    1の音声伝達特性を表す伝達関数を加え、更に前記第2
    の伝達特性を表す伝達関数を減じて行うものであること
    を特徴とする請求項1に記載の音声認識における音声特
    徴量の補正方法。
  4. 【請求項4】 入力された音声信号から音声特徴量を抽
    出するステップと、 前記音声特徴量を補正して音声認識用の代表パターンを
    格納する辞書の作成環境に対応する音声特徴量を生成す
    るステップと、 補正後の前記音声特徴量と前記代表パターンの確率計算
    を行うステップと、 前記確率計算の結果に基づいて前記入力音声を認識する
    ステップと、 を備え、 前記辞書の作成環境に対応する第1の音声伝達特性と、
    実環境に対応する第2の音声伝達特性が保持され、前記
    抽出された音声特徴量に対し、当該第1の音声伝達特性
    と当該第2の音声伝達特性とに基づいて前記補正を行う
    ことを特徴とする音声認識方法。
  5. 【請求項5】 前記音声特徴量は周波数領域で表わさ
    れ、前記第1の音声伝達特性と前記第2の音声伝達特性
    は周波数領域における伝達関数であると共に、前記補正
    は、前記入力音声から抽出された音声特徴量に、前記第
    1の音声伝達特性を表す伝達関数を乗じ、更に前記第2
    の伝達特性を表す伝達関数で除して行うものであること
    を特徴とする請求項4に記載の音声認識方法。
  6. 【請求項6】 前記音声特徴量はケプストラム領域で表
    され、前記第1の音声伝達特性と前記第2の音声伝達特
    性は、ケプストラム領域における伝達関数であると共
    に、前記補正は、前記入力された音声特徴量に、前記第
    1の音声伝達特性を表す伝達関数を加え、更に前記第2
    の伝達特性を表す伝達関数を減じて行うものであること
    を特徴とする請求項4に記載の音声認識方法。
  7. 【請求項7】 入力された音声信号から音声特徴量を抽
    出する手段と、 前記音声特徴量を補正し、音声認識用の代表パターンを
    格納する辞書の作成環境に対応する音声特徴量を生成す
    る手段と、 補正後の前記音声特徴量と前記代表パターンの確率計算
    を行う手段と、 前記確率計算の結果に基づいて前記入力音声を認識する
    手段と、 を備え、 前記辞書の作成環境に対応する第1の音声伝達特性と、
    実環境に対応する第2の音声伝達特性が保持され、前記
    抽出された音声特徴量に対し、当該第1の音声伝達特性
    と当該第2の音声伝達特性とに基づいて前記補正を行う
    ことを特徴とする音声認識装置。
  8. 【請求項8】 前記音声特徴量は周波数領域で表わさ
    れ、前記第1の音声伝達特性と前記第2の音声伝達特性
    は周波数領域における伝達関数であると共に、前記補正
    は、前記入力音声から抽出された音声特徴量に、前記第
    1の音声伝達特性を表す伝達関数を乗じ、更に前記第2
    の伝達特性を表す伝達関数で除して行うものであること
    を特徴とする請求項7に記載の音声認識装置。
  9. 【請求項9】 前記音声特徴量はケプストラム領域で表
    され、前記第1の音声伝達特性と前記第2の音声伝達特
    性は、ケプストラム領域における伝達関数であると共
    に、前記補正は、前記入力された音声特徴量に、前記第
    1の音声伝達特性を表す伝達関数を加え、更に前記第2
    の伝達特性を表す伝達関数を減じて行うものであること
    を特徴とする請求項7に記載の音声認識装置。
  10. 【請求項10】コンピュータに、 入力された音声信号から音声特徴量を抽出するステップ
    と、 前記音声特徴量を補正して音声認識用の代表パターンを
    格納する辞書の作成環境に対応する音声特徴量を生成す
    るステップと、 補正後の前記音声特徴量と前記代表パターンの確率計算
    を行うステップと、 前記確率計算の結果に基づいて前記入力音声を認識する
    ステップと、 を実行させ、 前記辞書の作成環境に対応する第1の音声伝達特性と、
    実環境に対応する第2の音声伝達特性が保持され、前記
    抽出された音声特徴量に対し、当該第1の音声伝達特性
    と当該第2の音声伝達特性とに基づいて前記補正を行う
    ことを特徴とする音声認識プログラムを記録した記録媒
    体。
  11. 【請求項11】 前記音声特徴量は周波数領域で表わさ
    れ、前記第1の音声伝達特性と前記第2の音声伝達特性
    は周波数領域における伝達関数であると共に、前記補正
    は、前記入力音声から抽出された音声特徴量に、前記第
    1の音声伝達特性を表す伝達関数を乗じ、更に前記第2
    の伝達特性を表す伝達関数で除して行うものであること
    を特徴とする請求項10に記載の音声認識プログラムが
    記録された記録媒体。
  12. 【請求項12】 前記音声特徴量はケプストラム領域で
    表され、前記第1の音声伝達特性と前記第2の音声伝達
    特性は、ケプストラム領域における伝達関数であると共
    に、前記補正は、前記入力された音声特徴量に、前記第
    1の音声伝達特性を表す伝達関数を加え、更に前記第2
    の伝達特性を表す伝達関数を減じて行うものであること
    を特徴とする請求項10に記載の音声認識プログラムが
    記録された記録媒体。
JP10099051A 1998-04-10 1998-04-10 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体 Pending JPH11296192A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10099051A JPH11296192A (ja) 1998-04-10 1998-04-10 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体
US09/288,973 US6381572B1 (en) 1998-04-10 1999-04-09 Method of modifying feature parameter for speech recognition, method of speech recognition and speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10099051A JPH11296192A (ja) 1998-04-10 1998-04-10 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11296192A true JPH11296192A (ja) 1999-10-29

Family

ID=14236793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10099051A Pending JPH11296192A (ja) 1998-04-10 1998-04-10 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体

Country Status (2)

Country Link
US (1) US6381572B1 (ja)
JP (1) JPH11296192A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370139B2 (en) 2006-04-07 2013-02-05 Kabushiki Kaisha Toshiba Feature-vector compensating apparatus, feature-vector compensating method, and computer program product
JP2014021603A (ja) * 2012-07-13 2014-02-03 Denso Corp 伝達関数推定装置、伝達関数推定方法、および、伝達関数推定プログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6542857B1 (en) * 1996-02-06 2003-04-01 The Regents Of The University Of California System and method for characterizing synthesizing and/or canceling out acoustic signals from inanimate sound sources
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
JP2003131683A (ja) * 2001-10-22 2003-05-09 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US11856375B2 (en) 2007-05-04 2023-12-26 Staton Techiya Llc Method and device for in-ear echo suppression
US8526645B2 (en) 2007-05-04 2013-09-03 Personics Holdings Inc. Method and device for in ear canal echo suppression
US10194032B2 (en) 2007-05-04 2019-01-29 Staton Techiya, Llc Method and apparatus for in-ear canal sound suppression
US11683643B2 (en) 2007-05-04 2023-06-20 Staton Techiya Llc Method and device for in ear canal echo suppression
US8081780B2 (en) * 2007-05-04 2011-12-20 Personics Holdings Inc. Method and device for acoustic management control of multiple microphones
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
JP3311467B2 (ja) * 1994-03-10 2002-08-05 富士通株式会社 音声認識システム
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5864809A (en) * 1994-10-28 1999-01-26 Mitsubishi Denki Kabushiki Kaisha Modification of sub-phoneme speech spectral models for lombard speech recognition
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370139B2 (en) 2006-04-07 2013-02-05 Kabushiki Kaisha Toshiba Feature-vector compensating apparatus, feature-vector compensating method, and computer program product
JP2014021603A (ja) * 2012-07-13 2014-02-03 Denso Corp 伝達関数推定装置、伝達関数推定方法、および、伝達関数推定プログラム

Also Published As

Publication number Publication date
US6381572B1 (en) 2002-04-30

Similar Documents

Publication Publication Date Title
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
US20100198577A1 (en) State mapping for cross-language speaker adaptation
JP2013186258A (ja) 雑音抑制方法、プログラム及び装置
JPH11296192A (ja) 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
JP2019215514A (ja) 音声処理方法、装置、デバイスおよび記憶媒体
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
US6934681B1 (en) Speaker's voice recognition system, method and recording medium using two dimensional frequency expansion coefficients
US8990092B2 (en) Voice recognition device
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
JPH10149198A (ja) ノイズ削減装置
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
JPH07121197A (ja) 学習式音声認識方法
De Wet et al. Additive background noise as a source of non-linear mismatch in the cepstral and log-energy domain
JP3868798B2 (ja) 音声認識装置
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
de-la-Calle-Silos et al. Morphologically filtered power-normalized cochleograms as robust, biologically inspired features for ASR
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法
CN117153196B (zh) Pcm语音信号处理方法、装置、设备及介质
CN116229987B (zh) 一种校园语音识别的方法、装置及存储介质
JPWO2013132959A1 (ja) 雑音抑制方法、プログラム及び装置
JP2008139747A (ja) 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体