JPH0554120B2 - - Google Patents

Info

Publication number
JPH0554120B2
JPH0554120B2 JP58087450A JP8745083A JPH0554120B2 JP H0554120 B2 JPH0554120 B2 JP H0554120B2 JP 58087450 A JP58087450 A JP 58087450A JP 8745083 A JP8745083 A JP 8745083A JP H0554120 B2 JPH0554120 B2 JP H0554120B2
Authority
JP
Japan
Prior art keywords
speech
recognition
candidates
input speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58087450A
Other languages
English (en)
Other versions
JPS59214099A (ja
Inventor
Nobuo Hataoka
Yoshiaki Asakawa
Akio Komatsu
Hiroshi Ichikawa
Kazuhiro Umemura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58087450A priority Critical patent/JPS59214099A/ja
Publication of JPS59214099A publication Critical patent/JPS59214099A/ja
Publication of JPH0554120B2 publication Critical patent/JPH0554120B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は音声認識装置、特に誤認識を避けうる
に好適な音声認識装置に関する。
〔発明の背景〕
従来の音声認識装置は一般に入力音声と標準音
声との照合を行い、距離尺度が最も小さい(ある
いは類似度尺度が最も大きい)標準音声を認識結
果とする方式がとられていた(いわゆるベストフ
アースト方式)。しかしこの方式では、特徴が極
めて似ているカテゴリ間での順位の反転が起こり
易く、認識能力があがらないという問題があつ
た。
〔発明の目的〕
本発明の目的は、従来の音声認識装置では救い
得ない特徴の類似しているカテゴリ間の誤認識を
改善し、音声認識装置の認識性能を向上すること
にある。
〔発明の概要〕
本発明は、入力音声を分析する分析手段と、標
準音声のパタンを格納する格納手段と、分析され
た入力音声のパタンと標準音声のパタンの類似度
を計算して照合を行う類似度計算手段を備えた音
声認識装置において、分析された入力音声が有声
音または無声音であるかを判定する判定手段と、
類似度計算手段より第1位から第n位までの認識
候補を選択し、第1位から第n位までの認識候補
の中に、有音声か無音声かで誤認識を起こしやす
いあらかじめ設定した組合せが存在する場合、判
定手段の結果を用いて、分析された入力音声の再
確認を行う候補選択確認手段とを備えたことを特
徴とする。
〔発明の実施例〕
初めに本発明の原理を詳細に説明する。
一般に音声認識装置の誤認識の傾向は、音響的
に特徴が似ている音声間で起こるのが通例であ
る。たとえば、入力音声が/ichi/の場合、同じ
音韻/i/を持つ音声/ni/と誤認識されること
が多い。第1図はこの誤認識をおこす関係を説明
するものであり、音声/ichi/と/ni/のスペク
トラムの時間構造を表わしている。入力音声を/
ichi/とした時、後半の/i/部が/ni/の/
i/部と特徴が合致する結果、/ichi/と/ni/
の組み合せで誤認識を起こす。その他にも/
hachi/と/ni/など誤認識を起こしやすい組み
合せが種々存在する。一方、第2図は10数字の認
識実験の結果、候補音声を第n位までとつた場合
に、その中に正しい認識結果が含まれている割合
を示したものである。たとえば第3位(n=3)
までみれば99%以上の音声が正しく認識される可
能性があることがわかる。
以上2つの性質を考慮すれば、第n位までに、
誤認識をおこしやすい音声の組み合せで候補が存
在している場合に、別の判定基準から入力音声と
候補音声との類似性をみなおし、再度候補選択を
行うことは、認識能力(認識率)を向上させ、第
n位までに正解が入つている割合へと近づけうる
とみられる。
本発明では、この点に着目し、誤認識を低減さ
せる音声認識装置を実現している。別の判定基準
からの再認識の仕方としては、音韻性を表現する
各種の特徴量の評価が考えられるが、本発明では
有声/無声の判定、評価を一実施例としてあげ
る。たとえば、音声/ichi/と/ni/との特徴が
大きく異なるところは、/ichi/に含まれる無声
摩擦音/ch/部である。/ch/部は高域成分が
主たる情報であり、母音などの有声音とは特徴を
異にしている。従つて、候補音声に/ichi/と/
ni/との組み合せで存在する場合に、入力音声中
に無声音部が存在するかどうかで、/ichi/ある
いは/ni/と識別することができる。
第3図は有声/無声音判定のために使う特徴量
の抽出部の一実施例を示すもので、帯域通過波
器(BPF)の構成を表わしている。この波器
のデイジタル領域(Z領域)でのフイルタの伝達
関数H(Z)は H(Z)=a0+a2Z-2/1+b1Z-1+b2Z-2 ……(1) と表わされ、標準的な構成を(a)に示している。D
は遅延素子であり、入力xtがフイルタを通つて、
ytと出力される。係数a0、a2、b1、b2の値で中心
周波数と帯域幅とが一意に決まる。(b)は中心周波
数を低域(約600Hz、チヤネル1)、高域(約3300
Hz、チヤネル2)にとつたグロスなBPFのイン
パルス応答を示している。有声/無声の判定はチ
ヤネル2とチヤネル1のBPFの出力比(=高
域/低域)をもつて行われる。つまり、出力比が
ある閾値より大きい場合は無声音、小さい場合は
有声音あるいは無音としている。
入力音声の再確認の仕方は、この他にも1枚の
偏自己相関係数や零交差回数など種々考えられ
る。
次に本発明の具体的実施例を詳細に説明する。
第4図は本発明を用いた音声認識装置の一実施例
の構成を示すブロツク図である。入力音声41は
低域波器(LPF)、アナログ−デイジタル変換
器(ADC)42で下り返し雑音を除去されなが
らアナログ値からデイジタル値にサンプリングさ
れる。その後、分析部43にて入力音声が分析さ
れ、認識に必要な特徴パラメータと再認識に必要
とする特徴パラメータが求められる。認識に必要
な特徴パラメータとしては、例えば線形予測分析
結果の各種パラメータやフイルタバンク値など、
再確認に必要なパラメータとしては、グロスの
BPF出力値、1次の偏自己相関係数として零交
差回数などが用いられる。その後、類似度計算部
44にてプリミテイブパタンメモリ45から読み
込まれた音声の代表的なスペクトルパタンとの類
似度(あるいは距離)が求められる。次に、類似
度計算部の結果を参照して、連続NL(Non−
Linear)マツチング部46(公知例;連続DP法、
特開昭55−2205号公報の改良)にて、単語系列辞
書メモリ47から読み込まれた音声の時間構造を
表現する情報をもとに入力音声と単語系列辞書を
構成する単語音声との総類似度などが計算された
後、候補選択・確認部48にて、有声/無声判定
部49で得られた判定結果と選択・確認ルールメ
モリ410のアルゴリズムに従つて認識候補の選
択および確認がなされ、認識結果411が出力さ
れる。有声/無声の判定部は大小比較器のみで構
成しうる。本発明は候補選択・確認部48と選
択・確認ルールメモリ410に関するものであ
る。
第5図は、候補選択・確認部48でおこなわれ
る本発明の処理フローの一実施例を示している。
認識候補が第n位まで選択され、たとえば第1位
に候補/ni/があり、第2位から第n位までに候
補/ichi/が含まれている場合、入力音声の特徴
の再確認が行なわれ(実施例では有声・無声の判
定により/ch/部の存在がチエツクされる)、候
補の再選択の後、認識結果が得られる。ここで
は、/ichi/と/ni/の例をあげたが、その他に
も/hachi/と/ni/、/san/と/yon/、/
go/と/roku/なども同様に取り扱われる。
本発明の一実施例の効果は、認識実験の結果、
誤認識の2割が改善されたことにより確認され
た。
〔発明の効果〕
本発明によれば、音声認識装置において誤認識
の起こしやすい組み合せでのエラーを別の特徴か
ら再確認することにより、改善させることができ
るので、認識能力の向上をはかる効果がある。
【図面の簡単な説明】
第1図は音声/ichi/と/ni/とが誤認識をお
こす関係を示す図、第2図は、第n位までの候補
をとつた場合に、その中に正しい認識結果が含ま
れている割合を示す図、第3図は、有声/無声音
判定のために使う特徴量の抽出部としての帯域
波器の構成及び特性を表わす図、第4図は本発明
を組み入れた音声認識装置の一実施例を示すブロ
ツク図である。第5図は本発明による候補選択・
確認処理のフローチヤートを示す図である。 48……候補選択・確認部、410……選択・
確認ルールメモリ。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を分析する分析手段と、標準音声の
    パタンを格納する格納手段と、上記分析された入
    力音声のパタンと上記標準音声のパタンの類似度
    を計算して照合を行う類似度計算手段を備えた音
    声認識装置において、 上記分析された入力音声が有音音または無声音
    であるかを判定する判定手段と、 上記類似度計算手段より第1位から第n位まで
    の認識候補を選択し、上記第1位から第n位まで
    の認識候補の中に、有音声か無音声かで誤認識を
    起こしやすいあらかじめ設定した組合せが存在す
    る場合、上記判定手段の結果を用いて、上記分析
    された入力音声の再確認を行う候補選択確認手段
    と、 を備えたことを特徴とする音声認識装置。
JP58087450A 1983-05-20 1983-05-20 音声認識装置 Granted JPS59214099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58087450A JPS59214099A (ja) 1983-05-20 1983-05-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58087450A JPS59214099A (ja) 1983-05-20 1983-05-20 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59214099A JPS59214099A (ja) 1984-12-03
JPH0554120B2 true JPH0554120B2 (ja) 1993-08-11

Family

ID=13915189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58087450A Granted JPS59214099A (ja) 1983-05-20 1983-05-20 音声認識装置

Country Status (1)

Country Link
JP (1) JPS59214099A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58159600A (ja) * 1982-03-05 1983-09-21 富士通株式会社 単音節音声認識方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58159600A (ja) * 1982-03-05 1983-09-21 富士通株式会社 単音節音声認識方式

Also Published As

Publication number Publication date
JPS59214099A (ja) 1984-12-03

Similar Documents

Publication Publication Date Title
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
Yegnanarayana et al. Enhancement of reverberant speech using LP residual signal
EP0764937B1 (en) Method for speech detection in a high-noise environment
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
JPS59226400A (ja) 音声認識装置
Fujimoto et al. Noise robust voice activity detection based on switching Kalman filter
Hanson et al. Spectral dynamics for speech recognition under adverse conditions
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
Duncan et al. Formant estimation algorithm based on pole focusing offering improved noise tolerance and feature resolution
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Geckinli et al. Algorithm for pitch extraction using zero-crossing interval sequence
Nadeu Camprubí et al. Pitch determination using the cepstrum of the one-sided autocorrelation sequence
JPH0554120B2 (ja)
JPS60114900A (ja) 有音・無音判定法
JPH06110488A (ja) 音声検出方法および音声検出装置
Faycal et al. Comparative performance study of several features for voiced/non-voiced classification
JPH07191696A (ja) 音声認識装置
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
Hernando Pericás et al. A comparative study of parameters and distances for noisy speech recognition
Gouda et al. Robust Automatic Speech Recognition system based on using adaptive time-frequency masking
JP2006010739A (ja) 音声認識装置
Skorik et al. On a cepstrum-based speech detector robust to white noise
Jabloun Large vocabulary speech recognition in noisy environments
Fukuda et al. Short-and long-term dynamic features for robust speech recognition.
Kudinov Comparison of some algorithms for endpoint detection for speech recognition device used in cars