JPH0554120B2

JPH0554120B2 -

Info

Publication number: JPH0554120B2
Application number: JP58087450A
Authority: JP
Inventors: Nobuo Hataoka; Yoshiaki Asakawa; Akio Komatsu; Hiroshi Ichikawa; Kazuhiro Umemura
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-05-20
Filing date: 1983-05-20
Publication date: 1993-08-11
Also published as: JPS59214099A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は音声認識装置、特に誤認識を避けうる
に好適な音声認識装置に関する。

〔発明の背景〕

従来の音声認識装置は一般に入力音声と標準音
声との照合を行い、距離尺度が最も小さい（ある
いは類似度尺度が最も大きい）標準音声を認識結
果とする方式がとられていた（いわゆるベストフ
アースト方式）。しかしこの方式では、特徴が極
めて似ているカテゴリ間での順位の反転が起こり
易く、認識能力があがらないという問題があつ
た。

〔発明の目的〕

本発明の目的は、従来の音声認識装置では救い
得ない特徴の類似しているカテゴリ間の誤認識を
改善し、音声認識装置の認識性能を向上すること
にある。

〔発明の概要〕

本発明は、入力音声を分析する分析手段と、標
準音声のパタンを格納する格納手段と、分析され
た入力音声のパタンと標準音声のパタンの類似度
を計算して照合を行う類似度計算手段を備えた音
声認識装置において、分析された入力音声が有声
音または無声音であるかを判定する判定手段と、
類似度計算手段より第１位から第ｎ位までの認識
候補を選択し、第１位から第ｎ位までの認識候補
の中に、有音声か無音声かで誤認識を起こしやす
いあらかじめ設定した組合せが存在する場合、判
定手段の結果を用いて、分析された入力音声の再
確認を行う候補選択確認手段とを備えたことを特
徴とする。

〔発明の実施例〕

初めに本発明の原理を詳細に説明する。

一般に音声認識装置の誤認識の傾向は、音響的
に特徴が似ている音声間で起こるのが通例であ
る。たとえば、入力音声が／ichi／の場合、同じ
音韻／ｉ／を持つ音声／ni／と誤認識されること
が多い。第１図はこの誤認識をおこす関係を説明
するものであり、音声／ichi／と／ni／のスペク
トラムの時間構造を表わしている。入力音声を／
ichi／とした時、後半の／ｉ／部が／ni／の／
ｉ／部と特徴が合致する結果、／ichi／と／ni／
の組み合せで誤認識を起こす。その他にも／
hachi／と／ni／など誤認識を起こしやすい組み
合せが種々存在する。一方、第２図は10数字の認
識実験の結果、候補音声を第ｎ位までとつた場合
に、その中に正しい認識結果が含まれている割合
を示したものである。たとえば第３位（ｎ＝３）
までみれば99％以上の音声が正しく認識される可
能性があることがわかる。

以上２つの性質を考慮すれば、第ｎ位までに、
誤認識をおこしやすい音声の組み合せで候補が存
在している場合に、別の判定基準から入力音声と
候補音声との類似性をみなおし、再度候補選択を
行うことは、認識能力（認識率）を向上させ、第
ｎ位までに正解が入つている割合へと近づけうる
とみられる。

本発明では、この点に着目し、誤認識を低減さ
せる音声認識装置を実現している。別の判定基準
からの再認識の仕方としては、音韻性を表現する
各種の特徴量の評価が考えられるが、本発明では
有声／無声の判定、評価を一実施例としてあげ
る。たとえば、音声／ichi／と／ni／との特徴が
大きく異なるところは、／ichi／に含まれる無声
摩擦音／ch／部である。／ch／部は高域成分が
主たる情報であり、母音などの有声音とは特徴を
異にしている。従つて、候補音声に／ichi／と／
ni／との組み合せで存在する場合に、入力音声中
に無声音部が存在するかどうかで、／ichi／ある
いは／ni／と識別することができる。

第３図は有声／無声音判定のために使う特徴量
の抽出部の一実施例を示すもので、帯域通過波
器（BPF）の構成を表わしている。この波器
のデイジタル領域（Ｚ領域）でのフイルタの伝達
関数Ｈ(Z)はＨ(Z)＝a₀＋a₂Z^-2／１＋b₁Z^-1＋b₂Z^-2 ……(1) と表わされ、標準的な構成を(a)に示している。Ｄ
は遅延素子であり、入力x_tがフイルタを通つて、
y_tと出力される。係数a₀、a₂、b₁、b₂の値で中心
周波数と帯域幅とが一意に決まる。(b)は中心周波
数を低域（約600Hz、チヤネル１）、高域（約3300
Hz、チヤネル２）にとつたグロスなBPFのイン
パルス応答を示している。有声／無声の判定はチ
ヤネル２とチヤネル１のBPFの出力比（＝高
域／低域）をもつて行われる。つまり、出力比が
ある閾値より大きい場合は無声音、小さい場合は
有声音あるいは無音としている。

入力音声の再確認の仕方は、この他にも１枚の
偏自己相関係数や零交差回数など種々考えられ
る。

次に本発明の具体的実施例を詳細に説明する。
第４図は本発明を用いた音声認識装置の一実施例
の構成を示すブロツク図である。入力音声４１は
低域波器（LPF）、アナログ−デイジタル変換
器（ADC）４２で下り返し雑音を除去されなが
らアナログ値からデイジタル値にサンプリングさ
れる。その後、分析部４３にて入力音声が分析さ
れ、認識に必要な特徴パラメータと再認識に必要
とする特徴パラメータが求められる。認識に必要
な特徴パラメータとしては、例えば線形予測分析
結果の各種パラメータやフイルタバンク値など、
再確認に必要なパラメータとしては、グロスの
BPF出力値、１次の偏自己相関係数として零交
差回数などが用いられる。その後、類似度計算部
４４にてプリミテイブパタンメモリ４５から読み
込まれた音声の代表的なスペクトルパタンとの類
似度（あるいは距離）が求められる。次に、類似
度計算部の結果を参照して、連続NL（Non−
Linear）マツチング部４６（公知例；連続DP法、
特開昭55−2205号公報の改良）にて、単語系列辞
書メモリ４７から読み込まれた音声の時間構造を
表現する情報をもとに入力音声と単語系列辞書を
構成する単語音声との総類似度などが計算された
後、候補選択・確認部４８にて、有声／無声判定
部４９で得られた判定結果と選択・確認ルールメ
モリ４１０のアルゴリズムに従つて認識候補の選
択および確認がなされ、認識結果４１１が出力さ
れる。有声／無声の判定部は大小比較器のみで構
成しうる。本発明は候補選択・確認部４８と選
択・確認ルールメモリ４１０に関するものであ
る。

第５図は、候補選択・確認部４８でおこなわれ
る本発明の処理フローの一実施例を示している。
認識候補が第ｎ位まで選択され、たとえば第１位
に候補／ni／があり、第２位から第ｎ位までに候
補／ichi／が含まれている場合、入力音声の特徴
の再確認が行なわれ（実施例では有声・無声の判
定により／ch／部の存在がチエツクされる）、候
補の再選択の後、認識結果が得られる。ここで
は、／ichi／と／ni／の例をあげたが、その他に
も／hachi／と／ni／、／san／と／yon／、／
go／と／roku／なども同様に取り扱われる。

本発明の一実施例の効果は、認識実験の結果、
誤認識の２割が改善されたことにより確認され
た。

〔発明の効果〕

本発明によれば、音声認識装置において誤認識
の起こしやすい組み合せでのエラーを別の特徴か
ら再確認することにより、改善させることができ
るので、認識能力の向上をはかる効果がある。

【図面の簡単な説明】

第１図は音声／ichi／と／ni／とが誤認識をお
こす関係を示す図、第２図は、第ｎ位までの候補
をとつた場合に、その中に正しい認識結果が含ま
れている割合を示す図、第３図は、有声／無声音
判定のために使う特徴量の抽出部としての帯域
波器の構成及び特性を表わす図、第４図は本発明
を組み入れた音声認識装置の一実施例を示すブロ
ツク図である。第５図は本発明による候補選択・
確認処理のフローチヤートを示す図である。４８……候補選択・確認部、４１０……選択・
確認ルールメモリ。

Claims

【特許請求の範囲】１入力音声を分析する分析手段と、標準音声の
パタンを格納する格納手段と、上記分析された入
力音声のパタンと上記標準音声のパタンの類似度
を計算して照合を行う類似度計算手段を備えた音
声認識装置において、上記分析された入力音声が有音音または無声音
であるかを判定する判定手段と、上記類似度計算手段より第１位から第ｎ位まで
の認識候補を選択し、上記第１位から第ｎ位まで
の認識候補の中に、有音声か無音声かで誤認識を
起こしやすいあらかじめ設定した組合せが存在す
る場合、上記判定手段の結果を用いて、上記分析
された入力音声の再確認を行う候補選択確認手段
と、を備えたことを特徴とする音声認識装置。